4.1 Pourquoi un LLM local ? — ESP32 + IA Embarquée

2. 4.1 Pourquoi un LLM local ?

Un LLM (Large Language Model) comme Llama, Mistral ou Qwen peut générer du texte en langage naturel : réponses à des questions, résumés, explications. Mais pourquoi le faire tourner localement plutôt que d'utiliser l'API d'OpenAI ou Anthropic ?

Critère	LLM Cloud (GPT-4, Claude)	LLM Local (Ollama)
Confidentialité	Données envoyées au serveur	Données restent sur votre réseau
Latence	200–2000 ms (réseau)	50–500 ms (LAN)
Coût	~$0.01–$0.06 / requête	Gratuit après achat du serveur
Disponibilité	Dépend d'Internet	Fonctionne hors ligne (LAN)
Qualité	Excellent (GPT-4, Claude)	Bon à très bon (Llama 3, Mistral)

Pour notre escape room ou un objet connecté, le LLM local est idéal : pas de dépendance Internet, pas de coût récurrent, et les données ne quittent jamais le réseau local.