4.3 L'API Ollama — ESP32 + IA Embarquée | Formations L'Electron Rare

4. 4.3 L'API Ollama

Ollama expose une API REST simple sur le port 11434 :

POST /api/generate
Content-Type: application/json

{
  "model": "qwen2.5:1.5b",
  "prompt": "Quelle est la temperature ideale pour une salle serveur ?",
  "stream": false,
  "options": { "num_predict": 150 }
}

Réponse :

{
  "model": "qwen2.5:1.5b",
  "response": "La temperature ideale pour une salle serveur se situe entre 18 et 27 degres...",
  "done": true,
  "total_duration": 1234567890,
  "eval_count": 42
}

Points importants : - stream: false — on attend la réponse complète (plus simple à parser sur ESP32) - num_predict: 150 — limite les tokens pour ne pas saturer la RAM de l'ESP32 - Le temps de réponse dépend du modèle et du serveur (200 ms à 10 s selon la charge)