4. 4.3 L'API Ollama
Ollama expose une API REST simple sur le port 11434 :
POST /api/generate
Content-Type: application/json
{
"model": "qwen2.5:1.5b",
"prompt": "Quelle est la temperature ideale pour une salle serveur ?",
"stream": false,
"options": { "num_predict": 150 }
}
Réponse :
{
"model": "qwen2.5:1.5b",
"response": "La temperature ideale pour une salle serveur se situe entre 18 et 27 degres...",
"done": true,
"total_duration": 1234567890,
"eval_count": 42
}
Points importants :
- stream: false — on attend la réponse complète (plus simple à parser sur ESP32)
- num_predict: 150 — limite les tokens pour ne pas saturer la RAM de l'ESP32
- Le temps de réponse dépend du modèle et du serveur (200 ms à 10 s selon la charge)