2. 3.1 Qu'est-ce que le TinyML ?
Le TinyML (Tiny Machine Learning) désigne l'exécution de modèles d'apprentissage automatique sur des microcontrôleurs et systèmes embarqués contraints : quelques centaines de Ko de RAM, pas de système d'exploitation, pas d'accélérateur GPU. L'objectif est de traiter les données localement — sur le capteur lui-même — plutôt que de les envoyer dans le cloud. Résultat : latence nulle sur la décision, fonctionnement hors ligne, confidentialité des données.
Ce qui est "tiny", c'est principalement le modèle après quantification. Un réseau de neurones entraîné en float32 (4 octets par poids) est converti en int8 (1 octet par poids) : le modèle est ~4× plus petit et son inférence 2 à 4× plus rapide sur du matériel sans FPU dédié.
Exemple concret — projet Zacus : un modèle TinyML détecte le mot-clé "hey zacus" directement sur l'ESP32-S3, sans connexion réseau. La détection a une latence inférieure à 50 ms et consomme moins de 5 % du CPU. Ce n'est que lorsque le mot-clé est détecté que l'ESP32 se connecte au LLM local — économisant ainsi bande passante et batterie.