3.3 Architecture du modèle de détection de mot-clé — ESP32 + IA Embarquée

4. 3.3 Architecture du modèle de détection de mot-clé

On utilise un modèle basé sur l'architecture DS-CNN (Depthwise Separable CNN) quantifié en INT8, entraîné sur des spectrogrammes Mel de 1 seconde d'audio à 16 kHz.

Audio 16kHz (1s) → Spectrogramme Mel (40 bins × 49 frames)
  → Conv2D 8 filtres → ReLU → MaxPool
  → Conv2D 16 filtres → ReLU → MaxPool
  → Flatten → Dense 64 → ReLU
  → Dense 3 (silence / inconnu / hey_zacus) → Softmax

Caractéristiques : - Taille : ~45 Ko (INT8 quantifié) - Inférence : ~30 ms sur ESP32-S3 à 240 MHz - RAM (tensor arena) : ~80 Ko