4. 3.3 Architecture du modèle de détection de mot-clé
On utilise un modèle basé sur l'architecture DS-CNN (Depthwise Separable CNN) quantifié en INT8, entraîné sur des spectrogrammes Mel de 1 seconde d'audio à 16 kHz.
Audio 16kHz (1s) → Spectrogramme Mel (40 bins × 49 frames)
→ Conv2D 8 filtres → ReLU → MaxPool
→ Conv2D 16 filtres → ReLU → MaxPool
→ Flatten → Dense 64 → ReLU
→ Dense 3 (silence / inconnu / hey_zacus) → Softmax
Caractéristiques : - Taille : ~45 Ko (INT8 quantifié) - Inférence : ~30 ms sur ESP32-S3 à 240 MHz - RAM (tensor arena) : ~80 Ko