Chapitre 7 de Voice – Mots de réveil et minuteries suralimentés

Ce chapitre est peut-être l’un des plus riches en fonctionnalités à ce jour, apportant la fonction de minuterie très demandée et des améliorations majeures aux mots de réveil, ainsi qu’une technologie expérimentale qui surpasse même les assistants vocaux des grandes technologies.

Bienvenue au chapitre 7 de Voice, au menu du jour :

De grandes choses pour microWakeWord

Au début de cette année, la détection des mots d’activation ne pouvait fonctionner que sur Home Assistant lui-même. Les appareils vocaux transmettaient tout le son à Home Assistant, qui écoutait les mots d’activation pris en charge comme « Hey Jarvis » ou « Okay Nabu ». Cela avait l’inconvénient que votre appareil, disons un Raspberry Pi, ne pouvait prendre en charge qu’une poignée de satellites vocaux, et il y avait toujours un délai dans les réponses. Nous connaissions les avantages de la détection des mots d’activation exécutée sur l’appareil, mais il manquait de bonnes options open source.

Kevin Ahrendtun ancien professeur de mathématiques, a repris la tâche et a créé microWakeWord pendant son temps libre. Il s’agit d’un moteur de mots de réveil optimisé pour fonctionner rapidement et de manière fiable sur des microcontrôleurs. Il a été créé pour ESPHome, mais il est disponible de manière autonome et sous la licence open source Apache 2.0. Personne n’aura plus jamais à payer pour des mots de réveil.

Dans notre chapitre 6 en direct nous avons fait une plongée en profondeur dans la façon dont ce traitement vocal est possible sur un matériel aussi léger (nous parlons des niveaux de RAM et de puissance CPU des PC de la fin des années 90). C’est dans ce dernier chapitre que nous avons lancé la v1 de microWakeWord, qui à l’époque ne pouvait fonctionner que sur des puces ESP32-S3. Beaucoup de choses se sont produites depuis lors, et tout cela est génial.

microWakeWord et Kevin rejoignent l’équipe

Nous sommes fiers d’annoncer que microWakeWord est devenu un partenaire de collaboration de l’Open Home Foundation (OHF). La fondation possède et soutient Home Assistant, ESPHome et notre moteur de synthèse vocale, Piper. Le statut de partenaire de collaboration reconnaît microWakeWord comme une technologie importante pour Open Home.

Nabu Casa, la société à l’origine de Home Assistant Cloud, n’a pas d’investisseurs et son seul but est de servir l’Open Home Foundation. L’argent qu’elle gagne est utilisé pour embaucher des développeurs pour travailler sur Home Assistant et d’autres projets Open Home. Ils ont été une force motrice du développement vocal et construisent leur propre matériel vocal basé sur ESPHome, pour permettre à chacun de profiter d’un assistant vocal axé sur la confidentialité.

Les contributions de Kevin ont déjà été extrêmement précieuses pour notre travail avec Voice. C’est pourquoi nous sommes ravis d’annoncer que Kevin a rejoint Nabu Casa, où il se concentrera dans un premier temps sur microWakeWord et la gestion de la voix dans ESPHome.

Pour soutenir ce travail sur Home Assistant, ESPHome, les assistants vocaux et plus encore, pensez à vous abonner à Home Assistant Cloud.

3x mots d’éveil et 2x précision

Kevin a travaillé dur pour améliorer microWakeWord, et nous sommes heureux d’annoncer la version 2, qui sera incluse dans la prochaine version d’ESPHome. Elle fonctionne beaucoup plus rapidement et avec une précision améliorée.

Atom Echo 13 exécutant deux mots de réveil sur l’appareil !

Lorsque nous disons que le nouveau modèle est plus rapide, nous voulons dire beaucoup plus rapide. Non seulement il fonctionne désormais sur les puces ESP32 normales, mais ces puces peuvent désormais fonctionner trois mots de réveil en même temps! Nous n’avons pas encore ajouté cette fonctionnalité à Home Assistant, mais nous espérons pouvoir déclencher vos assistants vocaux néerlandais et anglais, chacun avec ses propres mots de réveil.

Les nouvelles performances ne se font pas au détriment de la précision, bien au contraire. Le nouveau modèle est deux fois plus performant comme microWakeWord v1, surtout lorsque vous profitez de sa détection d’activité vocale fonctionnalité. Nous aimerions comparer nos modèles à ceux de nos concurrents commerciaux, mais les « fausses acceptations par heure » sont considérées par la plupart des entreprises comme un secret commercial et ne sont pas publiées.

Le graphique ci-dessus donne les résultats du test de référence Picovoice, qui utilise des centaines d’échantillons du mot d’éveil provenant de locuteurs réels répartis sur 24 heures avec un bruit de fond réaliste mélangé. Les phrases en anglais parlé qui ne contiennent pas le mot d’éveil sont superposées pour tester les fausses acceptations, c’est-à-dire le déclenchement lorsque le mot d’éveil n’a pas été réellement prononcé. Nous pouvons augmenter le niveau de confiance du modèle, ce qui le rend moins susceptible d’avoir un faux déclencheur, mais également moins susceptible d’accepter un mot d’éveil. Dans l’ensemble, la version 2 surpasse la version 1, et dans de bonnes circonstances, elle surpasse la version 1 de près du double !

L’étape suivante de microWakeWord consiste à améliorer la précision pour les locuteurs non anglophones. Pour cela, nous allons devoir collecter des enregistrements de personnes du monde entier prononçant les mots d’éveil. Nous travaillons sur un site Web qui permettra à chacun de participer facilement directement depuis son téléphone.

Les minuteurs sont là !

Demandez et vous recevrez – en février de cette année, nous avons demandé à notre communauté quelles fonctionnalités elle attendait d’un assistant vocal. Après le contrôle des appareils et la réponse aux mots d’activation, les minuteurs étaient les troisièmes fonctionnalités les plus demandées. Ce n’est qu’un exemple de la manière dont notre feuille de route nous aide à repérer les lacunes et à élaborer des solutions.

Tout d’abord les points importants : oui, vous pouvez avoir plusieurs minuteriesCes minuteurs de courte durée permettent aux utilisateurs de se rappeler quelque chose après un certain temps. Par exemple, si vous faites cuire des œufs, vous pouvez régler un minuteur pour vous rappeler de les sortir. Chaque minuteur a une durée et éventuellement un nom.

Les utilisateurs peuvent utiliser leur voix pour créer, annuler, mettre en pause, reprendre et modifier la durée d’un minuteur :

« Créer un minuteur de 5 minutes »
« Créer un minuteur de 15 minutes pour la pizza »
« Annuler mon minuteur »
« Ajoutez 2 minutes à mon minuteur de 5 minutes »
« Soustrayez 3 minutes à mon minuteur de pizza »

Lorsque vous donnez un nom aux minuteurs, il est plus facile de les distinguer lorsque vous en avez plusieurs en cours d’exécution, car vous pouvez désormais les référencer par nom ou par durée (« annuler le minuteur de pizza » ou « annuler le minuteur de 15 minutes »).

Minuteries fonctionnant sur une box S3, avec texte de compte à rebours et barre de chargement !

Les minuteurs sont disponibles dès aujourd’hui sur les satellites vocaux ESPHome et Wyoming connectés à la dernière version de Home Assistant. Si vous utilisez le micrologiciel que nous avons fourni pour le kit de développement Atom Echo ou l’ESP32-S3 Box 3, effectuez une mise à jour vers la dernière version pour la prise en charge du minuteur.

Dispositifs de contrôle de minuterie

En travaillant sur les minuteurs, nous nous sommes demandé : pourquoi limiter nos utilisateurs à un simple bip sonore une fois le temps écoulé ? Et si n’importe quelle commande pouvait être exécutée avec un délai ?

Une minuterie contrôlant une lumière

C’est pourquoi dans cette version, les utilisateurs peuvent désormais autoriser n’importe quelle commande vocale à exécuter avec un délai temporisé : « éteindre les lumières dans 10 minutes ». Une fois le délai écoulé, le texte de la commande vocale est traité par le même assistant vocal qui a entendu la commande temporisée. Attention, contrairement aux minuteurs vocaux classiques, ces commandes temporisées ne peuvent pas être annulées ou modifiées.

Éteignez les lumières dans 5 minutes
Mettre la télévision en pause dans 10 minutes
Ouvrez les stores en 5 minutes

Les grands modèles de langage (LLM) sont également capables de créer des commandes différées, par exemple dire « je vais me coucher tôt ce soir », ce qui pourrait conduire le LLM à s’envoyer une commande différée pour démarrer la routine du coucher plus tôt.

L’IA aux commandes

En parlant de LLM, notre mise à jour Home Assistant 2024.6 permet aux agents IA de contrôler vos appareils. Cela fait partie de notre stratégie IA plus large que nous avons décrite dans un récent blog. Elle constituera un élément important de la future maison intelligente, et Home Assistant sera la meilleure plateforme pour l’IA en raison de son accent sur la confidentialité et le choix. Nous savons qu’elle n’est pas destinée à tout le monde et qu’elle n’est pas prête à être adoptée en masse, mais nous la mettons à disposition pour que vous puissiez l’expérimenter. Essayez-la dès aujourd’hui sur votre matériel vocal, le contrôle des appareils étant actuellement disponible sur Google AI et OpenAI.

Développer un LLM avec des scripts

Pour faciliter l’élargissement des tâches que peuvent effectuer les LLM, Home Assistant 2024.7 (à venir la semaine prochaine) permettra aux LLM d’accéder aux scripts approuvés. Cela vous permet de contrôler précisément ce que le LLM fera dans des situations spécifiques tout en conservant la flexibilité et le traitement du langage naturel dans lesquels les IA sont si douées.

Par exemple, si vous dites à un agent de conversation LLM que vous quittez la maison, il peut se produire un comportement inattendu, comme l’extinction des appareils que vous souhaitez laisser allumés. Pour résoudre ce problème, créez un script « quitter la maison » qui fait exactement ce que vous voulez et exposez-le à Assist. Vous pouvez également ajouter des champs dans le script, qui aident à guider davantage le LLM, par exemple en lui donnant des comportements différents pour les voyages courts ou longs loin de chez vous. Désormais, lorsque vous dites quelque chose comme « Je pars quelques minutes », le script verrouillera la porte, mais n’éteindra pas la climatisation.

Contrôle multimédia amélioré

Assist peut désormais contrôler les lecteurs multimédias à l’aide de commandes simples telles que « pause », « reprendre », « suivant » et « régler le volume à 100 % ». Bien que simple en apparence, une grande complexité se cache en dessous. Imaginez un salon avec deux lecteurs multimédias : une enceinte intelligente en pause et un téléviseur en cours de lecture. Si l’utilisateur dit « pause », le téléviseur sera en pause car c’est le seul lecteur multimédia en cours de lecture. Cependant, si l’utilisateur dit ensuite « reprendre », Assist ne reprendra que le téléviseur car c’était le dernier lecteur multimédia en pause.

Le contrôle des médias en action

Les lecteurs multimédias peuvent être ciblés par nom (« mettre la télévision en pause ») ou par zone (« reprendre la musique dans la cuisine »). Lorsqu’ils ne sont pas fournis, la zone et l’étage du satellite vocal sont utilisés pour déterminer le ou les lecteurs multimédias à cibler. Ainsi, « pause » recherchera les lecteurs multimédias en cours de lecture dans la zone actuelle, suivis de l’étage actuel.

Des mises à jour plus faciles pour votre assistant vocal

Nos satellites vocaux sont alimentés par ESPHome, notre infrastructure open source permettant de créer des appareils domestiques intelligents privés, sécurisés et fiables de toutes sortes. Nous améliorons régulièrement nos capacités vocales dans les mises à jour et nous souhaitons que nos utilisateurs aient facilement accès à ces nouvelles fonctionnalités.

Avec la dernière version d’ESPHome, nous avons introduit les mises à jour Over-the-Air. Suite à la prochaine sortie de Home Assistant 2024.7, les utilisateurs construisant des projets de satellite vocal prêts à l’emploi (comme l’Atom Echo ou la S3 Box), pourront mettre à jour l’appareil directement depuis Home Assistant sans nécessiter le module complémentaire ESPHome. Ces appareils peuvent télécharger leur firmware directement depuis le Web, aucune installation n’est requise.

Si vous êtes resté jusqu’à la fin, n’oubliez pas de regarder le flux en direct du chapitre 7 pour encore plus sur la voix !