Chapitre de voix 8 - Aider à la maison aujourd'hui

Comme vous l’avez probablement déjà lu, nous avons lancé notre édition de prévisualisation vocale assistant à domicile aujourd’hui. Le point culminant des dernières années de logiciels open source progresse sur l’assistant vocal cultivé de l’assistant à domicile, Assist. Un groupe important de développeurs dédiés a travaillé ensemble pour ajouter et perfectionner ses nombreuses fonctionnalités, et si cela fait un moment que vous avez essayé d’aider, vous devriez utiliser ce lancement comme une chance de revenir et de voir les progrès que nous avons réalisés.

Home Assistant Voice Preview Edition a été lancé pour s’appuyer sur ce travail, poursuivant l’élan que nous avons déjà construit et accélérant notre objectif non seulement de faire correspondre les capacités des assistants vocaux existants mais de les dépasser. Nous avons eu une première production d’édition de prévisualisation vocale (un aperçu de l’aperçu 😉), et nous avons essayé de les mettre entre les mains de nos leaders linguistiques et de nos développeurs de voix – et nous voyons déjà les fruits de leurs efforts Avec un soutien linguistique s’améliorant au cours du dernier mois!

Je voudrais souligner dans ce chapitre de la voix de tout ce que vous pouvez faire avec AIDAGNE aujourd’hui. Je veux également donner l’état de notre développement, quelles sont les limites et où votre support peut être mieux appliqué.

Table des matières

Aider à la maison aujourd’hui

Origines de l’aide

Assist précoce étant utilisée dans le chatLes premières versions de l’aide via le chat – les choses ont parcouru un long chemin

Le contrôle vocal pour l’assistant à domicile remonte plus loin que la plupart des gens ne le supposent, certains des bases que nous utilisons aujourd’hui étant ajoutés dès 2017. Le tournant majeur est venu lorsque nous avons recentré nos efforts et déclaré en 2023 l’année de la voix. C’était un effort pour concentrer le développement et trouver des domaines où notre communauté pourrait avoir le plus d’impact. Au cours de l’année de l’assistance vocale a été ajoutée à la voix, les intentions ont été améliorées, les langues ajoutées, les mots de réveil ont été créés et nous avons établi de grandes options locales et cloud pour l’exécution de la voix. Peu de temps après l’année de la voix, de nombreuses autres fonctionnalités ont été ajoutées, notamment l’IA intégrée, les minuteries et les mots de réveil encore meilleurs. Year of the Voice a fait rouler le ballon, et Voice Preview Edition continuera son élan.

Commandes

Assist est la technologie sous-jacente qui permet à Home Assistant de transformer les commandes («allumer la lumière») en actions (light.turn_on). Commandes, ou comme nous les appelons intentionpermettez-vous de contrôler à peu près tous les aspects de votre maison intelligente, y compris sur, hors, jouer, faire une pause, ensuite, ouvrir, fermer et plus encore. Nous avons également des intentions qui vous donnent des informations utiles comme le temps, la météo, la température, etc. Enfin, il y a un tas d’autres choses diverses utiles, comme l’ajout d’articles à une liste de courses et les chronoméateurs. Si vous êtes intéressé, il y a une liste complète ici.

Chronomètre

Votre navigateur ne prend pas en charge la balise vidéo.

Lorsque nous avons demandé à nos chronométreurs de la communauté était une capacité de premier plan. Vous pouvez non seulement définir une minuterie, faire une pause, augmenter, diminuer ou annuler, mais vous pouvez également définir des commandes pour déclencher après un temps défini, par exemple, «éteignez le téléviseur en 15 minutes». Vous pouvez également dire «arrêter» sans un mot de réveil, pour faire taire l’alarme de la minuterie. Sur notre édition de prévisualisation vocale, lorsque vous définissez une minuterie, l’anneau LED compte dans les dernières secondes et clignote quand c’est fait.

Exposer les appareils et les alias

Cela nous distingue des autres assistants vocaux: nous vous permettons d’exposer et de masquer efficacement les appareils de votre assistant vocal. Par exemple, vous pouvez choisir de ne pas exposer une serrure de porte, mais exposent simplement le capteur qui sait si la porte est fermée. Cela vous place dans le siège du conducteur sur ce que la voix peut faire dans votre maison. Nous avons également introduit des alias pour vous permettre de donner des appareils plusieurs noms, vous permettant de parler plus naturellement avec l’assistance.

Contexte de la pièce

Si vous dites à votre matériel d’assistance dans quelle pièce il se trouve et que vous vous assurez que d’autres appareils sont organisés par pièce, vous pouvez donner des commandes comme «éteindre les lumières», et sans rien spécifier, cela éteindra les lumières de la pièce dans laquelle vous vous trouvez. Cette fonctionnalité fonctionne également avec les lecteurs multimédias (Play / Pause / Suivant) et les minuteries.

Mots de réveil

Vidéo d'animation de la minuterie
Notre communauté fait un petit temps pour améliorer les mots de sillage avec notre outil.

Les mots de réveil sont les phrases uniques qui lancent un assistant vocal pour écouter et commencer à traiter une commande. Wake Words devait à l’origine être traité sur Assistant à domicile via un module complémentaire comme OpenWake Word, ce qui signifie le matériel d’assistance nécessaire pour diffuser en continu l’audio à domicile. Peu de temps après l’année de la publication de mot de microwake vocal, ce qui a apporté un traitement de texte de réveil sur des réponses plus rapides. Il s’améliore rapidement grâce à notre communauté en utilisant notre outil rapide et facile pour donner des échantillons de leur voix. Il y a une liste croissante de mots de réveil, et les options sur les appareils incluent « OKe Nabu » (par défaut et la plus fiable), « Hey Jarvis » et « Hey Mycroft ». Ces deux moteurs Wake Word ont été construits par la communauté des assistants à domicile et sont open source, donnant au monde deux grands moteurs de mot de sillage gratuits et ouverts!

Traitement de la parole

Vidéo d'animation de la minuterieLe pipeline d’assistance dans toute sa gloire

L’assistance ne peut pas comprendre les mots parlés et a besoin de quelque chose pour prendre cet audio et le transformer en texte – tout cela ensemble est appelé un pipeline d’assistance. Ce traitement de la parole est vraiment intensif au processeur, il ne peut donc pas se produire sur le matériel de l’assistant vocal, et parfois votre système d’assistant à domicile ne peut même pas le gérer. Une étape importante que nous avons faite a été d’ajouter des capacités de parole à texte et de texte à dispection au cloud d’assistant à domicile, ce qui permet au matériel d’assistant à domicile à faible puissance de décharger le traitement de la parole vers le cloud. Home Assistant Cloud ne stocke pas ou n’utilise pas ces données pour s’entraîner – les nuages ​​ne deviennent pas plus privés que les nôtres. C’est également le moyen le plus précis et le plus économe en puissance de traiter la parole. Nous avons mis des efforts considérables dans le traitement de la parole local, la construction des modules complémentaires et un nouveau protocole qu’ils utilisent pour parler à l’assistant à domicile, mais ils dépendent très du soutien linguistique de la communauté.

Soutien aux langues

Notre vérificateur de langueVoyez si votre langue est prise en charge avec notre vérificateur.

Assist vise à soutenir plus de langues que les autres assistants vocaux, et cela a été une entreprise massive pour notre communauté – nous avons besoin de plus d’aide. La première étape pour le support linguistique consiste à obtenir les commandes (intentions) correctes, et nous avons plus de 25 langues principales qui sont prêts à l’emploi aujourd’hui. Nos mots de sillage s’améliorent également pour comprendre différents accents grâce à notre outil collectif Wake Word.

Texte vocal

Nous avons construit notre propre système de texte vocale, Piper, et il prend maintenant en charge plus de 30 langues. Il s’agit d’un système de texte à dispection rapide et neural local rapide qui sonne bien et peut fonctionner sur du matériel à faible puissance (il est optimisé pour PI4!). Il a été construit avec les voix de notre communauté, et si vous ne voyez pas votre langue maternelle, ajoutez votre voix!

Discours à texte

Il y a un domaine qui retient le reste de notre langage soutient plus que les autres, et c’est la parole locale à texte. La construction d’un modèle complet de la parole à texte nécessite de grandes ressources de calcul et des téraoctets d’échantillons, qui est actuellement en dehors de notre portée. Nous utilisons Whisper pour le traitement local de la parole à texte, un projet open source d’OpenAI, et nous sommes reconnaissants qu’il existe. Pour certaines langues, cela fonctionne très bien et ne nécessite pas beaucoup de ressources système pour bien fonctionner, mais pour d’autres, vous avez besoin d’un système assez costaud pour obtenir des résultats acceptables. À notre avis, seulement une quinzaine de langues sont prêtes à être exécutées localement sur du matériel raisonnable (un Intel N100 ou mieux) – c’est pourquoi avant de commencer à imaginer votre configuration parfaite entièrement locale, nous vous recommandons de vérifier le support linguistique.

Nous recherchons toujours de nouvelles solutions pour le matériel à faible puissance et construisent maintenant un autre outil qui utilise une reconnaissance de phrases beaucoup moins complexe. Cela pourrait même fonctionner sur un Raspberry Pi 4, mais il ne serait en mesure d’identifier que des phrases prédéfinies, donc si vous éteignez le script, vous devrez peut-être appeler une IA pour aider à comprendre vos besoins. Nos leaders du langage travaillent dur pour assembler les traductions nécessaires, mais si vous voulez en savoir plus, visitez le discours avec une contrebande.

En général, même lorsque votre langue est prise en charge, vous obtiendrez presque toujours de meilleurs résultats du cloud à domicile. Utilisez l’essai gratuit pour voir ce qui vous convient le mieux. En outre, vous pouvez utiliser les deux, nous connaissons quelqu’un qui utilise une automatisation pour basculer le pipeline d’assistance à une configuration entièrement locale lorsque son Internet est en panne.

IA et assistance

Notre agent de conversation local par défaut mélangé à l’IA est idéal pour le langage naturel et la vitesse

Un autre aspect où nous battons la compétition de haut niveau est l’intégration de l’IA dans notre assistant vocal. Vous pouvez choisir parmi certains des plus grands fournisseurs d’IA Cloud comme Chatgpt, Google Gemini et Claude (comptes payants requis). Vous pouvez également l’exécuter localement via Olllama Si vous avez un processeur graphique moderne avec suffisamment de VRAM, vous permettant de construire la configuration vocale hors ligne la plus capable.

Nos intentions (phrases intégrées de l’assistance) s’améliorent pour comprendre la plupart des commandes, mais AI traite les commandes en langage naturel, ce qui signifie que si vous obtenez le nom de l’appareil très légèrement éteint, il peut toujours comprendre les choses. Il offre également la possibilité de demander en dehors des intentions intégrées. Par exemple, si vous le dites «il fait un peu froid ici», il peut augmenter la température sur votre thermostat, mais il pourrait renoncer à n’importe quel contrôle de la maison et vous dire simplement de mettre une veste – les résultats ne sont pas encore cohérents. Plus utile est sa capacité à prendre plusieurs capteurs et à fournir un contexte. Par exemple, vous pouvez lui demander un rapport de qualité de l’air, et il pourrait passer en revue les niveaux de CO2 et vous dire d’ouvrir une fenêtre qu’il observe est fermée. Tout cela est expérimental, et avoir un contrôle AI de votre maison n’est pas pour tout le monde, mais ce qui est important, c’est que vous ayez le choix.

Conclusion

Tant de nouvelles innovations et améliorations d’assistance se sont produites au cours des deux derniers mois, ce qui témoigne de la puissance d’avoir bon matériel sur lequel construire notre logiciel. Voice Preview Edition est le meilleur matériel de voix ouverte disponible aujourd’hui, et même avec lui uniquement entre les mains de quelques centaines de personnes aujourd’hui, cela fait une différence notable. Qu’il s’agisse d’écrire du code, d’améliorer le support linguistique, de faire des plans ou même de simplement signaler des bogues. L’élan que nous allons construire en ayant cela entre les mains de milliers de personnes allait changer la donne – c’est pourquoi nous avons déclaré que l’ère des assistants de voix ouverte est arrivée.

Dans les sections de commentaires, nous avons toujours quelques personnes qui disent: «Mais je n’utilise pas la voix, qu’en est-il de l’amélioration (ceci ou cela)». La bonne nouvelle est que l’amélioration des autres fonctionnalités de l’assistance et de l’assistant à domicile se déroule déjà en tandem (consultez notre feuille de route pour l’image complète de nos priorités). En fin de compte, seule une fraction de notre développement va à la voix, et notre budget est ce que l’équipe vocale d’Amazon dépense probablement en pizza 😆. Un excellent effet secondaire est que les problèmes que nous résolvons avec la voix bénéficient à d’autres parties de l’assistant à domicile, par exemple, notre intégration de l’IA a été motivée par la voix.

Nous pensons vraiment que la voix fait partie intégrante d’un écosystème de maison intelligente bien équilibrée. Il est particulièrement important pour améliorer l’accessibilité du contrôle des maisons à tous les membres du ménage. Il doit y avoir de réelles options dans l’espace, surtout celles qui vous donnent un contrôle total et un véritable choix en matière de confidentialité.

L’assistant d’assistant à domicile Aperçu est disponible chez les détaillants aujourd’hui,

Édition de prévisualisation vocale avec emballage

Acheter maintenant