
Bienvenue à la voix Chapitre 9 🎉 Une partie de notre longue série après le développement de la voix ouverte.
Nous sommes toujours pompés du lancement de l’édition de prévisualisation vocale de l’assistant à domicile fin décembre. Cela a vendu 23 minutes après notre annonce – Wow! Nous avons travaillé dur pour le garder en stock dans tous nos distributeurs.
Aujourd’hui, nous avons beaucoup de choses sympas pour améliorer votre expérience avec la voix PE ou tout autre satellite d’assistance que vous utilisez. Cela comprend le contrôle vocal entièrement local et hors ligne qui peut être alimenté par presque tous les systèmes d’assistant à domicile.
Dragon NaturallySpeaking était un programme de reconnaissance vocale populaire introduit en 1997. Pour exécuter ce logiciel, vous aviez besoin d’au moins un processeur Pentium de 133 MHz, 32 Mo de RAM et Windows 95 ou ultérieure. Près de trente ans plus tard, la parole en texte est bien meilleure, mais a besoin de ses ordres de grandeur.
Des technologies incroyables sont en cours de développement dans le traitement de la parole, mais il n’est actuellement pas réaliste pour un appareil qui coûte moins de 100 $ pour en profiter réel. C’est possible, bien sûr, mais exécuter l’outil de parole de discours précédemment recommandé, chuchoter
De plus, faire progresser le développement de Whisper est en grande partie entre les mains d’Openai, car nous n’avons pas les ressources nécessaires pour ajouter des langues à cet outil. Nous pourrions ajouter toutes les langues possibles à l’assistant à domicile, mais si une seule partie de notre pipeline vocale manque de support linguistique, elle rend la voix inutilisable pour cette langue. En conséquence, de nombreuses langues largement parlées n’étaient pas étayées pour le contrôle vocal local.
Cela a laissé de nombreux utilisateurs incapables d’utiliser la voix pour contrôler leur maison intelligente sans acheter du matériel ou des services supplémentaires. Nous changeons cela aujourd’hui avec le lancement d’un nouveau morceau clé de notre pipeline de voix.
Voix pour les masses
Discours à phrase
Le résultat: La parole transcrite en moins d’une seconde sur un assistant à domicile vert ou framboise PI 4. Le Raspberry Pi 5 traite sept fois plus rapidement, se déroulant à 150 millisecondes par commandement!
Avec une grande vitesse vient quelques limites. La parole à la phrase ne prend en charge que un sous-ensemble des commandes vocales de l’assistance, et des choses plus ouvertes comme les listes de courses, le nom d’un minuteur et les émissions ne sont pas utilisables hors de la boîte. Vraiment, toutes les commandes qui peuvent accepter des mots aléatoires (wildcards) ne fonctionneront pas. Pour les mêmes raisons, la parole à phrase est destinée au contrôle de la maison uniquement et non aux LLM.
Les commandes de contrôle des maisons les plus importantes sont prises en charge, notamment allumer et éteindre les lumières, modifiant la luminosité et la couleur, obtenir la météo, régler les minuteries et contrôler les joueurs des médias. Des phrases personnalisées peuvent également être ajoutées pour déclencher des choses non couvertes par les commandes actuelles, et nous nous attendons à ce que la communauté proposera de nouvelles façons intelligentes d’utiliser cette technologie.
Tout ce dont vous avez besoin pour commencer avec la voix
La parole en phrase est lancée avec le soutien de l’anglais, du français, de l’allemand, du néerlandais, de l’espagnol et de l’italien – couvrant près de 70% des utilisateurs d’assistants à domicile. Bon. Contrairement aux outils de parole locaux actuellement disponibles, l’ajout de langues à la parole à phraser est beaucoup plus facile. Cela signifie que beaucoup plus de langues seront disponibles dans les versions futures, et nous serions ravis de votre aide à les ajouter!
Nous travaillons sur la mise à jour de l’assistant vocal pour inclure la parole à la phrase. Jusque-là, vous devez installer le module complémentaire manuellement:
Construire un écosystème de voix ouverte
Lorsque nous avons lancé une édition de prévisualisation vocale assistant à domicile, nous n’avons pas simplement lancé de produit; Nous avons lancé un écosystème. Nous l’avons fait en ouverte toutes les pièces et en nous assurant que l’expérience vocale intégrée à l’assistant à domicile n’est pas liée à un seul produit. Tout assistant vocal conçu pour l’écosystème des maisons ouvertes peut profiter de tout ce travail. Même vos bricolages!
Avec l’Esphome 2025.2, que nous publions la semaine prochaine, tout assistant vocal basé sur Esphome prendra en charge la fabrication d’émissions (plus à ce sujet ci-dessous), et ils pourront également utiliser notre nouvel assistant vocal pour s’assurer que les nouveaux utilisateurs ont tout ce dont ils ont besoin pour commencer.
Cela comprendra des mises à jour pour les appareils Atom Echo et ESP32-S3-Box-3 à 13 $ que nous avons utilisés pour le développement pendant l’année de la voix!
Améliorations du modèle de grande langue
Nous visons que l’assistant à domicile soit le lieu de l’expérimentation avec l’IA dans la maison intelligente. Nous soutenons un large éventail de modèles, à la fois locaux et basés sur le cloud, et améliorons constamment les différentes façons dont les gens peuvent interagir avec eux. Nous courons toujours des références
Si vous configurez l’assistance, l’assistant vocal intégré de l’assistant à domicile et le configurez pour utiliser un LLM, vous avez peut-être remarqué de nouvelles fonctionnalités atterrissant récemment. Un changement majeur a été le nouveau paramètre «Préférer les commandes localement», qui tente toujours d’exécuter des commandes avec l’agent de conversation intégré avant qu’il ne l’envoie à un LLM. Nous avons remarqué que de nombreuses commandes faciles à gérer étaient envoyées à un LLM, ce qui peut ralentir les choses et déchets les jetons. Si l’assistant à domicile comprend la commande (par exemple, allumez les lumières), elle effectuera l’action nécessaire et la transmet à votre LLM choisi s’il ne comprend pas la commande (par exemple, quelle est la qualité de l’air comme maintenant).
L’ajout des fonctionnalités ci-dessus nous a fait réaliser que les LLM doivent comprendre les commandes gérées localement. Maintenant, l’histoire de la conversation est partagée avec le LLM. Le contexte vous permet de poser à la LLM des questions de suivi qui se réfèrent aux commandes récentes, qu’elles aient aidé à traiter la demande.
Gauche: sans conversations partagées. À droite: les conversations partagées permettent à GPT de comprendre le contexte.
Réduire le temps de premier mot en streaming
Lors de l’expérimentation de modèles plus grands ou sur du matériel plus lent, les LLM peuvent se sentir lents. Ils ne répondent qu’une fois la réponse entière générée, ce qui peut prendre de longues réponses de longues réponses (vous attendez un certain temps si vous lui demandez de vous raconter un conte de fées épique).
Dans Home Assistant 2025.3, nous introduisons la prise en charge des LLMS pour diffuser leur réponse au chat, permettant aux utilisateurs de commencer à lire pendant que la réponse est générée. Un effet secondaire bonus est que les commandes sont désormais également plus rapides: ils seront exécutés dès leur arrivée, sans attendre que le reste du message soit terminé.
Le streaming arrive initialement pour Ollama et Openai.
Le protocole de contexte modèle amène l’assistant à la maison à chaque IA
En novembre 2024, Anthropic a annoncé le protocole de contexte modèle
En utilisant la nouvelle intégration du protocole de contexte du modèle, l’assistant à domicile peut intégrer des serveurs MCP externes et rendre leurs outils à la disposition des LLM auxquels l’assistant à domicile parle (pour votre assistant vocal ou en automatisation). Il existe toute une collection de serveurs MCP
Avec la nouvelle intégration du serveur de protocole de contexte de modèle, les outils LLM de l’assistant à domicile peuvent être inclus dans d’autres applications AI, comme l’application Claude Desktop (tutoriel
Merci Allen!
Expansion des capacités vocales
Nous continuons à améliorer les capacités de l’agent de conversation intégré de l’assistant à domicile. Avec la dernière version, nous déverrouillons deux nouvelles fonctionnalités:
« Diffuser qu’il est temps pour le dîner »
La nouvelle fonctionnalité de diffusion vous permet d’envoyer rapidement des messages aux autres satellites d’assistance dans votre maison. Cela permet d’annoncer qu’il est temps de dîner ou d’annoncer des batailles entre vos enfants.
« Réglez la température à 19 degrés »
L’assistance précédemment ne pouvait que vous indiquer la température, mais maintenant, elle peut vous aider à changer la température de votre système HVAC. Parfait pour changer la température tout en restant confortable sous une couverture chaude.
Home Assistant Phones Home: les téléphones analogiques sont de retour!
Il y a deux ans, nous avons présenté l’assistant vocal le plus privé au monde: un téléphone analogique! Les utilisateurs peuvent le récupérer pour parler à leur maison intelligente, et seul l’utilisateur peut entendre la réponse. Une fonctionnalité amusante que nous ajoutons aujourd’hui est que l’assistant à domicile peut maintenant Appelez votre téléphone analogique!
Les téléphones analogiques sont excellents lorsque vous souhaitez informer une pièce, au lieu d’une maison entière. Par exemple, lorsque la lessive est terminée, vous pouvez informer quelqu’un dans le salon, mais pas le bureau. De plus, puisque l’utilisateur doit prendre le klaxon pour recevoir l’appel, vous saurez si votre notification a été reçue.
Si vous utilisez un LLM comme assistant vocal, vous pouvez également démarrer une conversation à partir d’un appel téléphonique. Vous pouvez fournir la phrase d’ouverture et via une nouvelle option «Invite System supplémentaire», fournir un contexte supplémentaire au LLM pour interpréter la réponse de l’utilisateur. Par exemple,
- Contexte du système supplémentaire: couvercle de porte de garage.Garage_door a été laissé ouvert pendant 30 minutes. Nous avons demandé à l’utilisateur s’il devait être fermé
- Assistant: La porte de garage doit-elle être fermée?
- Utilisateur: sûr
Merci Jaminh
Améliorations du Wyoming
Le Wyoming est notre norme pour lier toutes les différentes parties nécessaires pour construire un assistant vocal. Home Assistant 2025.3 ajoutera une prise en charge des annonces aux satellites du Wyoming, ce qui les rend également éligibles à la nouvelle fonctionnalité de diffusion.
Nous ajoutons également un nouveau module complémentaire de mots microwake (le même moteur Wake Word fonctionnant sur Voice PE!) Qui peut être utilisé comme alternative à OpenWake Mord. Alors que nous collectons plus d’échantillons du monde réel de notre collectif Wake Word
🫵 Aidez-nous à apporter le choix de la voix!
Nous l’avons déjà dit, et nous le répéterons – l’ère de la voix ouverte a commencé, et plus il y a de gens qui nous rejoignent, mieux c’est. L’assistant à domicile offre de nombreuses façons de commencer par le contrôle vocal, que ce soit en construisant votre propre matériel d’assistance ou en obtenant une édition de prévisualisation vocale assistant à domicile. À chaque mise à jour, vous verrez de nouvelles fonctionnalités et vous pourrez prévisualiser l’avenir de la voix aujourd’hui.
Un grand merci à tous les leaders et contributeurs du langage aidant à façonner la voix ouverte à la maison! Il existe de nombreuses façons de s’impliquer, de la traduction ou du partage d’échantillons de voix à la construction de nouvelles fonctionnalités, apprenez plus sur la façon dont vous pouvez contribuer ici. Un autre excellent moyen de soutenir le développement est de s’abonner à Home Assistant Cloud, qui aide à financer les projets Open Home qui Power Voice.