La parole à phrase ramène la voix à la maison – Chapitre de la voix 9

Bienvenue à la voix Chapitre 9 🎉 Une partie de notre longue série après le développement de la voix ouverte.

Nous sommes toujours pompés du lancement de l’édition de prévisualisation vocale de l’assistant à domicile fin décembre. Cela a vendu 23 minutes après notre annonce – Wow! Nous avons travaillé dur pour le garder en stock dans tous nos distributeurs.

Aujourd’hui, nous avons beaucoup de choses sympas pour améliorer votre expérience avec la voix PE ou tout autre satellite d’assistance que vous utilisez. Cela comprend le contrôle vocal entièrement local et hors ligne qui peut être alimenté par presque tous les systèmes d’assistant à domicile.

Dragon NaturallySpeaking était un programme de reconnaissance vocale populaire introduit en 1997. Pour exécuter ce logiciel, vous aviez besoin d’au moins un processeur Pentium de 133 MHz, 32 Mo de RAM et Windows 95 ou ultérieure. Près de trente ans plus tard, la parole en texte est bien meilleure, mais a besoin de ses ordres de grandeur.

Des technologies incroyables sont en cours de développement dans le traitement de la parole, mais il n’est actuellement pas réaliste pour un appareil qui coûte moins de 100 $ pour en profiter réel. C’est possible, bien sûr, mais exécuter l’outil de parole de discours précédemment recommandé, chuchotersur un Raspberry Pi 4, prend au moins 5 secondes pour transformer votre discours en texte, avec différents niveaux de succès. C’est pourquoi nous avons fini par recommander au moins un Intel N100 pour exécuter votre assistant vocal complètement localement. Ce piqué. Notre analyse opt-in montre que plus de 50% des utilisateurs d’assistants à domicile gèrent leurs maisons sur des machines abordables et à faible puissance comme l’assistant à domicile Green ou un Raspberry Pi.

De plus, faire progresser le développement de Whisper est en grande partie entre les mains d’Openai, car nous n’avons pas les ressources nécessaires pour ajouter des langues à cet outil. Nous pourrions ajouter toutes les langues possibles à l’assistant à domicile, mais si une seule partie de notre pipeline vocale manque de support linguistique, elle rend la voix inutilisable pour cette langue. En conséquence, de nombreuses langues largement parlées n’étaient pas étayées pour le contrôle vocal local.

Cela a laissé de nombreux utilisateurs incapables d’utiliser la voix pour contrôler leur maison intelligente sans acheter du matériel ou des services supplémentaires. Nous changeons cela aujourd’hui avec le lancement d’un nouveau morceau clé de notre pipeline de voix.

Voix pour les masses

Discours à phrase est basé sur la technologie vocale ancienne, presque ancienne, selon les normes d’aujourd’hui. Au lieu de la capacité de transcrire pratiquement n’importe quel discours en texte, il est limité à un ensemble de phrases pré-formées. La parole à phrase générera automatiquement les phrases et affinera un modèle basé sur les appareils, les zones et les déclencheurs de phrases dans votre serveur assistant à domicile – 100% localement et hors ligne.

Le résultat: La parole transcrite en moins d’une seconde sur un assistant à domicile vert ou framboise PI 4. Le Raspberry Pi 5 traite sept fois plus rapidement, se déroulant à 150 millisecondes par commandement!

Avec une grande vitesse vient quelques limites. La parole à la phrase ne prend en charge que un sous-ensemble des commandes vocales de l’assistance, et des choses plus ouvertes comme les listes de courses, le nom d’un minuteur et les émissions ne sont pas utilisables hors de la boîte. Vraiment, toutes les commandes qui peuvent accepter des mots aléatoires (wildcards) ne fonctionneront pas. Pour les mêmes raisons, la parole à phrase est destinée au contrôle de la maison uniquement et non aux LLM.

Les commandes de contrôle des maisons les plus importantes sont prises en charge, notamment allumer et éteindre les lumières, modifiant la luminosité et la couleur, obtenir la météo, régler les minuteries et contrôler les joueurs des médias. Des phrases personnalisées peuvent également être ajoutées pour déclencher des choses non couvertes par les commandes actuelles, et nous nous attendons à ce que la communauté proposera de nouvelles façons intelligentes d’utiliser cette technologie.

Tout ce dont vous avez besoin pour commencer avec la voix

La parole en phrase est lancée avec le soutien de l’anglais, du français, de l’allemand, du néerlandais, de l’espagnol et de l’italien – couvrant près de 70% des utilisateurs d’assistants à domicile. Bon. Contrairement aux outils de parole locaux actuellement disponibles, l’ajout de langues à la parole à phraser est beaucoup plus facile. Cela signifie que beaucoup plus de langues seront disponibles dans les versions futures, et nous serions ravis de votre aide à les ajouter!

Nous travaillons sur la mise à jour de l’assistant vocal pour inclure la parole à la phrase. Jusque-là, vous devez installer le module complémentaire manuellement:

Construire un écosystème de voix ouverte

Lorsque nous avons lancé une édition de prévisualisation vocale assistant à domicile, nous n’avons pas simplement lancé de produit; Nous avons lancé un écosystème. Nous l’avons fait en ouverte toutes les pièces et en nous assurant que l’expérience vocale intégrée à l’assistant à domicile n’est pas liée à un seul produit. Tout assistant vocal conçu pour l’écosystème des maisons ouvertes peut profiter de tout ce travail. Même vos bricolages!

Avec l’Esphome 2025.2, que nous publions la semaine prochaine, tout assistant vocal basé sur Esphome prendra en charge la fabrication d’émissions (plus à ce sujet ci-dessous), et ils pourront également utiliser notre nouvel assistant vocal pour s’assurer que les nouveaux utilisateurs ont tout ce dont ils ont besoin pour commencer.

Cela comprendra des mises à jour pour les appareils Atom Echo et ESP32-S3-Box-3 à 13 $ que nous avons utilisés pour le développement pendant l’année de la voix!

Nouvelle fonctionnalité de diffusion en action avec Atom et Box 3

Améliorations du modèle de grande langue

Nous visons que l’assistant à domicile soit le lieu de l’expérimentation avec l’IA dans la maison intelligente. Nous soutenons un large éventail de modèles, à la fois locaux et basés sur le cloud, et améliorons constamment les différentes façons dont les gens peuvent interagir avec eux. Nous courons toujours des références Pour suivre les meilleurs modèles et assurez-vous que nos modifications mènent à une expérience améliorée.

Si vous configurez l’assistance, l’assistant vocal intégré de l’assistant à domicile et le configurez pour utiliser un LLM, vous avez peut-être remarqué de nouvelles fonctionnalités atterrissant récemment. Un changement majeur a été le nouveau paramètre «Préférer les commandes localement», qui tente toujours d’exécuter des commandes avec l’agent de conversation intégré avant qu’il ne l’envoie à un LLM. Nous avons remarqué que de nombreuses commandes faciles à gérer étaient envoyées à un LLM, ce qui peut ralentir les choses et déchets les jetons. Si l’assistant à domicile comprend la commande (par exemple, allumez les lumières), elle effectuera l’action nécessaire et la transmet à votre LLM choisi s’il ne comprend pas la commande (par exemple, quelle est la qualité de l’air comme maintenant).

L’ajout des fonctionnalités ci-dessus nous a fait réaliser que les LLM doivent comprendre les commandes gérées localement. Maintenant, l’histoire de la conversation est partagée avec le LLM. Le contexte vous permet de poser à la LLM des questions de suivi qui se réfèrent aux commandes récentes, qu’elles aient aidé à traiter la demande.

Gauche: sans conversations partagées. À droite: les conversations partagées permettent à GPT de comprendre le contexte.

Réduire le temps de premier mot en streaming

Lors de l’expérimentation de modèles plus grands ou sur du matériel plus lent, les LLM peuvent se sentir lents. Ils ne répondent qu’une fois la réponse entière générée, ce qui peut prendre de longues réponses de longues réponses (vous attendez un certain temps si vous lui demandez de vous raconter un conte de fées épique).

Dans Home Assistant 2025.3, nous introduisons la prise en charge des LLMS pour diffuser leur réponse au chat, permettant aux utilisateurs de commencer à lire pendant que la réponse est générée. Un effet secondaire bonus est que les commandes sont désormais également plus rapides: ils seront exécutés dès leur arrivée, sans attendre que le reste du message soit terminé.

Le streaming arrive initialement pour Ollama et Openai.

Le protocole de contexte modèle amène l’assistant à la maison à chaque IA

En novembre 2024, Anthropic a annoncé le protocole de contexte modèle (MCP). Il s’agit d’un nouveau protocole pour permettre aux LLM de contrôler les services externes. Dans ce communiqué, contribué par Allen PorterL’assistant à domicile peut parler MCP.

En utilisant la nouvelle intégration du protocole de contexte du modèle, l’assistant à domicile peut intégrer des serveurs MCP externes et rendre leurs outils à la disposition des LLM auxquels l’assistant à domicile parle (pour votre assistant vocal ou en automatisation). Il existe toute une collection de serveurs MCPy compris des sites Web sauvages comme les sites Web (tutoriel), l’accès au serveur de fichiers, ou même Bluesky.

Avec la nouvelle intégration du serveur de protocole de contexte de modèle, les outils LLM de l’assistant à domicile peuvent être inclus dans d’autres applications AI, comme l’application Claude Desktop (tutoriel). Si l’agent AI décolle, votre maison intelligente sera prête à être intégrée.

Merci Allen!

Expansion des capacités vocales

Nous continuons à améliorer les capacités de l’agent de conversation intégré de l’assistant à domicile. Avec la dernière version, nous déverrouillons deux nouvelles fonctionnalités:

« Diffuser qu’il est temps pour le dîner »

La nouvelle fonctionnalité de diffusion vous permet d’envoyer rapidement des messages aux autres satellites d’assistance dans votre maison. Cela permet d’annoncer qu’il est temps de dîner ou d’annoncer des batailles entre vos enfants.

« Réglez la température à 19 degrés »

L’assistance précédemment ne pouvait que vous indiquer la température, mais maintenant, elle peut vous aider à changer la température de votre système HVAC. Parfait pour changer la température tout en restant confortable sous une couverture chaude.

Home Assistant Phones Home: les téléphones analogiques sont de retour!

Il y a deux ans, nous avons présenté l’assistant vocal le plus privé au monde: un téléphone analogique! Les utilisateurs peuvent le récupérer pour parler à leur maison intelligente, et seul l’utilisateur peut entendre la réponse. Une fonctionnalité amusante que nous ajoutons aujourd’hui est que l’assistant à domicile peut maintenant Appelez votre téléphone analogique!

Les téléphones analogiques sont excellents lorsque vous souhaitez informer une pièce, au lieu d’une maison entière. Par exemple, lorsque la lessive est terminée, vous pouvez informer quelqu’un dans le salon, mais pas le bureau. De plus, puisque l’utilisateur doit prendre le klaxon pour recevoir l’appel, vous saurez si votre notification a été reçue.

Demandez à votre assistant à domicile de vous appeler

Si vous utilisez un LLM comme assistant vocal, vous pouvez également démarrer une conversation à partir d’un appel téléphonique. Vous pouvez fournir la phrase d’ouverture et via une nouvelle option «Invite System supplémentaire», fournir un contexte supplémentaire au LLM pour interpréter la réponse de l’utilisateur. Par exemple,

Contexte du système supplémentaire: couvercle de porte de garage.Garage_door a été laissé ouvert pendant 30 minutes. Nous avons demandé à l’utilisateur s’il devait être fermé
Assistant: La porte de garage doit-elle être fermée?
Utilisateur: sûr

Merci Jaminh pour la contribution.

Améliorations du Wyoming

Le Wyoming est notre norme pour lier toutes les différentes parties nécessaires pour construire un assistant vocal. Home Assistant 2025.3 ajoutera une prise en charge des annonces aux satellites du Wyoming, ce qui les rend également éligibles à la nouvelle fonctionnalité de diffusion.

Nous ajoutons également un nouveau module complémentaire de mots microwake (le même moteur Wake Word fonctionnant sur Voice PE!) Qui peut être utilisé comme alternative à OpenWake Mord. Alors que nous collectons plus d’échantillons du monde réel de notre collectif Wake Wordles modèles inclus dans Microwakeword seront recyclés et améliorés.

🫵 Aidez-nous à apporter le choix de la voix!

Nous l’avons déjà dit, et nous le répéterons – l’ère de la voix ouverte a commencé, et plus il y a de gens qui nous rejoignent, mieux c’est. L’assistant à domicile offre de nombreuses façons de commencer par le contrôle vocal, que ce soit en construisant votre propre matériel d’assistance ou en obtenant une édition de prévisualisation vocale assistant à domicile. À chaque mise à jour, vous verrez de nouvelles fonctionnalités et vous pourrez prévisualiser l’avenir de la voix aujourd’hui.

Un grand merci à tous les leaders et contributeurs du langage aidant à façonner la voix ouverte à la maison! Il existe de nombreuses façons de s’impliquer, de la traduction ou du partage d’échantillons de voix à la construction de nouvelles fonctionnalités, apprenez plus sur la façon dont vous pouvez contribuer ici. Un autre excellent moyen de soutenir le développement est de s’abonner à Home Assistant Cloud, qui aide à financer les projets Open Home qui Power Voice.