Désormais, une équipe de chercheurs Google a publié une proposition de refonte radicale qui rejette l’approche de classement et la remplace par un seul grand modèle de langage IA, tel que BERT ou GPT-3 – ou une future version de ceux-ci. L’idée est qu’au lieu de rechercher des informations dans une vaste liste de pages Web, les utilisateurs poseraient des questions et demanderaient à un modèle de langage formé sur ces pages d’y répondre directement. L’approche pourrait changer non seulement le fonctionnement des moteurs de recherche, mais aussi ce qu’ils font et la façon dont nous interagissons avec eux

Les moteurs de recherche sont devenus plus rapides et plus précis, même si la taille du Web a explosé. L’IA est désormais utilisée pour classer les résultats, et Google utilise BERT pour comprendre les requêtes de recherche mieux. Pourtant, sous ces ajustements, tous les moteurs de recherche grand public fonctionnent toujours de la même manière qu’il y a 20 ans: les pages Web sont indexées par des robots d’exploration (un logiciel qui lit le Web sans arrêt et maintient une liste de tout ce qu’il trouve), les résultats qui correspondent à la requête d’un utilisateur sont recueillis à partir de cet index, et les résultats sont classés.

«Ce modèle de récupération d’index puis de classement a résisté à l’épreuve du temps et a rarement été remis en question ou sérieusement repensé», écrivent Donald Metzler et ses collègues de Google Research.

Le problème est que même les meilleurs moteurs de recherche répondent encore aujourd’hui avec une liste de documents contenant les informations demandées, et non avec les informations elles-mêmes. Les moteurs de recherche ne sont pas non plus bons pour répondre aux requêtes qui nécessitent des réponses tirées de plusieurs sources. C’est comme si vous aviez demandé conseil à votre médecin et reçu une liste d’articles à lire au lieu d’une réponse directe.

Metzler et ses collègues s’intéressent à un moteur de recherche qui se comporte comme un expert humain. Il doit produire des réponses en langage naturel, synthétisées à partir de plus d’un document, et étayer ses réponses par des références à des preuves à l’appui, comme le font les articles de Wikipédia.

Les grands modèles linguistiques nous permettent de faire une partie du chemin. Formé sur la plupart des sites Web et des centaines de livres, GPT-3 tire des informations de plusieurs sources pour répondre aux questions en langage naturel. Le problème est qu’il ne garde pas trace de ces sources et ne peut pas fournir de preuves pour ses réponses. Il n’ya aucun moyen de savoir si GPT-3 perroquet des informations dignes de confiance ou de la désinformation – ou crache simplement des bêtises de sa propre fabrication.

Metzler et ses collègues appellent les modèles de langage dilettantes: «Ils sont perçus comme en savoir beaucoup, mais leurs connaissances sont profondes. La solution, disent-ils, est de construire et de former les futurs BERT et GPT-3 pour conserver des enregistrements de l’origine de leurs mots. Aucun modèle de ce type n’est encore en mesure de le faire, mais c’est possible en principe, et des travaux préliminaires sont en cours dans ce sens.

Il y a eu des décennies de progrès dans différents domaines de recherche, de la réponse aux requêtes à la synthèse de documents en passant par la structuration des informations, explique Ziqi Zhang de l’Université de Sheffield, au Royaume-Uni, qui étudie la recherche d’informations sur le Web. Mais aucune de ces technologies n’a remanié la recherche car elles traitent chacune de problèmes spécifiques et ne sont pas généralisables. La prémisse passionnante de cet article est que les grands modèles linguistiques sont capables de faire toutes ces choses en même temps, dit-il.

Pourtant, Zhang note que les modèles de langage ne fonctionnent pas bien avec des sujets techniques ou spécialisés parce qu’il y a moins d’exemples dans le texte sur lequel ils sont formés. «Il y a probablement des centaines de fois plus de données sur le commerce électronique sur le Web que de données sur la mécanique quantique», dit-il. Les modèles linguistiques d’aujourd’hui sont également biaisés vers l’anglais, ce qui laisserait les parties non anglophones du Web mal desservies.

Pourtant, Zhang accueille favorablement l’idée. «Cela n’a pas été possible dans le passé, car les grands modèles linguistiques n’ont décollé que récemment», dit-il. « Si cela fonctionne, cela transformerait notre expérience de recherche. »