Grâce au nouvel algorithme BERT, Google vise à mieux comprendre les requêtes des utilisateurs avec son moteur de recherche. Comment ? En saisissant le sens des mots utilisés par les internautes et le contexte dans lequel ces mots sont employés. Le lancement de Google BERT avait eu lieu en octobre 2019 aux Etats-Unis pour les requêtes dans la langue anglaise. Aujourd’hui BERT est déployé dans environ 70 langues. La langue française est déployée depuis le 9 décembre 2019.
Qu’est-ce que BERT ?
BERT est l’acronyme de « Bidirectional Encoder Representations from Transformers », l’algorithme est considéré par Google comme un changement majeur dans le fonctionnement de son moteur de recherche. Avec cette nouvelle mise à jour, Google a pour but de répondre plus efficacement aux requêtes de ses utilisateurs. Cela est possible en tenant compte des mots-clés utilisés par les internautes, et de la manière dont ces mots sont agencés les uns aux autres. Mais pour arriver à la mise à jour BERT, un travail énorme de recherche sur le traitement automatique du langage naturel a été effectué.
Le moteur de recherche Google, grâce à BERT, doit comprendre le sens d’une requête en comprenant la signification des mots utilisés dans un contexte précis. En d’autres mots, il ne s’agit plus de prendre chaque terme indépendamment des autres, mais de comprendre ces termes selon leur voisinage. C’est la nouveauté apportée par BERT, car désormais cela nécessite de tenir compte de certains éléments des requêtes, ces éléments étaient jusqu’à présent délaissés car ils sont jugés secondaires.
C’est l’une des plus grandes mises à jour du fonctionnement du moteur de recherche de Google depuis plusieurs années, notamment grâce à son ampleur car le nombre de requêtes qui seront touchées par ce changement est énorme (entre une requête sur dix et une requête sur cinq), et aussi par sa technicité. La dernière mise à jour en date à avoir connu un tel succès est RankBrain, cette mise à jour se focalise sur les requêtes ambiguës ou les requêtes inconnues.
Le fonctionnement de BERT
Comme indiqué précédemment, BERT est une technique de traitement du langage naturel (NLP), cette technique est basée sur des réseaux de neurones. Google a diffusée BERT en open source en novembre 2018.
Le terme transformers de BERT fait référence au principe d’analyse des mots en relation avec tous les autres mots dans la phrase, plutôt que de prendre les mots un par un. L’algorithme BERT tient compte du contexte précis et complet d’un mot en examinant les mots qui le précèdent et ceux qui le suivent, ce qui s’avère être utile pour comprendre l’intention derrière les requêtes de recherche des internautes.
L’algorithme Google BERT est particulièrement utile pour les longues requêtes, les requêtes conversationnelles, ainsi que les recherches où les prépositions comme « pour » et « à » ont une grande importance sur le sens de la phrase. Dans ces cas, Bert sera en mesure de comprendre le contexte précis des mots dans votre requête.
Ces Transformers ont apporté d’importantes améliorations dans la traduction automatique, la modélisation linguistique et la génération de texte de haute qualité.
Comprendre le changement avec les exemples du vice-président
Pandu Nayak est le vice-président de la recherche au sein de l’entreprise américaine Google. Il donne un exemple clair du changement que BERT va apporter : avant BERT, dans une requête demandant à Google s’il est possible d’aller récupérer un médicament à la pharmacie pour un autrui, le moteur de recherche se focalisait seulement sur les mots « récupérer », « médicament » et « pharmacie ». Il ne tenait pas compte du terme « autrui » pourtant clé dans cette requête.
Désormais, avec l’application de BERT, le moteur de recherche est capable de comprendre que le retrait des médicaments n’est pas pour vous, mais pour une autre personne. Par conséquent, le résultat qui sera mis en avant dans la première page sera une page du ministère américain de la Santé et des Services sociaux, qui répond justement à cette requête. Cela est valable même si les résultats sont très anciens. En effet, Google a montré que cela a fait remonter une page de l’année 2002.
Un autre exemple de l’efficacité de BERT : en tapant la requête « livres d’exercices de maths pour adultes », Google avait tendance à négliger la dernière partie, celle pour les adultes. Et là encore, ce ne sont pas n’importe quels manuels qui sont recherchés, ce sont des bouquins qui s’adressent à un public précis : les adultes. Dans cet exemple, on comprend que la mise à jour des algorithmes de classement doit ainsi répondre plus finement aux attentes des internautes, en liant les mots les uns aux autres.
Ces exemples peuvent évidemment sembler banals pour un humain, qui sait très bien donner du sens aux mots en les faisant résonner entre eux. Mais la difficulté réside dans la transcription de cela dans un programme informatique.
Les internautes n’utilisent pas forcément les termes les plus justes et adéquats pour exprimer ce qu’ils veulent chercher ou savoir. Pour illustrer ce point, Pandu Nayak prend en exemple le verbe « changer », qui est employé partout : « comment changer la luminosité de mon écran », au lieu de « comment ajuster la luminosité de mon écran », « comment changer une ampoule », au lieu de « comment remplacer une ampoule », ou encore « comment changer les réglages de ma configuration », au lieu de « comment modifier les réglages de ma configuration ». C’est là que réside toute la difficulté des mots, qui peuvent être synonymes, polysémiques et ambigus.
Les limites de BERT
Même si BERT va sans doute améliorer l’expérience des recherches web, Google admet tout de même que son algorithme n’est pas forcément utile dans toutes les circonstances. Pandu Nayak explique cela en donnant l’exemple d’une recherche sur « tartan » qui est une étoffe de laine à carreaux de couleurs, typique des peuples celtes. Avec BERT, les résultats de cette requête étaient plutôt textuels, alors que dans ce cas, un support visuel peut être plus utile.