L’avenir de la recherche : BERT

Les moteurs de recherche ont souvent du mal à interpréter correctement les demandes écrites et orales. C'est là qu'intervient BERT : l'avenir de la recherche.

By Marc Ferrentino

août 27, 2020

3 min

Le but principal de la recherche est de comprendre le langage.

Il y a 20 ans, utiliser de simples mots clés indépendants était la norme. Aujourd'hui, la plupart des internautes sont plus enclins (voire incités par des moteurs de recherche comme Google) à poser des questions plus complexes dans les barres de recherche ou à un assistant vocal. Pourquoi ? Parce que lorsque nous parlons, nous ne débitons pas une suite de mots aléatoires et les ordinateurs l'ont bien compris.

Le traitement automatique du langage naturel (TALN), qui associe l'IA et la linguistique pour apprendre aux ordinateurs à lire, comprendre et donner un sens aux langages humains, fait l'objet d'études depuis plus de 50 ans déjà, mais les avancées récentes dans ce domaine ont réellement permis aux moteurs de recherche de s'améliorer. Comme presque chaque mot de la langue anglaise a plusieurs significations, les moteurs de recherche ont souvent du mal à interpréter ce que les utilisateurs veulent dire, que ce soit à l'oral ou à l'écrit.

C'est là qu'intervient BERT.

BERT, acronyme de Bidirectional Encoder Representations from Transformers, est un système révolutionnaire d'apprentissage automatique pour le TALN développé par Google en automne 2019 et conçu pour améliorer la compréhension des recherches effectuées par les utilisateurs. BERT permet au modèle linguistique de déterminer le contexte d'un mot d'après les mots qui l'entourent plutôt qu'en fonction du seul mot qui le précède ou le suit directement.

Personne, lieu ou chose ?

Depuis que nous avons lancé Yext Answers, notre outil de recherche sur site, nous améliorons constamment son algorithme de recherche pour aider les entreprises à fournir des résultats plus pertinents aux clients sur leurs propres sites Internet. Nous avons récemment lancé Milky Way, la dernière mise à jour de l'algorithme Answers qui exploite la technologie BERT pour distinguer plus précisément les établissements d'autres entités. La raison principale en est que les noms d'établissements (lieu) sont souvent les mêmes que ceux de personnes (personne) ou de produits (chose). Par exemple, les deux recherches suivantes comprennent le mot << Orlando >> :

Dans l'une, l'utilisateur fait clairement référence à la ville d'Orlando (lieu), alors que dans l'autre l'utilisateur fait référence à quelqu'un du nom d'Orlando (personne). La classification du premier Orlando en tant que lieu et du deuxième en tant que prénom s'appelle << reconnaissance d'entités nommées >> (REN). Ce processus permet de trouver et classer des entités nommées mentionnées dans un texte non structuré dans des catégories prédéfinies.

Pour vous et moi, il est facile de distinguer ces requêtes car nous ne voyons pas Orlando en tant que mot seul mais dans le contexte des mots qui l'entourent. Dans le premier exemple, tout mot qui suit << banque proche >> sera certainement un nom de lieu. Dans le deuxième exemple, Orlando suivi de Bloom fait immédiatement référence à l'acteur connu. C'est dans ce genre de situation que BERT est indispensable, puisqu'il est conçu pour comprendre la relation contextuelle entre les mots dans un texte. Auparavant, Yext Answers fournissait parfois un résultat basé sur la localisation pour << Orlando >> dans la recherche << Orlando Bloom >>. Grâce à cette nouvelle approche, Yext Answers peut désormais distinguer ces deux cas.

Un BERT vaut mieux que deux tu l'auras

Chez Yext, nous construisons le moteur officiel Answers et introduire BERT à notre algorithme Answers est une étape importante pour permettre aux entreprises de fournir les réponses les plus précises et officielles possibles. Nous savons qu'une seule réponse erronée peut avoir un impact dévastateur, que ce soit en entraînant une perte commerciale ou un appel coûteux au service client. En identifiant plus précisément la demande d'un client, un plus grand nombre d'entreprises peuvent réduire ce risque et garantir à leurs clients une expérience exceptionnelle sur leur site.

Share this Article