Pour une intelligence artificielle au service des langues africaines

Nigéria

L'intelligence artificielle (IA) est devenue incroyablement précise dans la traduction des mots prononcés en textos et dans l'exploration d'énormes quantités d'informations pour trouver des réponses à des questions complexes. Du moins, tant que cela se fait en anglais ou une autre des "langues dominantes".

Essayez de parler à votre téléphone en yoruba, en igbo ou dans une autre langue africaine largement répandue et vous rencontrerez des problèmes qui peuvent entraver l'accès à l'information, au commerce, aux communications personnelles, au service à la clientèle et à d'autres avantages de l'univers numérique.

"Nous arrivons au point où si une machine ne comprend pas votre langue, ce sera comme si elle n'avait jamais existé", devait déclarer Vukosi Marivate, chef de la science des données à l'université de Pretoria en Afrique du Sud, lors d'un rassemblement mondial virtuel de chercheurs en intelligence artificielle.

Outils linguistiques

Les géants américains de la tech ne se pressent pas pour rendre leurs outils linguistiques fonctionnels en dehors des marchés établis, un problème qui a également rendu plus difficile la détection de "fake news" sur leurs plateformes.

Vulkosi Marivate est un membre fondateur de Masakhane, une coalition de chercheurs africains qui essaient d'y remédier. Une de leurs recherches révèle que les outils de traduction automatique ne parvenaient pas à traduire correctement les enquêtes en ligne sur la Covid-19 de l'anglais vers plusieurs langues africaines.

Langage naturel

"La plupart des gens veulent interagir avec le reste de l'autoroute de l'information dans leur langue locale", soutient Vulkosi Marivate. Masakhane est un projet de recherche panafricain visant à améliorer la représentation de dizaines de langues dans la branche de l'IA connue sous le nom de traitement du langage naturel. Il s'agit du plus grand des nombreux projets de technologie linguistique de base qui ont vu le jour des Andes au Sri Lanka.

Les géants de la technologie proposent leurs produits dans de nombreuses langues, mais ils ne prêtent pas toujours attention aux nuances nécessaires pour que ces applications fonctionnent dans le monde réel. Le problème vient en partie du fait qu'il n'y a tout simplement pas assez de données en ligne dans ces langues - y compris les termes scientifiques et médicaux - pour que les systèmes d'IA puissent apprendre efficacement à mieux les comprendre.

Problèmes de traduction

Google, par exemple, a offensé les membres de la communauté Yoruba il y a plusieurs années lorsque son application linguistique a mal traduit Esu, un dieu farceur bienveillant, en diable. Les malentendus linguistiques de Facebook ont été liés à des conflits politiques dans le monde entier et à son incapacité à réduire les fausses informations sur les vaccins contre la Covid-19. Des problèmes de traduction plus banals ont été transformés en mèmes en ligne.

Omolewa Adedipe s'est sentie frustrée en essayant de partager ses idées sur Twitter en langue yoruba, car ses tweets traduits automatiquement ont généralement une signification différente. Un jour, cette conceptrice de contenus de 25 ans a tweeté : "T'Ílù ò bà dùn, T'Ílù ò bà t'òrò. Èyin l'ęmò bí ę şe şé", qui signifie : "Si la terre (ou le pays, dans ce contexte) n'est pas paisible, ou joyeuse, vous en êtes responsable." Twitter, cependant, a proposé la traduction suivante : "Si tu n'es pas heureux, si tu n'es pas heureux".

Préjugés

Pour les langues nigérianes complexes comme le yoruba, ces marques d'accentuation - souvent associées à des tons - font toute la différence dans la communication. "Ogun", par exemple, est un mot yoruba qui signifie "guerre", mais il peut aussi désigner un État du Nigeria (Ògùn), le dieu du fer (Ògún), poignarder (Ógún), 20 ou des biens (Ogún).

"Certains préjugés sont délibérés, compte tenu de notre histoire", argumente Vulkosi Marivate, qui a consacré une partie de ses recherches sur l'IA aux langues d'Afrique australe, le xitsonga et le setswana, parlées par les membres de sa famille, ainsi qu'à la pratique courante du "code-switching" entre les langues.

Langues à faibles ressources

"L'histoire du continent africain et en général des pays colonisés, c'est que lorsque la langue devait être traduite, elle l'était de manière très obtuse", rappelle-t-il. "Vous n'étiez pas autorisé à écrire un texte général dans n'importe quelle langue parce que le pays colonisateur pouvait être inquiet que les gens communiquent et écrivent des livres sur les insurrections ou les révolutions. Mais ils autorisaient les textes religieux."

Google et Microsoft font partie des entreprises qui disent essayer d'améliorer la technologie pour les langues dites "à faibles ressources" pour lesquelles les systèmes d'IA n'ont pas assez de données. Les informaticiens de Meta, la société anciennement connue sous le nom de Facebook, ont annoncé en novembre une percée sur la voie d'un "traducteur universel" qui pourrait traduire plusieurs langues à la fois et mieux fonctionner avec les langues à faibles ressources comme l'islandais ou l’haoussa.

Main-d'oeuvre technologique

C'est un grand pas en avant, mais pour l'instant, seuls les grandes entreprises technologiques et les grands laboratoires d'IA des pays développés peuvent construire ces modèles, affirme David Ifeoluwa Adelani, chercheur à l'université de la Sarre, en Allemagne. Ce membre de Masakhane souhaite renforcer et encourager la recherche menée par les Africains pour lutter contre une technologie "qui ne comprend pas nos noms, nos cultures, nos lieux, notre histoire."

Pour améliorer les systèmes, il faut non seulement davantage de données, mais aussi une analyse humaine attentive de la part de locuteurs natifs qui sont sous-représentés dans la main-d'œuvre technologique mondiale. Elle nécessite également une puissance de calcul à laquelle les chercheurs indépendants n'ont pas toujours accès.

Reconnaissance vocale

L'écrivain et linguiste Kola Tubosun a créé un dictionnaire multimédia etune machine de synthèse vocale pour la langue Yoruba. Il travaille actuellement sur des technologies de reconnaissance vocale similaires pour les deux autres langues principales du Nigeria, l’haoussa et l'igbo, afin d'aider les personnes qui souhaitent écrire des phrases et des passages courts.

"Nous nous finançons nous-mêmes", déclare-t-il. "L'objectif est de montrer que ces choses peuvent être rentables". Kola Tubosun a dirigé l'équipe qui a créé la voix et l'accent "anglais nigérian" de Google, utilisés dans des outils comme les cartes. Selon lui, il est difficile de réunir les fonds nécessaires pour construire une technologie qui pourrait permettre à un agriculteur d'utiliser un outil vocal pour suivre les tendances du marché ou de la météo.

Locuteurs natifs

Au Rwanda, l'ingénieur logiciel Remy Muhire participe à la création d'un nouvel ensemble de données vocales en libre accès pour la langue kinyarwanda, qui implique de nombreux volontaires s'enregistrant en train de lire des articles de journaux et d'autres textes en kinyarwanda.

"Ce sont des locuteurs natifs. Ils comprennent la langue", explique Remy Muhire, chercheur à Mozilla, fabricant du navigateur** Firefox**. Une partie du projet implique une collaboration avec une application pour smartphone soutenue par le gouvernement qui répond aux questions sur la Covid-19.

Pour améliorer les systèmes d'IA dans les différentes langues africaines, les chercheurs de Masakhane exploitent également les sources d'information du continent, notamment le service haoussa de Voice of America et la BBC diffusée en igbo.

Diversité linguistique

De plus en plus, des gens se regroupent pour développer leurs propres approches linguistiques au lieu d'attendre que les institutions résolvent les problèmes, souligne Damián Blasi, chercheur sur la diversité linguistique au sein de la Harvard Data Science Initiative.

Coauteur d'une étude récente sur le développement inégal des technologies linguistiques dans les quelque 6 000 langues du monde, Damián Blasi a constaté que si le néerlandais et le swahili comptent tous deux des dizaines de millions de locuteurs, il existe des centaines de rapports scientifiques sur le traitement du langage naturel dans les langues d'Europe de l'Ouest et seulement une vingtaine dans celles d'Afrique de l'Est.