L’usage de l’Intelligence Artificielle, oui mais par quel biais ?

L'ia par les biais

(c) image générée par KlingAi

Nous utilisons de manière volontaire ou non les possibilités offertes par l’Intelligence Artificielle lorsque nous nous manipulons notre smartphone, lorsque nous utilisons nos logiciels bureautique ou lorsque nous dialoguons directement avec les agents conversationnels comme ChatGPT.

Nous prenons donc en considération les informations renvoyées par les moteurs avec une confiance qui est, selon les dernières statistiques, proche des 90%. Même si bien entendu, nous savons dorénavant que l’IA est également sujette aux hallucinations, que son système combinant des statistiques et probabilités n’est pas toujours exact, les données qu’il nous retourne nous conviennent la plupart du temps et nous les prenons telles quelles.

Mais en dehors de ces éventuels problèmes inhérents à leurs fiabilités ou leurs dates de péremption (lié au corpus de documents sur lequel le moteur a été entrainé), les informations fournies par les moteurs soulèvent un autre problème : La prise en compte des biais.

Un problème liée aux sources d’informations

La masse de données qui été analysée, segmentée, archivée par l‘IA est issue d’une multitude de sources provenant de sites différents, écrit par des auteurs multiples, basés sur des faits historiques ou non, bref un « formidable récipient » dont la véracité et l’authenticité ne sont pas prouvées ou réglementées.

L’IA effectue, de manière schématisée, un simple comptage des éléments les plus représentatifs dans les multiples sources qu’il a indexées et oriente donc son résultat par rapport au nombre d’occurrences qu’il a calculé. Si les documents « source » sont fortement « orientés » sur un aspect de l’histoire, l’IA le considérera mathématiquement comme « véridique » si elle n’a pas d’autres éléments contradictoires. C’est dans ce cas là, le plus grand nombre qui l’emporte.

L’IA ne distingue pas encore si la source de son analyse est neutre, si le message véhiculé dans le texte n’est pas à charge, que les informations traitées ne privilégient pas une théorie plutôt qu’une autre etc.. En fait quelque part,  l’IA n’a pas jamais été éduquée, elle n’a pas pu se forger elle-même son opinion sur des sujets clivants. Il faut vraiment la percevoir comme un « nouveau né » qui absorbe comme une éponge les informations qu’on lui délivre, sans filtre.

De notre côté, lorsque nous récupérons l’information après la saisie de notre prompt, nous prenons acte de la réponse et sans un regard critique, nous assimilons instantanément ce que nous propose le moteur d’inférence.

Alors comment résoudre ce problème de biais ?, comment s’assurer que les informations retournées par l’IA ont été traitées de manière objective et que le principe d’équité a été respecté ?

Des premières solutions

La solution est loin d’être évidente puisque pour avoir une IA sûre et « éthique » (Trust AI) plusieurs étapes sont nécessaires à tous les niveaux.

Dans un premier temps, s’assurer bien entendu que la source des informations qui va être intégrée dans le modèle IA, soit la plus objective, diverse et neutre possible. C’est un travail conséquent nécessitant une intervention humaine qui impose un pré filtre extrêmement couteux.

Sur les informations analysées, prendre en compte également ce que l’on définit comme « des biais de langage », c’est-à-dire les textes qui contiendraient des termes sexistes, racistes ou autres.

Effectuer des entrainements sur des textes avec des données diversifiées, provenant de différentes cultures, de différents auteurs, dans différents pays.

Mettre en place également des mécanismes de contrôle pour corriger les biais pouvant survenir au fil de l’apprentissage des informations par l’IA.

Beaucoup plus intéressant encore, donner la possibilité à vos usagers de pouvoir « corriger » les informations retournées par le moteur en procurant d’autres sources permettant d’affiner ou de contredire la version de l’IA.

Se rassurer par des outils

Il existe plusieurs outils permettant de traiter ces différents sujets : Fairlearn par exemple est un outil (et une bibliothèque Python)  permettant de détecter les biais pouvant survenir lors de l’apprentissage d’un modèle ;

IBM Ai Fairness propose quant à lui une interface détectant les biais éventuels présents au sein d’une source d’informations. La démo disponible sur le site est très intéressante puisqu’elle montre comment une catégorie d’une population peut être simplement écartée ou ignorée dans la restitution produite par l’IA (il s’agissait notamment de la représentation des femmes au travail).

Bias Detector quant à lui peut être installé comme Plugin sur ChatGPT et vous permet d’analyser une page Web d’un site afin de déterminer si celle-ci reste objective ou fortement orientée.

Les grands « pourvoyeurs de modèles »  comme Meta, Anthropic, OpenAI utilisent également des technologies de type « Adversarial training » afin de confronter des IAs entrainées à partir de sources différentes pour minimiser ainsi les biais rencontrés.

Enfin ces mêmes éditeurs intègrent systématiquement l’humain (approche « Human in the loop ») lors de la phase d’apprentissage automatique pour valider les résultats quitte à réinjecter d’autres sources pour renouveler son analyse.

La nécessité d’une réglementation

On le comprend sans peine, la gestion des biais est extrêmement complexe à mettre en œuvre et doit surtout être constamment suivie par des organismes indépendants.

L’IA Act qui rentre en vigueur dans les prochains jours au niveau Européen a également pour tâche de réguler quelque peu les travers occasionnés quelquefois par les modèles IA que nous utilisons tous les jours.

Dans tous les cas, la prudence reste de mise lorsque nous exploitons les informations fournies par une IA.

D’ailleurs OpenAi indique en bas de la page de son interface,  la mention suivante : « ChatGPT peut faire des erreurs. Envisagez de vérifier les informations importantes », mais est-ce vraiment suffisant et surtout la société OpenAI fait elle vraiment référence aux biais occasionnés par son modèle ou parle t-elle simplement de ses problèmes d’hallucinations ?

 

Rémy Poulachon

Directeur Innovation, Sedona