L'IA est-elle biaisée ?

Comment s'assurer que les algorithmes ne reproduisent pas les erreurs et les préjugés humains ?

La qualité des algorithmes dépend des données utilisées pour les entraîner. Comme ces énormes ensembles de données sont constitués par des humains, ils peuvent souvent refléter leurs préjugés, ce qui signifie qu'une intelligence artificielle peut reproduire des biais sexistes, racistes et autres. Ces systèmes étant utilisés par un nombre croissant d'acteurs, et notamment des institutions publiques, il est donc d'autant plus important de surveiller ces algorithmes et de s'assurer qu'ils sont exempts de préjugés.

La question de savoir si une intelligence artificielle (IA) générative peut être biaisée est légitime. En effet, les algorithmes sont construits principalement par des hommes et n’utilisent des données qui ne représentent forcément qu'une fraction de l'humanité et peuvent donc être biaisés à l'encontre des femmes, des cultures non-occidentales ou des minorités.

La complexité de l'IA générative

Si cette préoccupation n'est pas nouvelle, elle s’est intensifiée avec l'essor de l'IA générative.

D'une part car il est plus difficile de détecter les biais dans les données utilisées pour entraîner les modèles. L'IA générative s'appuie sur des transformateurs extrêmement complexes et pré-entraînés dans le cadre d'un processus impliquant des milliards de paramètres différents et traitant d'énormes ensembles de données. En outre, l’IA générative requiert que les utilisateurs donnent des instructions à des agents conversationnels qui les élaborent ensuite. Par conséquent, le contrôle des biais implique non seulement d'examiner les ensembles de données et de s'assurer qu'ils reflètent correctement la population qui utilisera l'agent d'IA, mais aussi de prendre en compte la manière dont les utilisateurs vont interagir avec lui. Un outil comme ChatGPT compte environ 120 millions d'utilisateurs par mois et ce chiffre est même monté à près de 2 milliards en avril 2024. Ces chiffres colossaux augmentent là encore la complexité et rendent l'équité et les biais encore plus difficiles à évaluer.

D'autre part, l'IA générative accentue elle-même les biais dans l'ensemble de données puisqu’elle génère directement du contenu à la différence d’une IA traditionnelle qui en donnera simplement la description.

Le contrôle des biais implique de s'assurer que les ensembles de données reflètent correctement la population qui utilisera l'agent d'IA, mais aussi de prendre en compte la manière dont les utilisateurs vont interagir avec lui.

Les risques bien réels d'une IA biaisée

Les risques d'une IA biaisée vont bien au-delà d'un outil de génération d'images représentant automatiquement un homme lorsqu'on lui demande de dessiner un ingénieur logiciel ou des personnes de couleurs pour mieux représenter la diversité de notre société, là où l’Histoire rappelle qu’il n’y en avait pas. L'IA est actuellement testée par la plupart des institutions, y compris dans des domaines sensibles tels que la santé, la justice ou encore par la police.

Des recherches ont montré que l'utilisation d'algorithmes policiers prédictifs formés à partir de données biaisées pouvait conduire les forces de police à cibler injustement Les populations issues d'immigration. Un autre exemple a montré que les algorithmes formés pour repérer les mélanomes avaient plus de chances de ne pas diagnostiquer les patients de couleurs car ils avaient été formés principalement à partir d'images de personnes à la peau claire. Enfin un dernier exemple illustre que les ceintures de sécurité, les appuie-têtes et les airbags des voitures, qui ont été conçus principalement sur la base de données recueillies lors d'essais sur des mannequins d'accident de voiture utilisant le physique d'hommes et leur position assise, peuvent entraîner des niveaux plus élevés de blessures et des taux de mortalité plus importants pour les femmes dans des accidents similaires. Une IA biaisée peut donc entraîner des conséquences réelles, potentiellement mortelles.

Il est important de noter que chaque défaut de l'IA n'est pas nécessairement dû à une discrimination, mais résultent souvent de limitations techniques. Pour prendre l'exemple du mélanome, l'analyse de l'image d'une peau foncée est un défi technique bien plus complexe tandis que les algorithmes de police ciblant les populations issues d'immigration, au contraire, ont souffert d'un biais raciste dans leur formation, car ils ont été formés sur des ensembles de données utilisant principalement des photos les populations issues d'immigration.

Les boîtes noires

L'une des difficultés liées à l'évaluation des biais potentiels d'un système d'IA réside dans le fait que la plupart d'entre eux sont des boîtes noires. Nous avons déjà mentionné que pour entraîner un algorithme d'IA, il fallait une très grande quantité de données qui sont d'abord recueillies de manière non structurée via Internet et dans des documents. Elles sont ensuite étiquetées et organisées afin d'être utilisées pour l'entraînement. Cela prend beaucoup de temps et le coût de cette opération est très élevé.

Il convient également de mentionner que l'IA est actuellement un domaine en pleine expansion et très compétitif, dans lequel une poignée d'entreprises se livrent une concurrence féroce pour recruter les meilleurs ingénieurs et proposer les meilleurs produits. Par conséquent, lorsqu'une entreprise a enfin constitué un ensemble de données suffisamment important pour entraîner son dernier modèle d'IA, elle a tendance à le garder privé de peur de révéler sa recette secrète à la concurrence. Il est donc difficile de vérifier non seulement les données utilisées pour entraîner les algorithmes, mais aussi l'équilibre, c'est-à-dire le poids accordé à chaque donnée au cours du processus d'entraînement.

L'un des moyens de résoudre ce problème de la boîte noire consiste à concentrer les efforts sur l'explicabilité des algorithmes, c'est-à-dire la capacité d'un système d’IA à expliquer comment il est parvenu à une certaine décision et quels paramètres ont été utilisés au cours du processus. Cela permet aux régulateurs et aux observateurs indépendants de contrôler ces systèmes et de s'assurer qu'ils sont équitables. La loi européenne sur l'IA, qui vient d'être adoptée par l'Union Européenne (UE), contraindra désormais les systèmes d'IA à haut risque (notamment ceux qui sont utilisés par la police, le système judiciaire et les établissements de santé) à garantir la transparence et l'explicabilité de leurs algorithmes.

Si l'enjeu est de taille lors de la conception de l'algorithme, de la sélection des ensembles de données et de la détermination du poids de chaque paramètre, il ne s'arrête certainement pas là. Il est en effet nécessaire de continuer à surveiller ces algorithmes après leur mise sur le marché, car l'une des caractéristiques de l'IA est qu'elle apprend à chaque fois qu'elle est réentraînée. Les algorithmes ne cesseront donc de s’adapter au fur et à mesure qu'ils seront utilisés. Si l'on ne surveille pas ces modèles après leur mise sur le marché, on risque donc de voir apparaître de nouveaux préjugés avec le temps.

Pourquoi les biais ne sont qu'une pièce du puzzle de l'IA

Il est également important de noter que l'éthique de l'IA ne concerne pas seulement la manière dont les algorithmes sont construits et entraînés. En effet, il y a aussi le comportement que les ingénieurs décident de donner à l'IA. Dans l'IA générative, il existe déjà la « règle des 3 H », pour Helpful (utile), Harmless (inoffensif) et Honest (honnête). Cela signifie, par exemple, que ChatGPT n'est tout simplement pas autorisé à vous dire comment fabriquer des explosifs artisanaux, à vous mentir ou à vous aider à faire du mal à une autre personne. Bien qu'elles ne soient pas parfaites (certains utilisateurs ont trouvé des moyens créatifs de contourner ces règles, par exemple en demandant à ChatGPT de leur fournir une liste de sites illégaux sous prétexte de vouloir éviter ces sites à tout prix pour ne pas enfreindre la loi), ces règles comportementales constituent une deuxième couche de sécurité qui aide à lutter contre les biais de l'IA et à promouvoir une utilisation éthique.

Mais l’IA présente également d’autres dangers que les biais. De faux appels téléphoniques du président Joe Biden pendant les primaires démocrates américaines a récemment mis en évidence le risque de faux contenus générés par l'IA tels que de fausses images, de faux enregistrements audios et de fausses vidéos. Ces « deepfakes » ont été renforcés par l'essor de l'IA générative. Étant donné qu'une soixantaine d'élections majeures auront lieu dans le monde cette année, le risque de désinformation et de manipulation est très élevé. Plusieurs rapports indiquent également que les cybercriminels utilisent l'IA générative pour rendre leurs attaques plus efficaces.

Enfin, l'IA risque également d'accroître les inégalités, que ce soit sur la scène internationale, entre les pays riches et les pays en développement, mais aussi au sein même d’un pays, entre la classe supérieure et la classe ouvrière, ou entre les jeunes générations technophiles et les autres générations.

L'éthique de l'IA ne se limite donc pas aux préjugés, il s'agit d'un sujet plus vaste qui commence à être encadrée par de nouvelles réglementations, comme la loi sur l'IA. Mais cela nécessite tout de même une vigilance permanente et de nouveaux efforts pour améliorer la sécurité.

Atos France

Leader international de la transformation digitale

Voir les détailsof Atos France >

Gestion de vos cookies

Cookies nécessaires

Cookies statistiques

Cookies marketing

Cookies de réseaux sociaux