Comprendre l’intelligence artificielle

​​Sommaire 
  • ​Préambule
  • ​Pour comprendre la diversité des méthodes d’IA, leurs grands principes et leurs évolutions historiques
  • ​La révolution des années 2010 : l’apprentissage de représentations avec le Deep Learning
  • ​L’IA générative
  • ​Les limites des modèles de ML et les problèmes de biais
  • ​Les stéréotypes sociaux reproduits par les modèles d’IA
  • ​Besoin d'une réflexion éthique par toutes et tous ?
  • ​Quelques ressources pour dépasser le discours dominant et amorcer un regard critique
Préambule : mieux comprendre l'intelligence artificielle


Préambule : mieux comprendre les enjeux de l'intelligence artificielle

EFELIA Côte d’Azur est un projet financé par l’État pour développer la formation à l’Intelligence artificielle de bac-3 à bac+8 et par la formation continue des personnels des établissements partenaires dont l'université, des entreprises comme du secondaire. 

Par formation à l’IA, on peut entendre : 

1. Comprendre les principes de fonctionnement de ces outils,
2. Apprendre à utiliser les nouveaux outils correspondant aux systèmes d’IA mis sur le marché pour différentes applications, incluant ChatGPT par exemple.

EFELIA Côte d’Azur considère 1 comme indispensable. Pourquoi ? 

Si on fait le parallèle avec d’autres outils se trouvant être des systèmes socio-techniques, comme les voitures, il est vrai que lorsqu’on passe le permis de conduire, on ne passe pas un examen de mécanique également. Quand on utilise un ordinateur, on n’a pas besoin de connaître l’électronique. 

Alors pourquoi à EFELIA Côte d'Azur, nous voulons que vous compreniez l’IA au-delà de l’usage de systèmes particuliers ? Pour filer la métaphore, parce-que les systèmes d’IA ne sont ni une voiture ni un ordinateur : quand on appuie sur le frein, ça risque de ne pas freiner, quand on appuie sur une touche, ça risque de ne pas afficher la même chose pour deux personnes différentes.

Les systèmes d’apprentissage machine ne doivent pas être utilisés pour des applications critiques mettant en jeu la vie humaine, et quand c’est le cas, les conséquences peuvent être dramatiques, comme ça l'a déjà été [système de justice, attribution de lits d'hopitaux, détection de fraude aux allocations

Ces systèmes ne sont pas certifiés comme les voitures le sont, il n’y a pas de « contrôle technique », tant l'environnement social dans lequel ils peuvent être déployés est complexe. Leur fiabilité dans le monde réel est donc difficilement évaluable avant déploiement, contrairement à d'autres systèmes dont on apprend seulement l'usage, aussi complexe leur fonctionnement interne soit-il. 

La conséquence de cette complexité de l'intelligence artificielle ? 

Il est au mieux insuffisant au pire dangereux, pour soi ou son organisation (sa qualité d’apprentissage, sa qualité de production de contenu ou d’optimisation de process, sa responsabilité légale) ou pour les autres (victimes de biais, sexistes ou racistes entre autres, évidents ou subtils, automatisés et amplifiés), de penser qu’il est possible d’utiliser ces systèmes d’IA sans en comprendre les contextes de production, les objectifs, les modes de fonctionnement, les failles et les limites. 

Notre objectif est donc de permettre à chaque personne de développer une véritable compréhension du domaine et de ses enjeux, pour se saisir du mieux possible des nouvelles possibilités de ces approches, tout en appréhendant les limites et les implications.  

Vous ne serez pas remplacés par des systèmes d’intelligence artificielle, mais par des personnes connaissant l’IA. De par leurs faiblesses importantes, mêmes si peu évidentes de prime abord dans les discours dominants, les systèmes d’IA vont évoluer très rapidement. Acquérir des connaissances au-delà des savoir-faire vous permettra donc de vous adapter au mieux à ces évolutions rapides. 

EFELIA Côte d’Azur développe l’ensemble de ses actions dans cette perspective et avec ces valeurs. Nous partageons ici publiquement un ensemble précautionneusement sélectionné et organisé de ressources librement accessible en majorité, pour que chaque personne qui souhaite mieux comprendre ce dont nous parlons, l’IA au-delà du discours dominant, puisse facilement amorcer cette compréhension. 

​Pour comprendre la diversité des méthodes d’IA, leurs grands principes et leurs évolutions historiques

L'IA est un domaine né à l'intersection de l'informatique, des mathématiques et des neurosciences au milieu du XXème siècle. L'objectif est la conception d'approches computationnelles (d'algorithmes1), c'est-à-dire automatisées avec des ordinateurs, de tâches jusque là uniquement réalisées par des humains. Ces tâches peuvent concerner des problèmes cognitifs élaborés et donc jugés à l'époque difficiles à résoudre par des algorithmes, comme démontrer des théorèmes mathématiques, ou des problèmes résolus de façon subconsciente et automatique par les êtres vivants, comme se déplacer, ou marcher pour certains. Cette page retrace de façon pertinente l'histoire et les 2 grands courants de pensées et d'approches en IA :

Histoire de l'IA (français)
History of AI (English)

Ces courants, connus sous le noms de top-down AI et bottom-up AI, ont donné lieu à des familles méthodologiques différentes en IA :

  • l'IA symbolique, qui a été l'approche dominante entre les années 1950 et 1990 et qui prend pour hypothèse l'existence de symboles de haut niveau pour représenter les briques de raisonnement (champs du raisonnement, de la programmation logique, des systèmes de règles),
  • et l'IA dite statistique, ou basée données, qui conçoit et met en oeuvre des outils statistiques pour identifier des motifs (des associations, ou « corrélations » en statistiques) dans les données, permettant de les relier à une catégorie, ou de les re-générer. Cette dernière famille de méthodes a été celle ayant connu le plus de succès depuis les années 2000 : c’est le champ du machine learning - ou apprentissage automatique, avec notamment les réseaux de neurones artificiels.

En parallèle des cours dispensés à l'université, et notamment ceux conçus pour les personnels UniCA et les compétences tranversales IA pour toutes les personnes étudiant en L1 en 2024, et L2 et L3 en 2025, nous vous référons à deux sources accessibles et de qualité :

Une troisième ressource plus avancée sur l’IA et ses impacts est :

1Définition reprise de la Déclaration de Montréal : Un algorithme est une méthode de résolution de problèmes par le biais d’une série finie et non-ambigüe d’opérations. Plus précisément, dans un contexte d’intelligence artificielle, il s’agit de la série d’opérations appliquées aux données d’entrée pour obtenir le résultat souhaité.
​La révolution des années 2010 : l’apprentissage de représentations avec le Deep Learning

Pour de nombreux problèmes avec des données dites non-structurées, comme des images ou du texte par exemple, par opposition aux bases de données, les méthodes d'IA symbolique se heurtaient à leur incapacité à appréhender la variabilité du monde réel : un chat dans une image peut apparaître dans divers contextes, sous divers angles, dans diverses positions, de diverses couleurs, etc. De la même manière, un même fait peut être énoncé d'un grand nombre de façons, a fortiori un sentiment dans un texte.

Jusque dans les années 2005, les approches de machine learning pour la classification d'images supposaient une pré-extraction, basée sur des hypothèses humaines, de caractéristiques pertinentes pour la classification. Par exemple, pour reconnaître des batiments dans des images aériennes, on pouvaient pré-extraire (lister) tous les contours (lignes) dans une image, et ensuite appliquer une approche ML mixant statistique et optimisation pour déterminer si un batiment était présent (ou s'il ne s'agissait que de routes par exemple).

Bien que faisant partie des méthodes d'IA statistique, ces approches partageaient avec l'IA symbolique de reposer sur des a priori humains. Ce n'était pas des symboles qui étaient pré-déterminés comme utiles pour réaliser la tâche, mais des descripteurs (version plus flexible que des symboles en quelque sorte) qu'on espérait être utiles pour la tâche, et qu'on pré-extrayait pour ensuite les considérer comme entrée d'un modèle (algorithme) de machine learning (comme des SVMs ou du boosting).

Cette pré-détermination était un élément limitant pour l'efficacité de ces méthodes : d'autres descripteurs, ou « représentations », pourraient être plus pertinentes (imaginez si vous essayez de décrire ce qui distingue visuellement un chat d'un chien, décrire les pattes, le museau et le pelage peut être insuffisant, même si cela est partiellement automatisé).

C'est cette limite qu'ont pu dépasser les méthodes basée sur l'apprentissage profond, ou Deep Learning. Dans les cours UniCA, nous vous expliquons avec des illustrations le principe d'identification par apprentissage de motifs pertinents dont on vérifie la présence ou l'absence dans l'image par corrélation. L'identification de ces motifs se fait par "entraînement" ou "apprentissage", c'est à dire par optimisation mathématique (minimisation de fonction) pour minimiser l'erreur commise par le modèle quand il prédit ce que contient l'image. Pour calculer cette erreur (simple soustraction), il faut qu'un humain ait indiqué pour chaque image d'entraînement si elle contient ou pas un chat ou un chien (ou toute autre classe). Vous pouvez retrouvez une telle explication dans un cas simple et concis ici :

Identification par apprentissages de motifs pertinents pour classer

Les clés du succès de ces nouveaux modèles de machine learning (le Deep learning faisant partie du machine learning) ont été :

  • des types de réseaux de neurones artificels plus efficaces pour apprendre les bonnes représentations des données pour les tâches de classification d'images visées,
  • une puissance de calcul plus élevée grâce à la parallélisation des calculs sur processeurs graphiques (GPU),
  • et, last but not least, la quantité de données annotées : des centaines de milliers d'images annotées par des humains.
​L’IA générative

Dans le cas d'images, les représentations apprises sont en terme de présence ou absence de motifs, allant de formes simples et assemblées en formes plus complexes au fil des couches du réseau de neurones, et parfois interprétables à l'oeil, comme illustré ici :

Motifs choisis comme pertinents pour classer

Dans le cas du texte, les modèles apprennent aussi à représenter les mots en trouvant ("optimisant"/"apprenant") une représentation numérique (tableau de nombres, ou vecteur) d'un mot à partir de laquelle on peut calculer la probabilité que d'autres mots soient ses voisins. L'entraînement consiste alors à maximiser la probabilité que des mots apparaissent proches les uns des autres, pour les mots qui sont effectivement voisins dans les textes utilisés pour entraîner le modèle. Ce principe est expliqué de façon intuitive page 7 à 9 de ce rapport :

Apprendre des représentations numériques de mots (pages 7-9)

et dans cette page.

Cette approche permet d'obtenir un modèle de langue : un modèle qui représente chaque mot d'une façon numérique de telle sorte à ce qu'il puisse reproduire les mêmes probabilité d'apparition jointe, ou "co-occurences", que dans les textes utilisés pour entraîner le modèle (ce qui signifie "optimiser"/"choisir les bons réglages ou paramètres"). Contrairement au problème de classification d'image, nécessitant des images annotées par des humains indiquand si dans chacune se trouve un élément d'une certaine classe (chien, chat, etc.), la conception basique d'un modèle de langue ne nécessite pas de données annotées par des humains. Seul un corpus de textes est nécessaire, le modèle étant entraîné pour, à partir d'un ensemble de mots donnés en entrée, identifier les plus probables mots voisins, et notamment ceux qui suivent.

La modélisation de langue, même si elle peut être utilisée pour de la classification -comme de sentiments par exemple, permet intrinsèquement la génération de nouveaux mots à la suite de précédents données en entrée : ce sont des modèles d'IA génératifs. D'où le nom de GPT: Generative Pre-trained Transformer.


A partir de 2017 sont arrivés de nouveaux type de réseaux de neurones artificiels profonds, les Transformers. Tandis que le principe de la modélisation des co-occurences de mots reste le même, ces modèles ont permis d'atteindre de bien meilleures performances sur des tâches de génération de texte (comme la traduction), grâce à deux choses :

  • la fenêtre de texte considérée, qui peut être grandement étendue : passant de 5 mots dans les premiers modèles, à l'ordre de 4 pages avec les modèles de type GPT actuellement.
  • la flexibilisation des motifs recherchés dans le texte, qui sont non seulement appris comme avant (par exemple on ne cherche pas uniquement les relations de type nom-verbe-complément comme on le pré-définissait à la main en linguistique, mais toute relation pouvant être utile pour trouver les mots voisins), mais qui en plus peuvent dépendre des mots voisins eux-mêmes (comme si les motifs d'oeil et nez appris plus haut pouvaient plutôt être des motifs de pattes et museau en fonction de l'image d'entrée). Ainsi, la représentation d'un mot peut dépendre de ses voisins ! Vous pouvez visualiser ceci ici en explorant la position dans l'espace de représentation de mots du mot banks par exemple, qui a deux acceptions (banque et berges en anglais).


Les Transformers sont les modèles de réseaux de neurones artificiels profonds à la base de tous les grands modèles de langue actuels :

Les grands modèles de langues en 2023 (Fig. 2)
 

Dès 2020, il a été montré que les modèles de type Transformers sont également très performant pour les données images. Tandis que les méthodes de génération de données images impliquent aussi d'autres approches d'apprentissage (comme les modèles de diffusion ou les réseaux adversaires), en texte comme en image, ce sont des modèles Transformers qui sont à la base des systèmes actuels les plus puissants pour la génération de texte et d'image.

Pour le texte comme pour l'image, ces modèles Transformers sont donc pré-entraînés pour retrouver les mots voisins d'autres mots, ou pour re-construire des parties d'images masquées à partir des pixels voisins. Ils nécessitent pour cela de très grandes bases de données image ou texte, mais qui n'ont pas nécessairement à être annotées par des humains : elles peuvent donc être aspirées du Web. De la même façon quand 2 modèles sont entraînés conjointement pour prédire le couplage texte et image, produisant des représentation de texte et d'image alignées ensuite utilisées dans Stable Diffusion, DALL·E, et autres GPT4.

Ces modèles, pré-entraînés avec des textes ou des images non-annotées1 par des humains, produisent ainsi des représentations de texte ou image pouvant être adaptées et utilisées pour les appliquer à d'autres problèmes spécifiques : c'est ce qu'on appelle des "modèles fondation", dont la création est un enjeu majeur de leadership à l’heure actuelle, et expliqués simplement dans cette vidéo (d’IBM):

Les modèles fondations (LLMs généralisés) : principe

1Les textes accompagnant les images ont été créés par des humains avant que les images ne soit collectées d’Internet avec leur éventuelle description.

Les limites des modèles de ML et les problèmes de biais


Les limites des modèles de ML et les problèmes de biais


Les explications ci-dessus peuvent déjà vous mettre la puce à l'oreille sur des limites fondamentales de ces approches de machine learning, qui doivent impacter la façon dont on envisage leurs usages, leur développement, et dont on les questionne en tant que systèmes socio-techniques.

D'abord, le fait que le succès de ces méthodes reposent sur de vastes quantités de données :


Ensuite le fait que ces méthodes, comme toute approche computationnelle, nécessitent une simplification de la réalité pour produire des résultats, à partir donc d'une vision limitée du monde ignorant tout ou partie du contexte : qu'est qu'on décide de donner en entrée à l'algorithme, qu'est-ce qu'on définit comme sorties possibles, comment on mesure l'erreur commise (en la comparant à quelles données, créées par qui dans quel but), quel type de lien entre l'entrée et la sortie la méthode d'IA (comme le ML) permet-elle de trouver [The fallacy of AI functionality, Raji et a., article, video, Data and its (dis)content, Paullada et al., AI snake oil, Narayanan].

Enfin, le fait que, pour résoudre une certaine tâche, le modèle d'IA identifie et utilise des motifs dans les données, qui relient entre eux des éléments (par exemple les co-occurrences de mots pour générer du texte, ou la co-apparition d'éléments visuels pour classer ou générer des images). Le modèle d'IA va donc exploiter ces motifs d'association, pour les reproduire quand il génère de nouvelles données. Ces motifs d'association peuvent cependant correspondre à des stéréotypes qu'ont des humains, et que l'on ne souhaite pas reproduire. C'ets pourquoi l'automatisation de la reproduction de motifs contraires aux valeurs de la société dans laquelle nous souhaitons vivre doit nous alerter et nous faire réflechir : il s'agit de la problématique des biais en IA, qui sont une limite fondamentale des approches de machine learning, que nous documentons plus ci-dessous.
 

Les stéréotypes sociaux reproduits par les modèles d’IA

Avec les travaux fondateurs de Joy Buolamwini et Timnit Gebru sur les systèmes d’IA pour la reconnaissance faciale [Gender Shades], la MIT Technology Review titrait déjà en 2017: Forget Killer Robots—Bias Is the Real AI Danger.

Les représentations de mots, elles aussi, peuvent refléter des associations déséquilibrées ("biaisées") entre des catégories socialement construites (comme le genre et la race, l’âge, l’orientation sexuelle) et certains attributs. Ceci a été démontré dès 2016 pour les catégories de genres binaires et de professions notamment, en montrant par exemple que l'association entre man (homme) et computer programmer (programmeur) est aussi forte qu'entre woman (femme) et homemaker (personne au foyer), associations beaucoup plus fortes que man-homemakker et woman-programmer.

Ces travaux n'ont ensuite cessé d'être généralisés, et sont plus que jamais d'actualité avec les modèles actuels d'IA génératifs. Nous citons quelques ressources clé ci-dessous.

D'abord, ces associations entre concepts sémantiques ont également été identifiées dans le fonctionnement cognitif humain. La force de ces associations automatiques en mémoire peut être mesurée par les tests d'associations implicites (IAT en anglais), introduits en 1998. Elle est aussi qualifiée d'indice de stéréotypie implicite. Une explication concise est accessible ici :
Les biais cognitifs

En 2017, Caliskan et al. montraient que les représentations de mots apprises par des modèles de ML à partir de corpus linguistiques comportent des biais de type humain, en définissant un "Word Embedding Association Test" et en montrant que celui-ci est corrélé aux scores IAT de stéréotypie implicite des populations occidentales. Des résultats similaires ont été montrés pour les modèles de langues récents en incluant aussi les biais intersectionnels.

Les grands modèles de langue les plus récents encodent en effet aussi des biais implicites subtils, dont les modèles à la base de ChatGPT mais pas que. Une étude montre en particulier le caractère problématique et discriminant de l'usage de GPT4 dans un cadre d'aide au diagnostic clinique. D'autres montrent les stérétypes sociaux dans la génération de contenus journalistique et même dans la génération de code informatique.

Les mêmes constatations d'associations biaisées entre concepts ont été faîtes dans les grandes bases d'images utilisées pour entraîner des modèles d'IA, et les représentations apprises de concepts visuels ont également été montrées commme encodant des stéréotypes humains.
 

Récemment, côté jeux de données, il a été montré que les jeux de données massifs combinant images et texte utilisés pour entraîner les grands modèles d'IA génératifs d'images, contiennent une large fraction de contenus haineux résistant au filtrage (et cette fraction augmente avec la taille du jeu de données !).

Côté modèle, il a été montré que les images générées par un modèle d'IA générative sont en moyenne plus biaisées que les images du jeux de données utilisé pour l'entraînement : avec les modèles d'IA, on peut donc automatiser et amplifier les biais humains.

Besoin d'une réflexion éthique par toutes et tous ?

Nous venons de voir que c'est le mode même de fonctionnement des modèles de ML qui, en reproduisant des motifs d'associations présents dans les données, encodent des stéréotypes (qui sont liés à des associations) dont la perpétuation est délétère pour nombre de groupes sociaux et contraire à des valeurs communes. L’automatisation de cette reproduction de stéréotypes est aussi un danger à considérer (dé-responsabilisation des humains, pertes de visibilité et de contrôle, illusion d'objectivité).

La perpétuation de stéréotypes discriminants à l'égard de groupes entiers de la population doit être considérée de façon éclairée quand on décide d'utiliser ou de déployer un système d'IA. C'est une des raisons pour laquelle EFELIA Côte d'Azur souhaite contribuer à la compréhension par chacune et chacun des principes et limites des méthodes d'IA.

Dans quel monde voulons-nous vivre et comment considérer nos usages et implication avec les outils d'IA à l'aune de cela ? Ces questions sont cruciales. Elles ont fait l'objet d'une déclaration : La Déclaration de Montréal pour un développement responsable de l'intelligence artificielle.

Ces questionnements nécessaires sont activement étudiés dans le champ de l'éthique de l'IA, et nous citons ici le rapport de notre partenaire Université Laval :

Les conditions favorisant la délibération sont importantes pour donner aux individus et aux communautés les moyens de faire des choix significatifs en matière de technologie, de passer du statut d’utilisateurs ou de sujets technologiques passifs à celui d’agents actifs qui façonnent de manière constructive les modèles de développement technologique. Une telle démarche offre aux citoyennes et citoyens des moyens d’émancipation, de formation et de capacitation plutôt que d’en faire les cobayes d’expériences technologiques (Latour, 2001).
Quelques ressources pour dépasser le discours dominant et amorcer un regard critique

Quelques ressources pour dépasser le discours dominant et amorcer un regard critique


Comment envisager la nature des interactions avec un agent conversationnel comme ChatGPT ? Peut-on envisager son déploiement pour toute situation d'interaction ?


 

Quel coût environemental dès qu'on fait une requête à un système d'IA ?


 

Un système d'IA doit-il être éthique ?


Peut-on concevoir des systèmes d'IA pour attaquer n'importe quel problème ?
  • A. Narayanan, “How to recognize AI snake oil,”, 2022. webpage, pdf
  • I. D. Raji, I. E. Kumar, A. Horowitz, and A. Selbst, “The Fallacy of AI Functionality,” in 2022 ACM Conference on Fairness, Accountability, and Transparency, Seoul Republic of Korea: ACM, Jun. 2022, pp. 959–972. doi: 10.1145/3531146.3533158. vidéo

 

Et pourquoi parle t-on de "systèmes d'IA" plutôt que "des IA" ?

  • Pour les raisons mentionnées ici [AIMyths], nous considérons qu’il n’est pas approprié de parler d’IA de façon dénombrable, c’est-à-dire « d’une IA » ou « des IA ». Nous enjoignons à préférer « l’IA » pour parler du domaine généralement, et « les systèmes d'IA (SIA) », comme dans la Déclaration de Montreal and l’OBVIA de notre partenaire U. Laval.

 

Quels sont tous les mythes instaurés et véhiculé par le discours dominant sur l'IA ?

 

Si on pousse l'analyse de pourquoi les systèmes d'IA reproduisent des biais sociaux, n'y aurait-il des concepts plus délicats à évoquer mais plus explicatifs des vraies causes ?

  • Catherine D'Ignazio, The Urgency of Moving from Bias to Power, 2023. Préface EDPL.
  • A. Birhane et al., The cost of scale thinking (pages 3-4): For instance, Science and Technology Studies (STS) scholars and critical data and AI studies have repeatedly emphasized that “scale thinking” stands in stark opposition to values such as societal equity and effective systemic change [26, 36]. In fact, unwavering commitment to scalability is instrumental to the realization of central objectives driving big technology corporations, such as profit maximization, market monopoly, and the centralization of power in a handful few, all too often at the expense of prioritization of informed consent, justice, and consideration for societal impacts of model.
  • M. Abdalla and M. Abdalla, Big Tobacco, Big Tech, and the Threat on Academic Integrity, 2021.

Mais alors si on fait de la recherche et de l'enseignement en IA, comment envisager les problématiques complexes et multiples puis se positionner ? Quelques élements sont rassemblés ici :


 

Ecrit par Lucile Sassatelli, mars 2024.