ChatGPT : entre fascination et… hallucinations ?
Le moteur de textes / réponses ChatGPT suscite beaucoup d’intérêt. Pourquoi fascine-t-il autant ? Quelles sont ses limites et objections - éthiques, scientifiques ? Qui pourrait le concurrencer ?
ChatGPT connaît un réel succès car sa façon de répondre, gratuitement, en moins de cinq secondes à des questions précises, parfois techniques, complexes, y compris dans le codage informatique, est bluffante – au premier abord. C’est un moteur d’assistant virtuel (‘chatbot’) pré-entraîné, très élaboré, qui appartient à l’IA (intelligence artificielle) dite « auto-générative ». Utilisant les réseaux neuronaux, il est capable d’enchaîner des réponses par paragraphes entiers (jusqu’à cinq chez Microsoft), à propos de millions de sujets et dans une dizaine de langues. Il peut corriger, traduire du code de programmation.
Il se définit lui-même ainsi, sans modestie : « Je suis un large modèle de langage développé par OpenAI, basé sur l'architecture GPT (generative pre-trained transformer) ». Comme les ‘chatbots’ classiques, il formule ses réponses dans un langage de conversation dit « naturel », grâce à des artifices de langage comme : « dans l’ensemble, en outre, d’un autre côté, cependant, en résumé » … Ces mots de transition ne garantissent ni un raisonnement, ni une logique de pensée structurée, cohérente ou exacte… C’est encore une juxtaposition de données de faits avec des objections, opinions contraires, points de discussion, etc. Les spécialistes parlent de « modélisation linguistique à base de transformateurs ». Mais un expert d’IBM France affirme déjà qu’« au-delà du langage naturel, nous serons bientôt sur des raisonnements scientifiques ».
Fascination et… hallucinations
ChatGPT fascine aussi par la profusion, fluide, de ses réponses - assez souvent pertinentes, parfois inexactes, voire inventées. Bill Gates, fondateur de Microsoft, pourtant très enthousiaste, a constaté que certaines réponses n’étaient pas justes, ajoutant : « Les IA peuvent être victimes d’hallucinations ! »
ChatGPT (version 3) n’est encore qu’une construction sophistiquée de phrases relativement cohérentes, factuelles : des dates, des chiffres, des noms de lieux, de personnes, parfois sortis d’on ne sait où, avec beaucoup d’approximations voire contre-vérités. C’est une sorte de Wikipédia passe-partout, en questions/réponses sans sources - où, d’ailleurs le moteur aurait largement puisé. Ceci pose la question des droits d’auteur et des plagiats qui en résultent. ChatGPT peut se faire piéger ; il trahit des biais dans certaines réponses. Reconnaissant ses failles, il énumère les bonnes mesures à prendre pour sa propre gouvernance (en matière d’éthique, neutralité, « fairness », contrôle, modération, etc.) ! D’où son interdiction dans beaucoup d’universités, écoles… Et gare aux tricheurs : les détecteurs de réponses ChatGPT s’avèrent efficaces (Google s’en charge aussi…)
Données antérieures à 2022
Une limitation à noter, que le moteur de réponses communique : les 45 teraoctets de données qu’il aurait emmagasinées sont, pour l’essentiel, antérieures à 2022. Donc, ne pas attendre de réponse très pertinente, par exemple, sur « Comment qualifier l’agression de la Russie en Ukraine ? ».
La plateforme est néanmoins bluffante car en auto-apprenant elle s’améliore selon deux modes : « supervisé » et « par renforcement ». Toutes les données ne peuvent pas être contrôlées - même si, selon des enquêtes de journalistes fiables, des petites mains au Kenya (entre autres ?) apprendraient au système à détecter et bannir les expressions racistes ou à caractère pédophile, diffamatoires, négationnistes, etc.
L’IA devient capable de digérer ce qu’on lui donne et de « comprendre », ou faire illusion, en faisant le tri selon une certaine logique et certains critères (non communiqués), et cela de manière contextuelle, selon la formulation des questions. Techniquement, ce sont là de réelles avancées par rapport aux autres plateformes génératrices de textes ou de codes comme Wolfram Alpha (Google) ou Stack Overflow. Mais cela peut également donner des frissons… On conçoit que l’Europe prépare un AI Act réglementaire (éthique, transparence des algorithmes, non utilisation de données personnelles, etc.).
Bard, la riposte de Google à Microsoft
Ces multiples critiques servent à Google pour dénigrer ce dangereux concurrent potentiel, désormais entre les mains de Microsoft. La plateforme a été créée en 2015 par OpenIA, une start-up devenue une licorne, cofinancée par Elon Musk (le milliardaire, patron de Tesla et Space-X), qu’il a quittée en 2018, prétextant qu’elle ne respectait plus ses engagements ‘open source’ (logiciel libre). Microsoft y a investi 1 milliard de dollars, avec la décision de l’intégrer à son moteur de recherche Bing sur internet (Edge) et à sa suite bureautique Office. Et cela avec l’espoir de faire enfin contrepoids à Google. Une version « Plus », payante, à 24 dollars/mois vient d’être lancée… À partir d’OpenIA, le moteur peut déjà être intégré à des sites web et permettre de nourrir quantités de nouveaux services ou domaines de recherche.
Tandis que se prépare ChatGPT-4 (qui fonctionnera sur un modèle comptant 1,6 trillion de paramètres, contre 175 milliards à ce jour), Google a annoncé sa riposte : Bard. Ce sera un moteur générateur de textes utilisant un autre modèle de construction de phrases, orienté statistiques : le LaMDA (language model for dialogue applications). Le plus grand secret entoure ces développements.
En parallèle, il faudra suivre Apple (Siri) ou Amazon (Alexa) et IBM (Watson Assistant). Vers quel camp vont-ils tendre ? Dans cet univers d’anticipation, le combat des titans - les GAFAM - ne fait que commencer.