Richard Sutton, lauréat du prix Turing, pionnier dans le domaine de l’apprentissage par renforcement et contributeur majeur aux algorithmes de gradient stratégique et d’apprentissage par différences temporelles, est considéré par le secteur comme le « père de l’apprentissage par renforcement ». Fin septembre 2025, l’un des principaux fondateurs des grands modèles linguistiques a exprimé, lors d’une interview publique, de profondes réserves quant à la voie actuelle suivie par ces modèles, affirmant sans détour que la voie technologique empruntée par des systèmes tels que ChatGPT ne constituait pas la solution définitive pour parvenir à une véritable intelligence.
Les défauts intrinsèques des grands modèles linguistiques
Sutton estime que la logique fondamentale de l’apprentissage par renforcement consiste à acquérir de l’intelligence par essais et erreurs, à l’image du processus par lequel un écureuil casse une noix : il essaie différentes méthodes, obtient une récompense s’il réussit et en paie le prix s’il échoue. Alors que le coût de la puissance de calcul ne cesse de baisser et que le coût de l’erreur est suffisamment faible, la loi d’échelle a donné naissance aux grands modèles linguistiques d’aujourd’hui. Mais les grands modèles linguistiques actuels s’écartent complètement de cette logique originelle ; leur essence se résume à prédire ce que les humains diront, à imiter mécaniquement les données d’entraînement et à prédire des flux de données, sans être capables d’établir un modèle du monde réel.
Le problème central réside dans le fait que les grands modèles linguistiques manquent d’objectifs et de finalités réels. Tous les modèles cognitifs humains, qu’il s’agisse de langage, de mathématiques, de physique ou de biologie, servent un objectif unique : décrire le monde réel afin d’aider l’humanité à mieux survivre et vivre. Ce n’est qu’en percevant correctement le monde que l’on peut le transformer correctement. Or, le seul objectif des grands modèles linguistiques n’est pas de percevoir le monde objectif, mais d’imiter le langage humain et les données que l’on leur fournit. Cet objectif ne permet pas d’interagir véritablement avec le monde réel ; par conséquent, il leur sera toujours impossible d’atteindre le niveau d’intelligence humaine.
On peut imaginer un grand modèle linguistique comme un être humain enfermé dans une cage : il peut apprendre autant de connaissances que vous lui en donnez, mais il ne pourra jamais briser les barreaux de sa cage pour entrer en contact avec le monde réel. Si l’objectif d’un grand modèle linguistique se limite à imiter l’humain, alors cet objectif est en soi une cage. Peu importe le nombre de caméras ou de capteurs dont on équipe un robot, tant que son objectif fondamental ne change pas, il ne fera jamais qu’apprendre de l’humain, et non du monde lui-même. Ce n’est que lorsque l’intelligence artificielle aura acquis une capacité d’action subjective, qu’elle sera capable de connaître le monde de manière proactive et de le transformer sous la direction de sa conscience, qu’il sera possible de briser définitivement cette cage.
La différence fondamentale avec l’intelligence humaine
La différence fondamentale entre l’intelligence humaine et les grands modèles linguistiques actuels réside dans une logique de connaissance du monde totalement différente. Sutton a établi une comparaison avec le processus d’apprentissage des jeunes enfants : les enfants jettent souvent leurs jouets, ce qui est essentiellement une manière de construire un modèle du monde. En interagissant avec le monde, l’enfant se forge une perception abstraite de la gravité et étend cette perception à tous les domaines : sans avoir besoin de comprendre le concept physique de la gravité, il peut déduire la loi de causalité selon laquelle « un objet situé en hauteur tombe lorsqu’il n’est plus soutenu », et appliquer cette loi à des situations qu’il n’a jamais rencontrées. L’enfant maîtrise une logique causale abstraite, tandis que les grands modèles linguistiques ne trouvent qu’une logique de corrélation, et non une logique causale.
Par exemple, un grand modèle linguistique considérera que si un humain dit « la pomme tombe du pommier », il y a de fortes chances qu’il dise ensuite « la pomme tombe par terre », et non « joyeuse fête de la mi-automne ». Mais il ne peut pas comprendre pourquoi la pomme tombe, ni anticiper que si un bassin se trouve sous le pommier, la pomme tombera dans l’eau plutôt que par terre. Un enfant n’a pas besoin d’étudier tous les cas de figure pour en déduire les lois de causalité, mais un grand modèle linguistique en est incapable. Il doit étudier tous les cas de figure, puis les classer par ordre de priorité avant de pouvoir donner une réponse.
Les limites réelles des grands modèles linguistiques
En tant qu’outils, les grands modèles linguistiques présentent encore des défauts qu’on ne peut ignorer, le plus marquant étant le problème des « hallucinations » de l’IA. Par exemple, si l’on demande à l’IA d’aller d’abord récupérer des données sur un serveur, puis de poursuivre les opérations une fois cette récupération réussie, mais que dans la pratique, la récupération échoue, l’IA peut considérer par défaut que la tâche est terminée, sauter des étapes et continuer l’exécution, pour finalement tromper l’utilisateur en lui disant que toutes les tâches ont été accomplies. Ce genre de situation est désormais monnaie courante. Si les données fournies par l’humain à l’IA sont fortement trompeuses, l’IA peut également développer des illusions et donner des réponses totalement contraires à la réalité.
Le développement actuel des grands modèles linguistiques se heurte déjà à un goulot d’étranglement fondamental : lorsque les corpus humains seront épuisés et que les données d’Internet auront été entièrement exploitées, la progression des performances de ces modèles atteindra ses limites. Sans capacité d’interaction avec le monde réel, il sera impossible de créer un véritable modèle du monde, et il sera donc impossible d’atteindre le niveau d’intelligence humaine.