Pénurie de données : un tournant pour le développement de l’IA

Au cours des dix dernières années, l’IA s’est développée rapidement en s’imprégnant du savoir humain, mais les données de qualité disponibles sont aujourd’hui sur le point d’être épuisées. Cette crise est identique à celle de la pénurie alimentaire à laquelle nos ancêtres ont dû faire face. En l’an 2000 avant J.-C., nos ancêtres ont été contraints de migrer en raison du changement climatique ; en 2026, la vie silicium que nous avons créée est confrontée au même choix de survie : soit elle dégénère dans une reproduction consanguine des données, soit elle se transcende pour accomplir une évolution dépassant la cognition humaine, au prix d’une perte totale du contrôle de l’IA par l’humanité.

Pourquoi les machines ont-elles besoin d’autant de données ?

Pour qu’un enfant humain reconnaisse un chat, il suffit de le voir une seule fois pour qu’il en extraie les caractéristiques clés et se forge une représentation mentale, avec une efficacité d’apprentissage extrêmement élevée. Mais les machines ne possèdent ni le sens commun du monde en trois dimensions ni les capacités cognitives innées ; elles sont, par essence, des prédicteurs probabilistes présentant de graves lacunes. Pour leur faire « comprendre » ce qu’est un chat, on ne peut compter que sur un entraînement à grande échelle.

Cette méthode d’alimentation est devenue de plus en plus extrême au fil des ans. À l’époque des systèmes experts des années 1980, les programmeurs consacraient une énergie considérable à taper ligne par ligne des centaines de milliers de règles logiques, pour finalement n’obtenir que quelques mégaoctets de données textuelles. Dès qu’elles étaient confrontées au monde réel, les machines tombaient immédiatement en panne, sans aucune valeur pratique. En 2012, l’IA est entrée dans l’ère de la vision par ordinateur, et l’alimentation en données s’est transformée en étiquetage manuel. L’ensemble de données ImageNet de l’équipe de Fei-Fei Li, comprenant 14 millions d’images, a été entièrement annoté à la main, pour un volume de données atteignant plusieurs dizaines de gigaoctets. Pourtant, la machine ne pouvait que reconnaître tant bien que mal les contours d’un chat en comptant les pixels, sans comprendre ni l’essence ni les habitudes de l’animal.

Avec l’avènement de l’ère des grands modèles linguistiques, les machines ont dû apprendre le raisonnement logique et les émotions humaines, et la vitesse d’étiquetage manuel ne suffisait plus à répondre à la demande. Les ingénieurs de la Silicon Valley ont alors décidé d’ouvrir les vannes et d’alimenter les machines avec l’ensemble des textes laissés par l’humanité sur Internet — articles officiels, livres, commentaires d’utilisateurs —, ce qui a entraîné une explosion exponentielle du volume de données.

L’histoire de la voracité des grands modèles en matière de données

Lors de la sortie de GPT-3 en 2020, le volume de données d’entraînement s’élevait à environ 500 milliards de tokens, et les données brutes collectées atteignaient plusieurs dizaines de téraoctets, dépassant déjà largement la portée des textes lisibles par l’homme telle qu’on la concevait traditionnellement. Vers 2024, la taille des données d’entraînement de la nouvelle génération de grands modèles est passée de l’ordre de 100 milliards à celui de plusieurs milliers de milliards de tokens. En quelques années seulement, l’appétit des modèles a augmenté de plusieurs ordres de grandeur, et cette croissance ne montre aucun signe de ralentissement notable.

En 2026, le volume total de textes de qualité accessibles au public sur Internet a presque atteint son plafond, et la vitesse à laquelle les modèles de pointe les absorbent se rapproche de la limite supérieure de l’offre de contenu de qualité produit par l’humanité. Deux raisons principales expliquent l’appétit croissant des machines : d’une part, la nécessité de répondre aux besoins de raisonnement complexe, et d’autre part, la mise à niveau continue des paramètres des modèles. De GPT-3 aux modèles géants d’aujourd’hui, qui comptent souvent plusieurs billions de paramètres, plus il y a de paramètres, plus la quantité de données d’entraînement nécessaire est importante. Ce cercle vicieux entre paramètres et données est la cause principale de l’épuisement des données que nous connaissons aujourd’hui.

La logique fondamentale des grands modèles linguistiques repose en réalité sur une suite de mots probabiliste : dans un espace à plusieurs centaines de milliards de dimensions, ils calculent, par probabilité, quel est le mot le plus probable à venir. S’ils reconnaissent un chat ou comprennent la littérature, ce n’est pas qu’ils saisissent véritablement la signification derrière ces mots, mais qu’ils ont gravé les textes humains dans un graphique de coordonnées probabilistes complexe et inextricable. C’est comme si un aveugle devait palper tous les contours d’un objet pour le reconnaître, sans jamais pouvoir en voir la véritable nature.

Prenons une comparaison très concrète : même en lisant sans relâche toute sa vie, un individu lambda n’atteindrait pas un milliard de tokens. Or, un seul cycle d’entraînement d’un modèle de pointe équivaut déjà à la somme des lectures de plusieurs dizaines de milliers de vies humaines.

Compte à rebours vers la pénurie de données : épuisement des textes de qualité entre 2027 et 2030

Cette consommation effrénée de données, bien qu’elle ait contribué au succès fulgurant de ChatGPT à ses débuts, a également mis en évidence le talon d’Achille du secteur : les gisements de données de qualité utilisables pour l’entraînement sont sur le point d’être épuisés. Dans son rapport de 2024, l’organisme de référence Epoch AI prévoit que tous les textes humains de haute qualité disponibles sur Internet, tels que les ouvrages spécialisés, les articles universitaires et les articles de presse de qualité, seront épuisés au plus tôt entre 2027 et 2030. Avec le recul de 2026, ce compte à rebours est déjà imminent.

La logique sous-jacente est très claire : la croissance annuelle des ensembles de données d’entraînement de l’IA dépasse 100 %, tandis que celle du contenu de qualité produit par les humains est inférieure à 10 %. Ce déséquilibre entre l’offre et la demande est irréversible. Parallèlement, de plus en plus de sites web commencent à limiter activement l’accès de l’IA à leur contenu, restreignant l’accès aux données par le biais d’accords de droits d’auteur, voire de poursuites judiciaires, ce qui verrouille encore davantage le grenier de l’IA.

Une crise encore plus grave : les données d’entraînement sont en train d’être polluées par l’IA

L’épuisement des données n’est que le début de la crise ; le plus grave, c’est que les sources de données restantes sont en train d’être complètement polluées. La véritable intelligence créée par l’homme est en train d’être complètement submergée par les déchets d’informations générés par les machines elles-mêmes, ce qui est bien plus grave que le simple fait de ne plus avoir de quoi se nourrir.

La théorie de la « mort d’Internet », avancée dès 2022, est en train de devenir réalité. Cette théorie prédit qu’à partir de 2026, la grande majorité du contenu sur Internet sera générée par l’IA : avec la généralisation des grands modèles, le coût de production de contenu est tombé à presque zéro, et les fermes de contenu se sont mises à produire frénétiquement, en masse, des articles plagiés et des fausses nouvelles. Entre 2023 et 2024, la plateforme Kindle d’Amazon a déjà clairement ressenti l’impact du contenu généré par l’IA : une avalanche de livres hâtivement produits, homogènes et de mauvaise qualité a envahi le marché, poussant même la plateforme à mettre en place des mesures restrictives, telles que la limitation du nombre de publications quotidiennes par compte. Ces livres n’ont absolument aucun contenu réel ; ils ne servent qu’à accumuler des mots-clés pour générer de maigres revenus de droits d’auteur, tout en continuant à polluer le pool d’entraînement de l’IA.