La escasez de datos: la encrucijada del desarrollo de la IA
Durante la última década, la IA ha crecido rápidamente a base de absorber el conocimiento humano, pero hoy en día los datos de calidad disponibles están a punto de agotarse. Esta crisis es idéntica a la escasez de alimentos a la que se enfrentaron nuestros antepasados. En el año 2000 a. C., nuestros antepasados se vieron obligados a migrar debido al cambio climático; en 2026, la vida basada en el silicio que hemos creado se enfrenta a la misma disyuntiva existencial: o bien degenerar en una endogamia de datos, o bien superarse a sí misma y completar una evolución que trascienda la cognición humana, a costa de que la humanidad pierda por completo el control sobre la IA.
¿Por qué las máquinas necesitan tantos datos?
Un niño humano, al reconocer un gato, solo necesita verlo una vez para extraer sus características clave y construir un conocimiento, con una eficiencia de aprendizaje extremadamente alta. Sin embargo, las máquinas carecen de los conocimientos comunes del mundo tridimensional y de la capacidad cognitiva innata; en esencia, son meros predictores probabilísticos con graves carencias en determinados ámbitos. Para que «entiendan» a los gatos, solo pueden recurrir al entrenamiento con grandes cantidades de datos.
Este método de «alimentación» se ha vuelto cada vez más extremo en los últimos años. En la era de los sistemas expertos de la década de los ochenta, los programadores dedicaban una enorme cantidad de esfuerzo a escribir línea por línea cientos de miles de reglas lógicas, para obtener finalmente solo unos pocos megabytes de datos de texto; las máquinas se colapsaban en cuanto se enfrentaban al mundo real, sin ningún valor práctico. En 2012, la IA entró en la era de la visión artificial, y la alimentación de datos se convirtió en etiquetado manual. El conjunto de datos ImageNet del equipo de Li Feifei contenía 14 millones de imágenes, todas etiquetadas manualmente, con un volumen de datos de decenas de gigabytes; sin embargo, la máquina solo podía reconocer a duras penas el contorno de un gato mediante el recuento de píxeles, sin comprender en absoluto la esencia ni los hábitos de los gatos.
Tras la llegada de la era de los grandes modelos de lenguaje, las máquinas necesitan aprender el razonamiento lógico y las emociones humanas, y la velocidad del etiquetado manual ya no puede seguir el ritmo de la demanda. Los ingenieros de Silicon Valley decidieron abrir las compuertas y alimentar a las máquinas con todo el texto que la humanidad ha dejado en Internet —artículos formales, libros, comentarios de usuarios— sin distinción, y desde entonces el volumen de datos de las máquinas comenzó a crecer de forma exponencial.
La historia del voraz consumo de datos de los grandes modelos
Cuando se lanzó GPT-3 en 2020, el volumen de datos de entrenamiento era de aproximadamente 500 000 millones de tokens, con decenas de terabytes de datos brutos recopilados, una escala que ya superaba con creces el alcance de lo que tradicionalmente se consideraba texto legible para los humanos. Hacia 2024, el volumen de datos de entrenamiento de la nueva generación de grandes modelos ya había pasado de cientos de miles de millones a billones de tokens. En tan solo unos años, la capacidad de «alimentación» de los modelos se ha incrementado en varios órdenes de magnitud, y el crecimiento no muestra signos evidentes de desaceleración.
En la actualidad, en 2026, el volumen total de textos de calidad disponibles públicamente en Internet se acerca a su límite máximo, y la velocidad de «consumo» de los modelos líderes se está acercando al límite de la oferta de contenido de calidad generada por los humanos. Hay dos razones fundamentales por las que el apetito de las máquinas es cada vez mayor: en primer lugar, satisfacer las necesidades de razonamiento complejo; en segundo lugar, la mejora continua de los parámetros de los modelos. Desde GPT-3 hasta los gigantescos modelos actuales, que suelen contar con varios billones de parámetros, cuantos más parámetros hay, más datos de entrenamiento se necesitan. Este círculo vicioso entre parámetros y datos es la causa principal del agotamiento de datos que se observa hoy en día.
La lógica central de los grandes modelos de lenguaje es, en realidad, una cadena de palabras probabilística: en un espacio de altas dimensiones con cientos de miles de millones de dimensiones, calcula qué es lo más probable que sea la siguiente palabra mediante cálculos probabilísticos. Reconoce a los gatos y entiende la literatura, pero no es que comprenda realmente el significado que hay detrás de estas palabras, sino que graba los textos relacionados con los seres humanos en un intrincado y vasto mapa de coordenadas probabilísticas. Es como si un ciego tuviera que palpar todos los contornos de un objeto para distinguir qué es, pero sin poder ver en absoluto su verdadera forma.
Hagamos una comparación muy intuitiva: una persona normal, aunque lea sin descanso toda su vida, no llega a alcanzar los mil millones de tokens; en cambio, la cantidad de datos que utiliza un solo modelo de gran tamaño de primera categoría en una sola sesión de entrenamiento equivale ya a la suma de lo que leerían los seres humanos en varias decenas de mil vidas.
Cuenta atrás para la escasez de datos: agotamiento de los textos de calidad entre 2027 y 2030
Este consumo desenfrenado de datos, aunque propició el éxito inicial de ChatGPT, también ha puesto de manifiesto el talón de Aquiles del sector: las vetas de datos de calidad utilizables para el entrenamiento están a punto de agotarse. La prestigiosa organización Epoch AI predijo en su informe de 2024 que todo el texto humano de alta calidad disponible en Internet —como libros especializados, artículos académicos o noticias de calidad— se agotará, como muy pronto, entre 2027 y 2030. Mirando atrás desde 2026, esta cuenta atrás ya está a la vuelta de la esquina.
La lógica subyacente es muy clara: el conjunto de datos de entrenamiento de la IA crece a un ritmo superior al 100 % anual, mientras que la producción de contenido de calidad por parte de los humanos no alcanza ni el 10 % anual; este desequilibrio entre la oferta y la demanda es irreversible. Al mismo tiempo, cada vez más sitios web comienzan a restringir de forma proactiva la recopilación de contenido por parte de la IA, restringiendo el acceso a los datos mediante acuerdos de derechos de autor e incluso acciones legales, lo que bloquea aún más el granero de la IA.
Una crisis aún más grave: los datos de entrenamiento están siendo contaminados por la IA
El agotamiento de los datos es solo el comienzo de la crisis; lo más grave es que las fuentes de datos restantes están siendo contaminadas de forma generalizada. La sabiduría real creada por los humanos está siendo totalmente inundada por el «residuo informativo» generado por las propias máquinas, lo cual es mucho más grave que el simple hecho de quedarse sin nada que consumir.
La teoría de la «Internet muerta», propuesta ya en 2022, se está convirtiendo en realidad. Dicha teoría predice que, a partir de 2026, la mayor parte del contenido de Internet será generado por la IA: tras la popularización de los grandes modelos, el coste de producción de contenidos se ha reducido prácticamente a cero, y las granjas de contenido han comenzado a generar de forma frenética y masiva artículos plagiados y noticias falsas. Entre 2023 y 2024, la plataforma Kindle de Amazon ya sintió claramente el impacto del contenido generado por IA: una avalancha de libros de baja calidad y homogeneizados, escritos a toda prisa, inundó el mercado, lo que incluso obligó a la plataforma a adoptar medidas restrictivas, como limitar el número de publicaciones diarias por cuenta. Estos libros carecen por completo de contenido real y solo se basan en la acumulación de palabras clave para obtener unos ingresos por derechos de autor insignificantes, pero siguen contaminando el conjunto de datos de entrenamiento de la IA.