Исчерпание данных: перекресток в развитии ИИ
В последние десять лет ИИ стремительно развивался, поглощая человеческие знания, но сегодня запасы доступных качественных данных почти исчерпаны. Этот кризис напоминает ситуацию с нехваткой продовольствия, с которой когда-то столкнулись предки человечества. Две тысячи лет до нашей эры предки были вынуждены мигрировать из-за изменения климата; в 2026 году созданная нами кремниевая жизнь стоит перед тем же выбором: либо деградировать в результате инбридинга данных, либо превзойти себя и совершить эволюционный скачок, выходящий за пределы человеческого познания, ценой полной потери человечеством контроля над ИИ.
Почему машинам нужно столько данных?
Человеческому ребенку достаточно увидеть кошку один раз, чтобы выделить ключевые черты и сформировать представление о ней — эффективность обучения чрезвычайно высока. Но машина не обладает общим знанием трехмерного мира и врожденными когнитивными способностями; по сути, она представляет собой прогнозирующее устройство, сильно уклоняющееся в одну сторону. Чтобы заставить ее «понять» кошку, можно только обучить ее на огромном количестве данных.
В последние годы такой подход к «кормлению» становится все более экстремальным. В эпоху экспертных систем 1980-х годов программисты тратили огромное количество времени на то, чтобы вручную вводить сотни тысяч логических правил, и в итоге получали всего несколько мегабайт текстовых данных. Стоило машине столкнуться с реальным миром, как она сразу же выходила из строя, не представляя никакой практической ценности. В 2012 году ИИ вступил в эпоху компьютерного зрения, и «кормление» данными превратилось в ручную маркировку. Набор данных ImageNet команды Ли Фэйфэй включал 14 миллионов изображений, полностью помеченных вручную, объем данных достигал десятков гигабайт, но машина могла лишь с трудом распознавать очертания кошки, опираясь на статистику пикселей, и совершенно не понимала сущности и повадок кошки.
С наступлением эры больших языковых моделей машинам потребовалось научиться логическому мышлению и человеческим эмоциям, а скорость ручной маркировки уже совершенно не поспевала за потребностями. Инженеры из Кремниевой долины просто открыли шлюзы и закинули в машину весь текст, оставленный человечеством в Интернете — официальные статьи, книги, отзывы пользователей — без разбора, и с тех пор объем данных машины начал расти в геометрической прогрессии.
История «обжорства» данных большими моделями
В 2020 году, когда была выпущена GPT-3, объем обучающих данных составлял примерно 500 миллиардов токенов, а объем собранных исходных данных — несколько десятков ТБ, что уже значительно превышало традиционное представление о масштабах текстов, доступных для чтения человеком. К 2024 году объем обучающих данных для нового поколения больших моделей уже подскочил с уровня в сотни миллиардов до уровня в несколько триллионов токенов. За несколько лет объем «пищи» для моделей вырос на несколько порядков, и признаков заметного замедления роста не наблюдается.
Сегодня, в 2026 году, общий объем качественных текстов, доступных в открытом доступе в Интернете, приближается к пределу, а скорость поглощения ведущими моделями приближается к верхнему пределу предложения качественного контента, создаваемого людьми. Есть две основные причины, по которым аппетит машин становится все больше: во-первых, это потребность в сложных выводах, а во-вторых — постоянное увеличение параметров моделей. От GPT-3 до сегодняшних гигантских моделей, которые часто имеют несколько триллионов параметров: чем больше параметров, тем больше требуется обучающих данных. Этот порочный круг параметров и данных является основной причиной сегодняшнего истощения данных.
Основная логика больших языковых моделей на самом деле заключается в вероятностном составлении текста: в многомерном пространстве с несколькими сотнями миллиардов измерений модель вычисляет вероятность того, каким будет следующее слово. Она узнает кошек и разбирается в литературе не потому, что действительно понимает смысл этих слов, а потому, что запечатлела тексты, связанные с человеком, в сложной и запутанной вероятностной координатах. Это похоже на то, как слепой человек должен прощупать все контуры предмета, чтобы определить, что это такое, но при этом он совершенно не видит его истинного облика.
Приведем самое наглядное сравнение: обычный человек, читая всю жизнь, охватывает менее миллиарда токенов, тогда как объем данных, необходимый для одного цикла обучения топовой большой модели, уже равен суммарному объему чтения нескольких десятков тысяч человеческих жизней.
Обратный отсчет до «голода по данным»: исчерпание качественных текстов в 2027–2030 годах
Такое безудержное потребление данных, хотя и привело к первоначальному успеху ChatGPT, также затронуло уязвимое место отрасли: запасы качественных данных, пригодных для обучения, уже почти исчерпаны. В своем отчете за 2024 год авторитетная организация Epoch AI предсказала, что все высококачественные тексты, созданные людьми, такие как профессиональные книги, научные статьи и качественные новости, будут полностью исчерпаны в период с 2027 по 2030 год. Оглядываясь назад из 2026 года, можно сказать, что этот обратный отсчет уже близится к концу.
Основная логика очень ясна: годовой рост наборов данных для обучения ИИ превышает 100%, в то время как годовой рост качественного контента, создаваемого людьми, составляет менее 10%. Этот дисбаланс спроса и предложения необратим. В то же время все больше веб-сайтов начинают активно ограничивать сбор контента ИИ, ужесточая доступ к данным с помощью соглашений об авторских правах и даже судебных исков, что еще больше закрывает доступ к источникам данных для ИИ.
Еще более смертельный кризис: обучающие данные загрязняются ИИ
Исчерпание данных — это лишь начало кризиса. Гораздо страшнее то, что оставшиеся источники данных подвергаются всестороннему загрязнению. Настоящая мудрость, созданная людьми, полностью затопляется информационными отходами, генерируемыми самими машинами, и это гораздо серьезнее, чем просто отсутствие пищи.
Теория «мертвого интернета», выдвинутая еще в 2022 году, становится реальностью. Эта теория предсказывает, что после 2026 года большая часть контента в интернете будет генерироваться ИИ — после распространения больших моделей стоимость производства контента снизилась практически до нуля, и контент-фермы начали безумно массово генерировать плагиат и фейковые новости. В период с 2023 по 2024 год платформа Amazon Kindle уже явно ощутила на себе удар контента, сгенерированного ИИ: на рынок хлынуло огромное количество однотипных, низкокачественных книг, написанных в спешке, что даже вынудило платформу ввести ограничительные меры, такие как ограничение количества публикаций в день для одного аккаунта. Эти книги практически не содержат реального содержания, а лишь зарабатывают мизерные доходы от авторских прав за счет нагромождения ключевых слов, при этом постоянно загрязняя обучающий набор данных ИИ.