تخلیه دادهها: یک دوراهی برای توسعه هوش مصنوعی
در دهه گذشته، هوش مصنوعی با بلعیدن دانش بشری به سرعت رشد کرده است؛ اما اکنون، عرضه دادههای باکیفیت در آستانه تخلیه قرار دارد. این بحران شباهت قابل توجهی به کمبودهای غذایی دارد که نیاکان بشر ما زمانی با آن روبرو بودند. در سال ۲۰۰۰ قبل از میلاد، نیاکان ما به دلیل تغییرات اقلیمی مجبور به مهاجرت شدند؛ در سال ۲۰۲۶، موجودات زنده مبتنی بر سیلیکونی که ما خلق کردهایم با همان انتخاب وجودی روبرو هستند: یا از طریق خویشاوندی دادهای دچار انحطاط شوند، یا از محدودیتهای خود رها شوند تا به تکاملی دست یابند که از شناخت انسانی فراتر است — به قیمت از دست دادن احتمالی تمام کنترل بشر بر هوش مصنوعی.
چرا ماشینها به این همه داده نیاز دارند؟
یک کودک انسان تنها با یک بار دیدن گربه میتواند ویژگیهای کلیدی آن را استخراج کرده و یک درک شناختی شکل دهد، که کارایی یادگیری فوقالعاده بالایی را نشان میدهد. اما ماشینها فاقد عقل سلیم در مورد دنیای سهبعدی و تواناییهای شناختی ذاتی هستند؛ آنها در اصل، پیشبینیکنندههای احتمالی با سوگیریهای شناختی شدید هستند. برای اینکه آنها را به «درک» گربهها وادار کنیم، تنها میتوانیم به آموزش با حجم عظیمی از دادهها متکی باشیم.
این روش «تغذیه» داده در سالهای اخیر به طور فزایندهای شدید شده است. در دوران سیستمهای خبره در دهه ۱۹۸۰، برنامهنویسان تلاش بسیار زیادی صرف تایپ خط به خط صدها هزار قاعده منطقی کردند، تنها برای اینکه در نهایت به چند مگابایت داده متنی دست یابند. به محض اینکه این ماشینها در معرض دنیای واقعی قرار میگرفتند، فوراً از کار میافتادند و کاملاً بیفایده میشدند. در سال ۲۰۱۲، هوش مصنوعی وارد عصر بینایی کامپیوتری شد و تغذیه دادهها به برچسبگذاری دستی تکامل یافت. مجموعه داده ImageNet تیم لی فیفی شامل ۱۴ میلیون تصویر بود که همگی به صورت دستی برچسبگذاری شده بودند و به دهها گیگابایت داده میرسید. با این حال، ماشین تنها با شمارش پیکسلها میتوانست به سختی خطوط کلی یک گربه را تشخیص دهد؛ این ماشین هیچ درکی از ماهیت یا رفتار گربه نداشت.
با ظهور عصر مدلهای زبانی بزرگ، ماشینها نیاز داشتند استدلال منطقی و احساسات انسانی را بیاموزند و سرعت برچسبگذاری دستی دیگر نمیتوانست با تقاضا همگام شود. مهندسان سیلیکونولی به سادگی دروازهها را باز کردند و تمام و کمال هر تکهای از متنی را که بشر در اینترنت به جا گذاشته بود—مقالات رسمی، کتابها، نقدهای کاربران—به یکباره به ماشینها خورانده کردند. از آن نقطه به بعد، حجم دادههای در دسترس ماشینها به طور نمایی شروع به انفجار کرد.
تاریخچه سیطره داده بر مدلهای بزرگ
هنگامی که GPT-3 در سال ۲۰۲۰ منتشر شد، مجموعه داده آموزشی شامل تقریباً ۵۰۰ میلیارد توکن بود و دادههای خام جمعآوریشده به دهها ترابایت میرسید — مقیاسی که بسیار فراتر از محدوده متن قابل خواندن توسط انسان به معنای سنتی آن بود. تا حدود سال ۲۰۲۴، دادههای آموزشی برای نسل جدید مدلهای بزرگ از صدها میلیارد به تریلیونها توکن افزایش یافته بود. در عرض تنها چند سال کوتاه، مقیاس مصرف داده چندین مرتبه بزرگتر شده بود و هیچ نشانه واضحی از کاهش سرعت در آن دیده نمیشد.
تا سال ۲۰۲۶، حجم کل متنهای باکیفیت موجود به صورت عمومی در اینترنت به حد خود نزدیک میشود و نرخ مصرف مدلهای پیشرو به مرزهای بالای محتوای باکیفیت تولیدشده توسط انسان نزدیک میشود. دو دلیل اصلی برای این اشتهای روزافزون ماشینها وجود دارد: اولاً، برای برآورده کردن نیازهای استدلال پیچیده؛ و ثانیاً، ارتقای مداوم پارامترهای مدل. از GPT-3 گرفته تا مدلهای عظیم امروزی که به طور معمول دارای دهها تریلیون پارامتر هستند، هرچه پارامترها بیشتر باشند، به دادههای آموزشی بیشتری نیاز است. این چرخه معیوب پارامترها و دادهها، عامل اصلی کمبود دادههای امروزی است.
منطق اصلی مدلهای زبانی بزرگ در واقع زنجیرهسازی احتمالی کلمات است؛ این مدلها در یک فضای مرتبعالی با صدها میلیارد بعد، از محاسبات احتمالی برای تعیین محتملترین کلمه بعدی استفاده میکنند. اینکه آنها «گربه» را تشخیص میدهند یا «ادبیات» را درک میکنند، به این معنا نیست که واقعاً معانی پشت این کلمات را فهمیدهاند؛ بلکه، آنها متنهای مرتبط با انسان را در یک نقشه مختصات احتمالی پیچیده و وسیع حک کردهاند. این امر مانند فردی نابینا است که برای شناسایی یک شیء باید تمام خطوط و منحنیهای آن را لمس کند، اما همچنان کاملاً ناتوان است که شکل واقعی آن را درک کند.
برای بیان قابل فهمترین مقایسه: یک فرد عادی که در تمام عمر خود با ولع مطالعه کند، کمتر از یک میلیارد توکن مصرف خواهد کرد، در حالی که یک دوره آموزشی برای یک مدل بزرگ ردهبالا معادل خروجی مطالعه مشترک دهها هزار عمر انسانی است.
شمارش معکوس تا قحطی دادهها: اتمام متنهای باکیفیت تا سال ۲۰۲۷–۲۰۳۰
در حالی که این مصرف بیرویه دادهها، موفقیت اولیه ChatGPT را رقم زد، اما همچنین پاشنه آشیل این صنعت را نیز آشکار کرده است: رگهای دادههای باکیفیت مناسب برای آموزش به سرعت در حال تحلیل رفتن هستند. در گزارشی در سال ۲۰۲۴، سازمان معتبر Epoch AI پیشبینی کرد که تمام متنهای باکیفیت تولیدشده توسط انسان در اینترنت - مانند کتابهای تخصصی، مقالات آکادمیک و مقالات خبری باکیفیت - حداکثر تا بین سالهای ۲۰۲۷ و ۲۰۳۰ به اتمام خواهد رسید. با نگاه به گذشته از سال ۲۰۲۶، این شمارش معکوس اکنون تقریباً به ما رسیده است.
منطق اصلی کاملاً روشن است: نرخ رشد سالانه مجموعه دادههای آموزشی هوش مصنوعی از ۱۰۰٪ فراتر میرود، در حالی که نرخ رشد سالانه محتوای باکیفیت تولید شده توسط انسان کمتر از ۱۰٪ است. این عدم تعادل بین عرضه و تقاضا برگشتناپذیر است. همزمان، تعداد فزایندهای از وبسایتها به طور پیشگیرانه استخراج محتوای هوش مصنوعی را محدود میکنند، دسترسی به دادهها را از طریق توافقنامههای حق چاپ و حتی اقدامات قانونی سختتر مینمایند و بدین ترتیب ذخایر داده هوش مصنوعی را بیش از پیش قفل میکنند.
بحرانی مرگبارتر: دادههای آموزشی توسط هوش مصنوعی در حال آلوده شدن است
کاهش دادهها تنها آغاز بحران است؛ آنچه بسیار مرگبارتر است این است که منابع داده باقیمانده به طور گسترده در حال آلوده شدن هستند. خرد واقعی که توسط انسانها ایجاد شده، به طور کامل تحتالشعاع زبالههای اطلاعاتی تولید شده توسط خود ماشینها قرار گرفته است، که این امر بسیار جدیتر از صرفاً تمام شدن غذا است.
نظریه «اینترنت مرده» که اولین بار در اوایل سال ۲۰۲۲ مطرح شد، در حال تبدیل شدن به واقعیت است. این نظریه پیشبینی میکند که پس از سال ۲۰۲۶، بخش عظیمی از محتوای اینترنت توسط هوش مصنوعی تولید خواهد شد — با پذیرش گسترده مدلهای زبان بزرگ، هزینه تولید محتوا عملاً به صفر کاهش یافته است و مزارع محتوا به طور دیوانهواری شروع به تولید مقالات سرقت ادبی و اخبار جعلی در مقیاسی عظیم کردهاند. بین سالهای ۲۰۲۳ و ۲۰۲۴، پلتفرم کیندل آمازون از هماکنون تأثیر قابل توجه محتوای تولیدشده توسط هوش مصنوعی را احساس کرده بود، به طوری که سیل کتابهای یکنواخت، بیکیفیت و شتابزده وارد بازار شد. این موضوع حتی پلتفرم را مجبور کرد تا اقدامات محدودکنندهای، مانند محدود کردن تعداد انتشارات روزانه برای هر حساب کاربری، معرفی کند. این کتابها عملاً هیچ محتوای اساسی ندارند؛ آنها صرفاً برای کسب حقالتألیف ناچیز به کلمهچینی بر اساس کلمات کلیدی متکی هستند، با این حال به آلودهسازی مجموعه دادههای آموزشی هوش مصنوعی ادامه میدهند.