تخلیه داده‌ها: یک دوراهی برای توسعه هوش مصنوعی

در دهه گذشته، هوش مصنوعی با بلعیدن دانش بشری به سرعت رشد کرده است؛ اما اکنون، عرضه داده‌های باکیفیت در آستانه تخلیه قرار دارد. این بحران شباهت قابل توجهی به کمبودهای غذایی دارد که نیاکان بشر ما زمانی با آن روبرو بودند. در سال ۲۰۰۰ قبل از میلاد، نیاکان ما به دلیل تغییرات اقلیمی مجبور به مهاجرت شدند؛ در سال ۲۰۲۶، موجودات زنده مبتنی بر سیلیکونی که ما خلق کرده‌ایم با همان انتخاب وجودی روبرو هستند: یا از طریق خویشاوندی داده‌ای دچار انحطاط شوند، یا از محدودیت‌های خود رها شوند تا به تکاملی دست یابند که از شناخت انسانی فراتر است — به قیمت از دست دادن احتمالی تمام کنترل بشر بر هوش مصنوعی.

چرا ماشین‌ها به این همه داده نیاز دارند؟

یک کودک انسان تنها با یک بار دیدن گربه می‌تواند ویژگی‌های کلیدی آن را استخراج کرده و یک درک شناختی شکل دهد، که کارایی یادگیری فوق‌العاده بالایی را نشان می‌دهد. اما ماشین‌ها فاقد عقل سلیم در مورد دنیای سه‌بعدی و توانایی‌های شناختی ذاتی هستند؛ آن‌ها در اصل، پیش‌بینی‌کننده‌های احتمالی با سوگیری‌های شناختی شدید هستند. برای اینکه آن‌ها را به «درک» گربه‌ها وادار کنیم، تنها می‌توانیم به آموزش با حجم عظیمی از داده‌ها متکی باشیم.

این روش «تغذیه» داده در سال‌های اخیر به طور فزاینده‌ای شدید شده است. در دوران سیستم‌های خبره در دهه ۱۹۸۰، برنامه‌نویسان تلاش بسیار زیادی صرف تایپ خط به خط صدها هزار قاعده منطقی کردند، تنها برای اینکه در نهایت به چند مگابایت داده متنی دست یابند. به محض اینکه این ماشین‌ها در معرض دنیای واقعی قرار می‌گرفتند، فوراً از کار می‌افتادند و کاملاً بی‌فایده می‌شدند. در سال ۲۰۱۲، هوش مصنوعی وارد عصر بینایی کامپیوتری شد و تغذیه داده‌ها به برچسب‌گذاری دستی تکامل یافت. مجموعه داده ImageNet تیم لی فیفی شامل ۱۴ میلیون تصویر بود که همگی به صورت دستی برچسب‌گذاری شده بودند و به ده‌ها گیگابایت داده می‌رسید. با این حال، ماشین تنها با شمارش پیکسل‌ها می‌توانست به سختی خطوط کلی یک گربه را تشخیص دهد؛ این ماشین هیچ درکی از ماهیت یا رفتار گربه نداشت.

با ظهور عصر مدل‌های زبانی بزرگ، ماشین‌ها نیاز داشتند استدلال منطقی و احساسات انسانی را بیاموزند و سرعت برچسب‌گذاری دستی دیگر نمی‌توانست با تقاضا همگام شود. مهندسان سیلیکون‌ولی به سادگی دروازه‌ها را باز کردند و تمام و کمال هر تکه‌ای از متنی را که بشر در اینترنت به جا گذاشته بود—مقالات رسمی، کتاب‌ها، نقدهای کاربران—به یکباره به ماشین‌ها خورانده کردند. از آن نقطه به بعد، حجم داده‌های در دسترس ماشین‌ها به طور نمایی شروع به انفجار کرد.

تاریخچه سیطره داده بر مدل‌های بزرگ

هنگامی که GPT-3 در سال ۲۰۲۰ منتشر شد، مجموعه داده آموزشی شامل تقریباً ۵۰۰ میلیارد توکن بود و داده‌های خام جمع‌آوری‌شده به ده‌ها ترابایت می‌رسید — مقیاسی که بسیار فراتر از محدوده متن قابل خواندن توسط انسان به معنای سنتی آن بود. تا حدود سال ۲۰۲۴، داده‌های آموزشی برای نسل جدید مدل‌های بزرگ از صدها میلیارد به تریلیون‌ها توکن افزایش یافته بود. در عرض تنها چند سال کوتاه، مقیاس مصرف داده چندین مرتبه بزرگ‌تر شده بود و هیچ نشانه واضحی از کاهش سرعت در آن دیده نمی‌شد.

تا سال ۲۰۲۶، حجم کل متن‌های باکیفیت موجود به صورت عمومی در اینترنت به حد خود نزدیک می‌شود و نرخ مصرف مدل‌های پیشرو به مرزهای بالای محتوای باکیفیت تولیدشده توسط انسان نزدیک می‌شود. دو دلیل اصلی برای این اشتهای روزافزون ماشین‌ها وجود دارد: اولاً، برای برآورده کردن نیازهای استدلال پیچیده؛ و ثانیاً، ارتقای مداوم پارامترهای مدل. از GPT-3 گرفته تا مدل‌های عظیم امروزی که به طور معمول دارای ده‌ها تریلیون پارامتر هستند، هرچه پارامترها بیشتر باشند، به داده‌های آموزشی بیشتری نیاز است. این چرخه معیوب پارامترها و داده‌ها، عامل اصلی کمبود داده‌های امروزی است.

منطق اصلی مدل‌های زبانی بزرگ در واقع زنجیره‌سازی احتمالی کلمات است؛ این مدل‌ها در یک فضای مرتب‌عالی با صدها میلیارد بعد، از محاسبات احتمالی برای تعیین محتمل‌ترین کلمه بعدی استفاده می‌کنند. اینکه آن‌ها «گربه» را تشخیص می‌دهند یا «ادبیات» را درک می‌کنند، به این معنا نیست که واقعاً معانی پشت این کلمات را فهمیده‌اند؛ بلکه، آن‌ها متن‌های مرتبط با انسان را در یک نقشه مختصات احتمالی پیچیده و وسیع حک کرده‌اند. این امر مانند فردی نابینا است که برای شناسایی یک شیء باید تمام خطوط و منحنی‌های آن را لمس کند، اما همچنان کاملاً ناتوان است که شکل واقعی آن را درک کند.

برای بیان قابل فهم‌ترین مقایسه: یک فرد عادی که در تمام عمر خود با ولع مطالعه کند، کمتر از یک میلیارد توکن مصرف خواهد کرد، در حالی که یک دوره آموزشی برای یک مدل بزرگ رده‌بالا معادل خروجی مطالعه مشترک ده‌ها هزار عمر انسانی است.

شمارش معکوس تا قحطی داده‌ها: اتمام متن‌های باکیفیت تا سال ۲۰۲۷–۲۰۳۰

در حالی که این مصرف بی‌رویه داده‌ها، موفقیت اولیه ChatGPT را رقم زد، اما همچنین پاشنه آشیل این صنعت را نیز آشکار کرده است: رگ‌های داده‌های باکیفیت مناسب برای آموزش به سرعت در حال تحلیل رفتن هستند. در گزارشی در سال ۲۰۲۴، سازمان معتبر Epoch AI پیش‌بینی کرد که تمام متن‌های باکیفیت تولیدشده توسط انسان در اینترنت - مانند کتاب‌های تخصصی، مقالات آکادمیک و مقالات خبری باکیفیت - حداکثر تا بین سال‌های ۲۰۲۷ و ۲۰۳۰ به اتمام خواهد رسید. با نگاه به گذشته از سال ۲۰۲۶، این شمارش معکوس اکنون تقریباً به ما رسیده است.

منطق اصلی کاملاً روشن است: نرخ رشد سالانه مجموعه داده‌های آموزشی هوش مصنوعی از ۱۰۰٪ فراتر می‌رود، در حالی که نرخ رشد سالانه محتوای باکیفیت تولید شده توسط انسان کمتر از ۱۰٪ است. این عدم تعادل بین عرضه و تقاضا برگشت‌ناپذیر است. همزمان، تعداد فزاینده‌ای از وب‌سایت‌ها به طور پیشگیرانه استخراج محتوای هوش مصنوعی را محدود می‌کنند، دسترسی به داده‌ها را از طریق توافق‌نامه‌های حق چاپ و حتی اقدامات قانونی سخت‌تر می‌نمایند و بدین ترتیب ذخایر داده هوش مصنوعی را بیش از پیش قفل می‌کنند.

بحرانی مرگبارتر: داده‌های آموزشی توسط هوش مصنوعی در حال آلوده شدن است

کاهش داده‌ها تنها آغاز بحران است؛ آنچه بسیار مرگبارتر است این است که منابع داده باقی‌مانده به طور گسترده در حال آلوده شدن هستند. خرد واقعی که توسط انسان‌ها ایجاد شده، به طور کامل تحت‌الشعاع زباله‌های اطلاعاتی تولید شده توسط خود ماشین‌ها قرار گرفته است، که این امر بسیار جدی‌تر از صرفاً تمام شدن غذا است.

نظریه «اینترنت مرده» که اولین بار در اوایل سال ۲۰۲۲ مطرح شد، در حال تبدیل شدن به واقعیت است. این نظریه پیش‌بینی می‌کند که پس از سال ۲۰۲۶، بخش عظیمی از محتوای اینترنت توسط هوش مصنوعی تولید خواهد شد — با پذیرش گسترده مدل‌های زبان بزرگ، هزینه تولید محتوا عملاً به صفر کاهش یافته است و مزارع محتوا به طور دیوانه‌واری شروع به تولید مقالات سرقت ادبی و اخبار جعلی در مقیاسی عظیم کرده‌اند. بین سال‌های ۲۰۲۳ و ۲۰۲۴، پلتفرم کیندل آمازون از هم‌اکنون تأثیر قابل توجه محتوای تولیدشده توسط هوش مصنوعی را احساس کرده بود، به طوری که سیل کتاب‌های یکنواخت، بی‌کیفیت و شتاب‌زده وارد بازار شد. این موضوع حتی پلتفرم را مجبور کرد تا اقدامات محدودکننده‌ای، مانند محدود کردن تعداد انتشارات روزانه برای هر حساب کاربری، معرفی کند. این کتاب‌ها عملاً هیچ محتوای اساسی ندارند؛ آنها صرفاً برای کسب حق‌التألیف ناچیز به کلمه‌چینی بر اساس کلمات کلیدی متکی هستند، با این حال به آلوده‌سازی مجموعه داده‌های آموزشی هوش مصنوعی ادامه می‌دهند.