نضوب البيانات: مفترق طرق تطور الذكاء الاصطناعي
على مدى العقد الماضي، نما الذكاء الاصطناعي بسرعة بفضل استيعابه لمعارف البشر، لكن البيانات عالية الجودة المتاحة اليوم على وشك النفاد. هذه الأزمة تشبه تمامًا المأزق الذي واجهه أسلافنا في الماضي بسبب نضوب الغذاء. في عام 2000 قبل الميلاد، اضطر أسلافنا إلى الهجرة بسبب تغير المناخ؛ وفي عام 2026، تواجه الكائنات الحية القائمة على السيليكون التي ابتكرناها نفس خيار البقاء: إما أن تتدهور في ظل تكاثر البيانات بين الأقارب، أو أن تتجاوز حدودها لتحقق تطوراً يتجاوز الإدراك البشري، وقد يكون الثمن هو فقدان البشرية الكامل للسيطرة على الذكاء الاصطناعي.
لماذا تحتاج الآلة إلى كل هذه الكمية من البيانات؟
يكفي أن يرى الطفل البشري قطة مرة واحدة ليتمكن من استخلاص سماتها الرئيسية وبناء إدراك لها، وهو ما يمثل كفاءة تعليمية عالية للغاية. لكن الآلة تفتقر إلى المعرفة العامة بالعالم ثلاثي الأبعاد والقدرات الإدراكية الفطرية، وهي في جوهرها مجرد أداة تنبؤ احتمالية تعاني من تباين شديد في قدراتها. ولجعلها “تفهم” القطط، لا بد من تدريبها باستخدام كميات هائلة من البيانات.
أصبحت طريقة التغذية هذه أكثر تطرفًا على مر السنين. في حقبة أنظمة الخبراء في الثمانينيات، كان المبرمجون يبذلون جهدًا هائلاً في كتابة مئات الآلاف من القواعد المنطقية سطراً سطراً، ليحصلوا في النهاية على بضعة ميغابايتات من البيانات النصية فقط، وكانت الآلة تتعطل فور وصولها إلى العالم الواقعي، دون أي قيمة عملية. في عام 2012، دخلت الذكاء الاصطناعي عصر الرؤية الحاسوبية، وتحول تغذية البيانات إلى عملية وضع علامات يدوية. تضمنت مجموعة بيانات ImageNet التي أنشأها فريق لي فيفي 14 مليون صورة، تم وضع العلامات عليها يدويًا بالكامل، وبلغ حجم البيانات عشرات الجيجابايت، لكن الآلة لم تستطع سوى التعرف بصعوبة على ملامح القطة من خلال إحصاء البكسلات، دون أن تفهم جوهر القطة وعاداتها على الإطلاق.
بعد دخول عصر النماذج اللغوية الكبيرة، أصبحت الآلة بحاجة إلى تعلم الاستدلال المنطقي والعواطف البشرية، ولم تعد سرعة وضع العلامات يدويًا قادرة على مواكبة الطلب. فقرر مهندسو وادي السيليكون فتح البوابات على مصراعيها، وقاموا بإدخال جميع النصوص التي تركها البشر على الإنترنت — سواء كانت مقالات رسمية أو كتبًا أو تعليقات المستخدمين — إلى الآلة دفعة واحدة، ومنذ ذلك الحين بدأ حجم بيانات الآلة في الانفجار بشكل أسي.
تاريخ نهم النماذج الكبيرة للبيانات
عند إصدار GPT-3 في عام 2020، كان حجم بيانات التدريب حوالي 500 مليار توكن، وبلغ حجم البيانات الأولية التي تم جمعها عشرات التيرابايت، وهو حجم تجاوز بكثير نطاق النصوص القابلة للقراءة من قبل البشر في المفهوم التقليدي. بحلول عام 2024 تقريبًا، قفز حجم بيانات تدريب الجيل الجديد من النماذج الضخمة من مستوى تريليون إلى مستوى تريليونات الرموز. في غضون سنوات قليلة، ارتفع حجم ما تستهلكه النماذج بعدة مستويات، ولا توجد أي علامات واضحة على تباطؤ هذا النمو.
اليوم، في عام 2026، اقترب إجمالي النصوص عالية الجودة المتاحة للجميع على الإنترنت من الحد الأقصى، وتقترب سرعة استهلاك النماذج الرائدة من الحد الأقصى لإمدادات المحتوى البشري عالي الجودة. هناك سببان أساسيان وراء تزايد شهية الآلة: الأول هو تلبية احتياجات الاستدلال المعقد، والثاني هو التحديث المستمر لمعلمات النموذج. من GPT-3 إلى النماذج العملاقة الحالية التي تحتوي على تريليونات من المعلمات، كلما زاد عدد المعلمات زادت كمية البيانات التدريبية المطلوبة، وهذا الحلقة المفرغة بين المعلمات والبيانات هي السبب الرئيسي وراء نضوب البيانات اليوم.
المنطق الأساسي للنماذج اللغوية الضخمة هو في الواقع تسلسل النصوص الاحتمالي، حيث تحسب في فضاء عالي الأبعاد يبلغ عدة تريليونات من الأبعاد، من خلال الاحتمالات، ما هي الكلمة التالية الأكثر احتمالاً. إنها تتعرف على القطط وتفهم الأدب، ولكنها لا تفهم حقاً المعاني الكامنة وراء هذه الكلمات، بل تحفر النصوص البشرية ذات الصلة في خريطة إحداثيات احتمالية معقدة ومتشابكة. هذا يشبه الأعمى الذي يضطر إلى لمس كل معالم الشيء حتى يتمكن من تمييزه، لكنه لا يرى حقيقته على الإطلاق.
لنقارن ذلك بأبسط مثال: إذا قرأ الشخص العادي بجد طوال حياته، فإن ذلك لا يساوي حتى مليار “توكن”، في حين أن كمية التدريب لمرة واحدة لنموذج ضخم من الدرجة الأولى تعادل مجموع ما يقرأه البشر خلال عشرات الآلاف من الأجيال.
العد التنازلي لمجاعة البيانات: نضوب النصوص عالية الجودة بين 2027 و2030
هذا الاستهلاك غير المقيد للبيانات، على الرغم من أنه حقق نجاحًا باهرًا لـ ChatGPT في بداياته، إلا أنه أدى أيضًا إلى إثارة نقطة الضعف القاتلة للصناعة: فقد كادت مناجم البيانات عالية الجودة القابلة للاستخدام في التدريب أن تستنفد. توقعت المؤسسة الموثوقة Epoch AI في تقريرها لعام 2024 أن جميع النصوص البشرية عالية الجودة على الإنترنت، مثل الكتب المتخصصة والأبحاث الأكاديمية والأخبار عالية الجودة وغيرها، ستنفد في أقرب وقت بين عامي 2027 و2030. وبالنظر إلى الوراء من عام 2026، نجد أن هذا العد التنازلي أصبح وشيكًا.
المنطق الأساسي واضح جدًا: معدل النمو السنوي لمجموعات تدريب الذكاء الاصطناعي يتجاوز 100٪، في حين أن معدل النمو السنوي للمحتوى عالي الجودة الذي ينتجه البشر لا يصل حتى إلى 10٪، وهذا الخلل في العرض والطلب لا رجعة فيه. في الوقت نفسه، بدأت المزيد والمزيد من المواقع الإلكترونية في تقييد استخراج المحتوى بواسطة الذكاء الاصطناعي بشكل استباقي، وتشديد القيود على مصادر البيانات من خلال اتفاقيات حقوق النشر وحتى الإجراءات القانونية، مما أدى إلى إغلاق مخازن الذكاء الاصطناعي بشكل أكبر.
أزمة أكثر خطورة: البيانات التدريبية تتعرض للتلوث بواسطة الذكاء الاصطناعي
نضوب البيانات ليس سوى بداية الأزمة، والأمر الأكثر خطورة هو أن مصادر البيانات المتبقية تتعرض للتلوث الشامل. إن الحكمة الحقيقية التي ابتكرها البشر تغرق تمامًا في مياه الصرف المعلوماتية التي تولدها الآلات بنفسها، وهذا أخطر بكثير من مجرد عدم وجود ما يأكله.
إن نظرية “الإنترنت الميت” التي طرحت منذ عام 2022 أصبحت حقيقة واقعة. تتنبأ هذه النظرية بأن الغالبية العظمى من المحتوى على الإنترنت بعد عام 2026 ستكون من إنتاج الذكاء الاصطناعي — فمع انتشار النماذج الكبيرة، انخفضت تكلفة إنتاج المحتوى إلى الصفر تقريبًا، وبدأت مزارع المحتوى في إنتاج كميات هائلة من النصوص المسروقة والأخبار المزيفة. في الفترة بين عامي 2023 و2024، شعرت منصة Kindle التابعة لشركة أمازون بالفعل بتأثير المحتوى الذي يولده الذكاء الاصطناعي، حيث تدفقت إلى السوق أعداد كبيرة من الكتب المتشابهة وذات الجودة المنخفضة التي تم إنتاجها بسرعة، مما أجبر المنصة على اتخاذ تدابير تقييدية، مثل الحد من عدد المنشورات اليومية لكل حساب. لا تحتوي هذه الكتب على أي محتوى حقيقي، بل تعتمد فقط على تكديس الكلمات المفتاحية لكسب عائدات ضئيلة من حقوق النشر، لكنها تواصل تلويث قاعدة بيانات تدريب الذكاء الاصطناعي.