یادگیری تقویتی

ریچارد ساتون، برنده جایزه تورینگ، پیشگام در زمینه یادگیری تقویتی و یکی از مشارکت‌کنندگان کلیدی در الگوریتم‌های شیب سیاست و یادگیری تفاوت زمانی، در صنعت به عنوان «پدر یادگیری تقویتی» شناخته می‌شود. در اواخر سپتامبر ۲۰۲۵، این چهره کلیدی در توسعه مدل‌های زبانی بزرگ در یک مصاحبه عمومی، تردیدهای عمیقی در مورد مسیر کنونی چنین مدل‌هایی ابراز کرد و صراحتاً اعلام نمود که رویکرد فناورانه‌ای که توسط ChatGPT نمونه‌برداری شده است، پاسخ نهایی در مسیر رسیدن به هوش واقعی نیست. ...