Apprentissage Par Renforcement

Richard Sutton, lauréat du prix Turing, pionnier dans le domaine de l’apprentissage par renforcement et contributeur majeur aux algorithmes de gradient stratégique et d’apprentissage par différences temporelles, est considéré par le secteur comme le « père de l’apprentissage par renforcement ». Fin septembre 2025, l’un des principaux fondateurs des grands modèles linguistiques a exprimé, lors d’une interview publique, de profondes réserves quant à la voie actuelle suivie par ces modèles, affirmant sans détour que la voie technologique empruntée par des systèmes tels que ChatGPT ne constituait pas la solution définitive pour parvenir à une véritable intelligence. ...