REASONING GYM: Reasoning Environments for RL with Verifiable Rewards

Name: REASONING GYM: Reasoning Environments for RL with Verifiable Rewards
Uploaded: 2025-06-08T13:24:19+03:00
Duration: 6 min 30 s
Description: REASONING GYM: Reasoning Environments for RL with Verifiable Rewards

REASONING GYM: Среды для рассуждений для RL с проверяемыми наградами В статье представлена библиотека REASONING GYM (RG), новая библиотека сред для рассуждений, специально разработанных для обучения с подкреплением с проверяемыми наградами (RLVR). RG включает более 100 процедурно генерируемых задач и верификаторов в различных областях, включая математику, алгоритмы, когнитивные задачи и игры. Ключевое новшество заключается в генерации почти бесконечного объема тренировочных данных с контролируемой сложностью, что позволяет преодолеть ограничения статических наборов данных. Такой процедурный подход поддерживает непрерывную оценку и динамическое обучение по учебному плану, одновременно снижая проблемы запоминания. Эксперименты показывают, что даже ведущие большие языковые модели (БЯМ) испытывают трудности с производительностью в режиме zero-shot на многих сложных задачах RG, особенно на тех, которые связаны с визуально-пространственным рассуждением в текстовой форме. Значительное явление "обрыва сложности" демонстрирует резкое падение производительности по мере увеличения сложности задач в различных категориях. Модели, явно обученные рассуждениям, значительно превосходят модели общего назначения на задачах RG, подчеркивая преимущество специализированного обучения. Исследование демонстрирует сильный внутридоменный перенос: обучение с RLVR улучшает производительность на отложенных задачах в той же категории рассуждений. Важно отметить, что наблюдается удивительный кросс-доменный перенос, указывающий на то, что навыки, полученные в одной области, могут улучшать производительность в несвязанных областях. Наконец, обучение на задачах RG демонстрирует существенное улучшение результатов на известных внешних бенчмарках, таких как GSM8K и MATH. статья - http://arxiv.org/pdf/2505.24760v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM

12+

4 просмотра

Пожаловаться Нарушение авторских прав

12+

4 просмотра

, чтобы оставлять комментарии