Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
Рассуждение или запоминание? Ненадежные результаты обучения с подкреплением из-за загрязнения данных В этой исследовательской работе изучается надежность методов обучения с подкреплением (RL), используемых для улучшения способностей к рассуждению больших языковых моделей (LLM), с особым вниманием к семейству моделей Qwen2.5. Исследование показывает, что превосходная производительность Qwen2.5 на математических тестах, таких как MATH-500, может быть обусловлена загрязнением данных в результате ее предварительного обучения на веб-масштабных корпусах, что приводит к запоминанию, а не к подлинному рассуждению. Эксперименты показывают, что Qwen2.5 может точно завершать частичные задачи, что свидетельствует о запоминании. Для решения этой проблемы вводится новый, чистый набор данных под названием RandomCalculation, который демонстрирует, что только точные сигналы вознаграждения последовательно улучшают математическое рассуждение в RL. Неверные вознаграждения не дают улучшения. В статье предлагается, чтобы будущие оценки использовали незагрязненные тесты и проверяли различные серии моделей, чтобы обеспечить надежные выводы о методах RL, поскольку результаты показывают, что предыдущие отчеты о математических способностях Qwen2.5 могут быть неточными. Эта работа подчеркивает важность тщательной оценки, чтобы избежать неточных выводов. #ОбучениеСПодкреплением #БольшиеЯзыковыеМодели #ЗагрязнениеДанных #МатематическоеРассуждение #Qwen #Оценка #ИИ #НадежныйИИ #Тесты документ - https://arxiv.org/pdf/2507.10532v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Рассуждение или запоминание? Ненадежные результаты обучения с подкреплением из-за загрязнения данных В этой исследовательской работе изучается надежность методов обучения с подкреплением (RL), используемых для улучшения способностей к рассуждению больших языковых моделей (LLM), с особым вниманием к семейству моделей Qwen2.5. Исследование показывает, что превосходная производительность Qwen2.5 на математических тестах, таких как MATH-500, может быть обусловлена загрязнением данных в результате ее предварительного обучения на веб-масштабных корпусах, что приводит к запоминанию, а не к подлинному рассуждению. Эксперименты показывают, что Qwen2.5 может точно завершать частичные задачи, что свидетельствует о запоминании. Для решения этой проблемы вводится новый, чистый набор данных под названием RandomCalculation, который демонстрирует, что только точные сигналы вознаграждения последовательно улучшают математическое рассуждение в RL. Неверные вознаграждения не дают улучшения. В статье предлагается, чтобы будущие оценки использовали незагрязненные тесты и проверяли различные серии моделей, чтобы обеспечить надежные выводы о методах RL, поскольку результаты показывают, что предыдущие отчеты о математических способностях Qwen2.5 могут быть неточными. Эта работа подчеркивает важность тщательной оценки, чтобы избежать неточных выводов. #ОбучениеСПодкреплением #БольшиеЯзыковыеМодели #ЗагрязнениеДанных #МатематическоеРассуждение #Qwen #Оценка #ИИ #НадежныйИИ #Тесты документ - https://arxiv.org/pdf/2507.10532v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM