Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM
Роль высокоэнтропийных миноритарных токенов в эффективном обучении с подкреплением для рассуждений LLM Обучение с подкреплением с верифицируемыми наградами (RLVR) является мощным подходом для улучшения рассуждений больших языковых моделей (LLM), хотя его механизмы еще не полностью изучены. Эта работа исследует RLVR путем анализа паттернов энтропии токенов в рассуждениях типа "цепочка мыслей" (Chain-of-Thought, CoT). Исследование показывает, что только небольшая часть токенов обладает высокой энтропией, выступая в качестве критических точек принятия решений или "развилок" на путях рассуждений. Напротив, большинство токенов имеют низкую энтропию и в основном завершают лингвистические структуры. Анализ обучения RLVR показывает, что модели в значительной степени сохраняют паттерны энтропии базовой модели, в основном корректируя энтропию высокоэнтропийных токенов. Важно отметить, что ограничение обновлений градиента политики RLVR только для 20% токенов с самой высокой энтропией достигает производительности, сопоставимой или превосходящей обновления по полному градиенту, при этом эффективность положительно масштабируется с размером модели. Например, такое сфокусированное обучение дает значительный прирост на более крупных моделях Qwen3 по сравнению с использованием всех токенов. Обучение исключительно на 80% токенов с самой низкой энтропией приводит к существенному снижению производительности. Эти результаты показывают, что эффективность RLVR в значительной степени обусловлена оптимизацией высокоэнтропийных миноритарных токенов, которые определяют направления рассуждений. Полученные данные предлагают новый взгляд с точки зрения энтропии токенов для понимания и оптимизации RLVR с целью улучшения способностей LLM к рассуждению. документ - https://arxiv.org/pdf/2506.01939v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM
Роль высокоэнтропийных миноритарных токенов в эффективном обучении с подкреплением для рассуждений LLM Обучение с подкреплением с верифицируемыми наградами (RLVR) является мощным подходом для улучшения рассуждений больших языковых моделей (LLM), хотя его механизмы еще не полностью изучены. Эта работа исследует RLVR путем анализа паттернов энтропии токенов в рассуждениях типа "цепочка мыслей" (Chain-of-Thought, CoT). Исследование показывает, что только небольшая часть токенов обладает высокой энтропией, выступая в качестве критических точек принятия решений или "развилок" на путях рассуждений. Напротив, большинство токенов имеют низкую энтропию и в основном завершают лингвистические структуры. Анализ обучения RLVR показывает, что модели в значительной степени сохраняют паттерны энтропии базовой модели, в основном корректируя энтропию высокоэнтропийных токенов. Важно отметить, что ограничение обновлений градиента политики RLVR только для 20% токенов с самой высокой энтропией достигает производительности, сопоставимой или превосходящей обновления по полному градиенту, при этом эффективность положительно масштабируется с размером модели. Например, такое сфокусированное обучение дает значительный прирост на более крупных моделях Qwen3 по сравнению с использованием всех токенов. Обучение исключительно на 80% токенов с самой низкой энтропией приводит к существенному снижению производительности. Эти результаты показывают, что эффективность RLVR в значительной степени обусловлена оптимизацией высокоэнтропийных миноритарных токенов, которые определяют направления рассуждений. Полученные данные предлагают новый взгляд с точки зрения энтропии токенов для понимания и оптимизации RLVR с целью улучшения способностей LLM к рассуждению. документ - https://arxiv.org/pdf/2506.01939v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM