Добавить
Уведомления

Думать или нет? Избирательное рассуждение с помощью обучения с подкреплением для визуально-языковых

Обучение с подкреплением — мощная стратегия для улучшения способности визуально-языковых моделей (VLM) к рассуждению, но существующие методы, такие как GRPO, часто генерируют излишне длинные цепочки рассуждений. Вдохновленная когнитивным поведением человека, где усилие на обдумывание модулируется сложностью задачи, эта работа предлагает позволить VLM решать, когда нужно рассуждать. Предлагаемый метод, названный TON (Think-or-Not - Думать или нет), использует двухэтапную стратегию обучения для достижения избирательного рассуждения. Первый этап включает контролируемую донастройку (SFT) с механизмом "выброса мыслей" (thought dropout), который случайным образом заменяет цепочки рассуждений пустыми мыслями. Этот выброс мыслей вводит формат вывода "думать или нет" во время SFT, служа первоначальным шагом к избирательному рассуждению. Второй этап использует групповую относительную оптимизацию политики (GRPO), чтобы позволить модели исследовать решение о том, когда думать, максимизируя при этом награды, зависящие от задачи. Экспериментальные результаты показывают, что TON существенно сокращает среднюю длину ответа, достигая до 90% сокращения по сравнению с обычным GRPO. Важно отметить, что этот выигрыш в эффективности достигается без потери производительности и в некоторых случаях даже приводит к улучшению точности. Оценки в различных визуально-языковых задачах подтверждают, что модель постепенно учится пропускать ненужные шаги рассуждений во время обучения. Полученные данные свидетельствуют о том, что способность избирательно применять рассуждение является отдельным обучаемым навыком, что открывает путь к более эффективным, подобным человеческим, моделям рассуждения в VLM. документ - http://arxiv.org/pdf/2505.16854v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM

12+
2 просмотра
2 месяца назад
26 мая 2025 г.
12+
2 просмотра
2 месяца назад
26 мая 2025 г.

Обучение с подкреплением — мощная стратегия для улучшения способности визуально-языковых моделей (VLM) к рассуждению, но существующие методы, такие как GRPO, часто генерируют излишне длинные цепочки рассуждений. Вдохновленная когнитивным поведением человека, где усилие на обдумывание модулируется сложностью задачи, эта работа предлагает позволить VLM решать, когда нужно рассуждать. Предлагаемый метод, названный TON (Think-or-Not - Думать или нет), использует двухэтапную стратегию обучения для достижения избирательного рассуждения. Первый этап включает контролируемую донастройку (SFT) с механизмом "выброса мыслей" (thought dropout), который случайным образом заменяет цепочки рассуждений пустыми мыслями. Этот выброс мыслей вводит формат вывода "думать или нет" во время SFT, служа первоначальным шагом к избирательному рассуждению. Второй этап использует групповую относительную оптимизацию политики (GRPO), чтобы позволить модели исследовать решение о том, когда думать, максимизируя при этом награды, зависящие от задачи. Экспериментальные результаты показывают, что TON существенно сокращает среднюю длину ответа, достигая до 90% сокращения по сравнению с обычным GRPO. Важно отметить, что этот выигрыш в эффективности достигается без потери производительности и в некоторых случаях даже приводит к улучшению точности. Оценки в различных визуально-языковых задачах подтверждают, что модель постепенно учится пропускать ненужные шаги рассуждений во время обучения. Полученные данные свидетельствуют о том, что способность избирательно применять рассуждение является отдельным обучаемым навыком, что открывает путь к более эффективным, подобным человеческим, моделям рассуждения в VLM. документ - http://arxiv.org/pdf/2505.16854v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM

, чтобы оставлять комментарии