RUTUBE
Добавить
Уведомления
  • Главная
  • RUTUBE для блогеров
  • Каталог
  • Популярное
  • В топе
  • Shorts
  • ТВ онлайн
  • Трансляции
  • Моё
  • Фильмы
  • RUTUBE x PREMIER
  • Сезон контента 2.0

Войдите, чтобы подписываться на каналы, комментировать видео и оставлять реакции


  • Подписки
  • История просмотра
  • Плейлисты
  • Смотреть позже
  • Комментарии
  • Понравилось

  • Авто
  • Анимация
  • Блогеры
  • Видеоигры
  • Детям
  • Еда
  • Интервью
  • Команда R
  • Культура
  • Лайфхаки
  • Музыка
  • Новости и СМИ
  • Обучение
  • Оriginals
  • Подкасты
  • Путешествия
  • Радио
  • Разговоры о важном
  • Сельское хозяйство
  • Сериалы
  • Спорт
  • Телешоу
  • Фонды помощи
  • Футбол
  • Юмор
  • RUTUBE TV
Телеканалы
  • Иконка канала Первый канал
    Первый канал
  • Иконка канала Россия 1
    Россия 1
  • Иконка канала МАТЧ
    МАТЧ
  • Иконка канала НТВ
    НТВ
  • Иконка канала Пятый канал
    Пятый канал
  • Иконка канала Телеканал Культура
    Телеканал Культура
  • Иконка канала Россия 24
    Россия 24
  • Иконка канала ТВЦ
    ТВЦ
  • Иконка канала РЕН ТВ
    РЕН ТВ
  • Иконка канала СПАС
    СПАС
  • Иконка канала СТС
    СТС
  • Иконка канала Домашний
    Домашний
  • Иконка канала ТВ-3
    ТВ-3
  • Иконка канала Пятница
    Пятница
  • Иконка канала Звезда
    Звезда
  • Иконка канала МИР ТВ
    МИР ТВ
  • Иконка канала ТНТ
    ТНТ
  • Иконка канала МУЗ-ТВ
    МУЗ-ТВ
  • Иконка канала ЧЕ
    ЧЕ
  • Иконка канала Канал «Ю»
    Канал «Ю»
  • Иконка канала 2х2
    2х2
  • Иконка канала Кухня
    Кухня
  • Иконка канала viju
    viju


RUTUBE всегда с вами
Больше от RUTUBE
  • SMART TV
  • RUTUBE Детям
  • RUTUBE Спорт
  • RUTUBE Новости
RUTUBE в других соцсетях

  • Вопросы и ответы
  • Сообщить о проблеме
  • Написать в поддержку
  • О RUTUBE
  • Направления деятельности
  • Пользовательское соглашение
  • Конфиденциальность
  • Правовая информация
  • Рекомендательная система
  • Фирменный стиль

© 2025, RUTUBE

The Illusion of the Illusion of Thinking: A Critique of LRM Evaluation

Иллюзия иллюзии мышления: Критика оценки моделей большого рассуждения (LRM) Данный документ комментирует работу Shojaee и соавт. (2025), в которой утверждалось, что модели большого рассуждения (LRM) демонстрируют "спад точности" на сложных задачах планирования. Авторы утверждают, что эти выводы обусловлены ограничениями экспериментального дизайна, а не фундаментальными сбоями в рассуждении LRM. Одна из основных проблем, выявленных авторами, заключается в том, что эксперименты с Ханойской башней часто требуют выходных последовательностей, превышающих лимиты токенов модели, что модели иногда явно признают. Автоматизированная система оценки, использованная в оригинальном исследовании, предположительно не различает неспособность модели решить задачу и ее усечение из-за практических ограничений. Более того, в тестах на переправу через реку есть математически невозможные случаи для определенных параметров (N ≥ 6 при вместимости лодки 3), но модели при этом ошибочно оцениваются как потерпевшие неудачу. Авторы утверждают, что штрафование моделей за нерешение неразрешимых задач или за достижение лимитов токенов искажает их истинные возможности. Предварительные эксперименты с использованием альтернативных форматов вывода, таких как запрос генеративных функций для решений Ханойской башни, демонстрируют высокую точность на примерах, ранее считавшихся неудачными. Эти результаты свидетельствуют о том, что модели обладают базовой способностью к рассуждению, но им мешают специфические форматы оценки, требующие исчерпывающего вывода. В статье также критикуется использование длины решения как метрики сложности, утверждая, что истинная сложность задачи больше связана с коэффициентом ветвления и требованиями к поиску. В заключение авторы выступают за более надежные дизайны оценки, которые различают рассуждение и ограничения вывода, проверяют разрешимость задачи и используют соответствующие метрики сложности. документ - https://arxiv.org/pdf/2506.09250v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM

Иконка канала Paper debate
Paper debate
12+
11 просмотров
Месяц назад
14 июня 2025 г.
ПожаловатьсяНарушение авторских прав
12+
11 просмотров
Месяц назад
14 июня 2025 г.

Иллюзия иллюзии мышления: Критика оценки моделей большого рассуждения (LRM) Данный документ комментирует работу Shojaee и соавт. (2025), в которой утверждалось, что модели большого рассуждения (LRM) демонстрируют "спад точности" на сложных задачах планирования. Авторы утверждают, что эти выводы обусловлены ограничениями экспериментального дизайна, а не фундаментальными сбоями в рассуждении LRM. Одна из основных проблем, выявленных авторами, заключается в том, что эксперименты с Ханойской башней часто требуют выходных последовательностей, превышающих лимиты токенов модели, что модели иногда явно признают. Автоматизированная система оценки, использованная в оригинальном исследовании, предположительно не различает неспособность модели решить задачу и ее усечение из-за практических ограничений. Более того, в тестах на переправу через реку есть математически невозможные случаи для определенных параметров (N ≥ 6 при вместимости лодки 3), но модели при этом ошибочно оцениваются как потерпевшие неудачу. Авторы утверждают, что штрафование моделей за нерешение неразрешимых задач или за достижение лимитов токенов искажает их истинные возможности. Предварительные эксперименты с использованием альтернативных форматов вывода, таких как запрос генеративных функций для решений Ханойской башни, демонстрируют высокую точность на примерах, ранее считавшихся неудачными. Эти результаты свидетельствуют о том, что модели обладают базовой способностью к рассуждению, но им мешают специфические форматы оценки, требующие исчерпывающего вывода. В статье также критикуется использование длины решения как метрики сложности, утверждая, что истинная сложность задачи больше связана с коэффициентом ветвления и требованиями к поиску. В заключение авторы выступают за более надежные дизайны оценки, которые различают рассуждение и ограничения вывода, проверяют разрешимость задачи и используют соответствующие метрики сложности. документ - https://arxiv.org/pdf/2506.09250v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM

, чтобы оставлять комментарии