RUTUBE
Добавить
Уведомления
  • Главная
  • RUTUBE для блогеров
  • Каталог
  • Популярное
  • В топе
  • Shorts
  • ТВ онлайн
  • Трансляции
  • Моё
  • Фильмы
  • RUTUBE x PREMIER
  • Сезон контента 2.0

Войдите, чтобы подписываться на каналы, комментировать видео и оставлять реакции


  • Подписки
  • История просмотра
  • Плейлисты
  • Смотреть позже
  • Комментарии
  • Понравилось

  • Авто
  • Анимация
  • Блогеры
  • Видеоигры
  • Детям
  • Еда
  • Интервью
  • Команда R
  • Культура
  • Лайфхаки
  • Музыка
  • Новости и СМИ
  • Обучение
  • Оriginals
  • Подкасты
  • Путешествия
  • Радио
  • Разговоры о важном
  • Сельское хозяйство
  • Сериалы
  • Спорт
  • Телешоу
  • Фонды помощи
  • Футбол
  • Юмор
  • RUTUBE TV
Телеканалы
  • Иконка канала Первый канал
    Первый канал
  • Иконка канала Россия 1
    Россия 1
  • Иконка канала МАТЧ
    МАТЧ
  • Иконка канала НТВ
    НТВ
  • Иконка канала Пятый канал
    Пятый канал
  • Иконка канала Телеканал Культура
    Телеканал Культура
  • Иконка канала Россия 24
    Россия 24
  • Иконка канала ТВЦ
    ТВЦ
  • Иконка канала РЕН ТВ
    РЕН ТВ
  • Иконка канала СПАС
    СПАС
  • Иконка канала СТС
    СТС
  • Иконка канала Домашний
    Домашний
  • Иконка канала ТВ-3
    ТВ-3
  • Иконка канала Пятница
    Пятница
  • Иконка канала Звезда
    Звезда
  • Иконка канала МИР ТВ
    МИР ТВ
  • Иконка канала ТНТ
    ТНТ
  • Иконка канала МУЗ-ТВ
    МУЗ-ТВ
  • Иконка канала ЧЕ
    ЧЕ
  • Иконка канала Канал «Ю»
    Канал «Ю»
  • Иконка канала 2х2
    2х2
  • Иконка канала Кухня
    Кухня
  • Иконка канала viju
    viju


RUTUBE всегда с вами
Больше от RUTUBE
  • SMART TV
  • RUTUBE Детям
  • RUTUBE Спорт
  • RUTUBE Новости
RUTUBE в других соцсетях

  • Вопросы и ответы
  • Сообщить о проблеме
  • Написать в поддержку
  • О RUTUBE
  • Направления деятельности
  • Пользовательское соглашение
  • Конфиденциальность
  • Правовая информация
  • Рекомендательная система
  • Фирменный стиль

© 2025, RUTUBE

Scaling Test-Time Interaction for Adaptive Agents

Масштабирование взаимодействия во время тестирования для адаптивных агентов Современные ИИ-агенты часто фокусируются на масштабировании рассуждений за один шаг ("мышления") перед действием в интерактивных средах, что ограничивает их способность адаптироваться и собирать новую информацию. Эта статья предлагает масштабировать взаимодействие во время тестирования ("действия") путем увеличения горизонта взаимодействия агента, чтобы обеспечить динамическое поведение, такое как исследование и перепланирование. Авторы демонстрируют, что даже простой промптинг для увеличения шагов взаимодействия нетривиально улучшает успешность выполнения задач на веб-бенчмарках. Эмпирические результаты показывают, что затраты вычислительных ресурсов на более длинные последовательности взаимодействия более эффективны для интерактивных задач, чем фокусировка исключительно на более глубоких рассуждениях за один шаг. Чтобы обучить агентов использовать это, они представляют TTI (Взаимодействие во время тестирования), метод обучения с подкреплением онлайн на основе учебной программы. TTI обучает агентов, постепенно увеличивая максимально допустимый горизонт взаимодействия, и обнаруживает, что мультипликативный график более эффективен, чем аддитивный. Используя модель Gemma 3 12B, TTI достигает современного уровня производительности среди агентов с открытым исходным кодом и открытыми данными на бенчмарках WebVoyager и WebArena. Анализ показывает, что агенты TTI учатся адаптивно балансировать между исследованием (exploration) и эксплуатацией (exploitation) в зависимости от требований задачи. Хотя один только промптинг недостаточен для надежного масштабирования взаимодействия, обучение с TTI дает агентов, способных эффективно использовать более длинные последовательности действий (rollouts). Эта работа устанавливает масштабирование взаимодействия как мощное, комплементарное измерение к традиционному масштабированию вычислительных ресурсов во время тестирования для разработки более адаптивных агентов. Будущая работа включает расширение этого подхода на другие области и разработку более продвинутых методов обучения с подкреплением для масштабирования взаимодействия. статья - https://arxiv.org/pdf/2506.07976v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM

Иконка канала Paper debate
Paper debate
12+
7 просмотров
2 месяца назад
12 июня 2025 г.
ПожаловатьсяНарушение авторских прав
12+
7 просмотров
2 месяца назад
12 июня 2025 г.

Масштабирование взаимодействия во время тестирования для адаптивных агентов Современные ИИ-агенты часто фокусируются на масштабировании рассуждений за один шаг ("мышления") перед действием в интерактивных средах, что ограничивает их способность адаптироваться и собирать новую информацию. Эта статья предлагает масштабировать взаимодействие во время тестирования ("действия") путем увеличения горизонта взаимодействия агента, чтобы обеспечить динамическое поведение, такое как исследование и перепланирование. Авторы демонстрируют, что даже простой промптинг для увеличения шагов взаимодействия нетривиально улучшает успешность выполнения задач на веб-бенчмарках. Эмпирические результаты показывают, что затраты вычислительных ресурсов на более длинные последовательности взаимодействия более эффективны для интерактивных задач, чем фокусировка исключительно на более глубоких рассуждениях за один шаг. Чтобы обучить агентов использовать это, они представляют TTI (Взаимодействие во время тестирования), метод обучения с подкреплением онлайн на основе учебной программы. TTI обучает агентов, постепенно увеличивая максимально допустимый горизонт взаимодействия, и обнаруживает, что мультипликативный график более эффективен, чем аддитивный. Используя модель Gemma 3 12B, TTI достигает современного уровня производительности среди агентов с открытым исходным кодом и открытыми данными на бенчмарках WebVoyager и WebArena. Анализ показывает, что агенты TTI учатся адаптивно балансировать между исследованием (exploration) и эксплуатацией (exploitation) в зависимости от требований задачи. Хотя один только промптинг недостаточен для надежного масштабирования взаимодействия, обучение с TTI дает агентов, способных эффективно использовать более длинные последовательности действий (rollouts). Эта работа устанавливает масштабирование взаимодействия как мощное, комплементарное измерение к традиционному масштабированию вычислительных ресурсов во время тестирования для разработки более адаптивных агентов. Будущая работа включает расширение этого подхода на другие области и разработку более продвинутых методов обучения с подкреплением для масштабирования взаимодействия. статья - https://arxiv.org/pdf/2506.07976v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM

, чтобы оставлять комментарии