RUTUBE
Добавить
Уведомления
  • Главная
  • RUTUBE для блогеров
  • Каталог
  • Популярное
  • В топе
  • Shorts
  • ТВ онлайн
  • Трансляции
  • Моё
  • Фильмы
  • RUTUBE x PREMIER
  • Сезон контента 2.0

Войдите, чтобы подписываться на каналы, комментировать видео и оставлять реакции


  • Подписки
  • История просмотра
  • Плейлисты
  • Смотреть позже
  • Комментарии
  • Понравилось

  • Авто
  • Анимация
  • Блогеры
  • Видеоигры
  • Детям
  • Еда
  • Интервью
  • Команда R
  • Культура
  • Лайфхаки
  • Музыка
  • Новости и СМИ
  • Обучение
  • Оriginals
  • Подкасты
  • Путешествия
  • Радио
  • Разговоры о важном
  • Сельское хозяйство
  • Сериалы
  • Спорт
  • Телешоу
  • Фонды помощи
  • Футбол
  • Юмор
  • RUTUBE TV
Телеканалы
  • Иконка канала Первый канал
    Первый канал
  • Иконка канала Россия 1
    Россия 1
  • Иконка канала МАТЧ
    МАТЧ
  • Иконка канала НТВ
    НТВ
  • Иконка канала Пятый канал
    Пятый канал
  • Иконка канала Телеканал Культура
    Телеканал Культура
  • Иконка канала Россия 24
    Россия 24
  • Иконка канала ТВЦ
    ТВЦ
  • Иконка канала РЕН ТВ
    РЕН ТВ
  • Иконка канала СПАС
    СПАС
  • Иконка канала СТС
    СТС
  • Иконка канала Домашний
    Домашний
  • Иконка канала ТВ-3
    ТВ-3
  • Иконка канала Пятница
    Пятница
  • Иконка канала Звезда
    Звезда
  • Иконка канала МИР ТВ
    МИР ТВ
  • Иконка канала ТНТ
    ТНТ
  • Иконка канала МУЗ-ТВ
    МУЗ-ТВ
  • Иконка канала ЧЕ
    ЧЕ
  • Иконка канала Канал «Ю»
    Канал «Ю»
  • Иконка канала 2х2
    2х2
  • Иконка канала Кухня
    Кухня
  • Иконка канала viju
    viju


RUTUBE всегда с вами
Больше от RUTUBE
  • SMART TV
  • RUTUBE Детям
  • RUTUBE Спорт
  • RUTUBE Новости
RUTUBE в других соцсетях

  • Вопросы и ответы
  • Сообщить о проблеме
  • Написать в поддержку
  • О RUTUBE
  • Направления деятельности
  • Пользовательское соглашение
  • Конфиденциальность
  • Правовая информация
  • Рекомендательная система
  • Фирменный стиль

© 2025, RUTUBE

BOURBAKI: SELF-GENERATED AND GOAL-CONDITIONED MDPs FOR THEOREM PROVING

BOURBAKI: САМОГЕНЕРИРУЕМЫЕ И ЦЕЛЕОРИЕНТИРОВАННЫЕ МDP ДЛЯ ДОКАЗАТЕЛЬСТВА ТЕОРЕМ В данной статье представлен новый фреймворк под названием самогенерируемые целеориентированные MDP (sG-MDPs) для улучшения автоматизированного доказательства теорем (ATP) с использованием больших языковых моделей (LLM). Фреймворк решает проблемы в средах с редкими наградами, позволяя агентам генерировать и преследовать подцели на основе развивающегося состояния доказательства. В подходе используются алгоритмы, подобные методу Монте-Карло поиска по дереву (MCTS), для решения sG-MDP. Авторы реализуют этот подход в модульной системе под названием Bourbaki (7B), которая объединяет несколько 7B LLM для генерации подцелей и синтеза тактик. Bourbaki достигает самых современных результатов на наборе данных PutnamBench, решив 26 задач. Это демонстрирует эффективность поиска, управляемого подцелями, и самогенерируемой целевой обусловленности. Система вдохновлена математиками, которые разбивают сложные доказательства на более мелкие, управляемые подцели. Структура целеориентированного обучения с подкреплением (GCRL) адаптирована для того, чтобы агенты могли динамически генерировать подцели в зависимости от истории взаимодействий. #доказательствотеорем #ИИ #LLM #MDP #MCTS #PutnamBench #Bourbaki #подцели #рассуждение документ - https://arxiv.org/pdf/2507.02726v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
Paper debate
12+
9 просмотров
20 дней назад
7 июля 2025 г.
ПожаловатьсяНарушение авторских прав
12+
9 просмотров
20 дней назад
7 июля 2025 г.

BOURBAKI: САМОГЕНЕРИРУЕМЫЕ И ЦЕЛЕОРИЕНТИРОВАННЫЕ МDP ДЛЯ ДОКАЗАТЕЛЬСТВА ТЕОРЕМ В данной статье представлен новый фреймворк под названием самогенерируемые целеориентированные MDP (sG-MDPs) для улучшения автоматизированного доказательства теорем (ATP) с использованием больших языковых моделей (LLM). Фреймворк решает проблемы в средах с редкими наградами, позволяя агентам генерировать и преследовать подцели на основе развивающегося состояния доказательства. В подходе используются алгоритмы, подобные методу Монте-Карло поиска по дереву (MCTS), для решения sG-MDP. Авторы реализуют этот подход в модульной системе под названием Bourbaki (7B), которая объединяет несколько 7B LLM для генерации подцелей и синтеза тактик. Bourbaki достигает самых современных результатов на наборе данных PutnamBench, решив 26 задач. Это демонстрирует эффективность поиска, управляемого подцелями, и самогенерируемой целевой обусловленности. Система вдохновлена математиками, которые разбивают сложные доказательства на более мелкие, управляемые подцели. Структура целеориентированного обучения с подкреплением (GCRL) адаптирована для того, чтобы агенты могли динамически генерировать подцели в зависимости от истории взаимодействий. #доказательствотеорем #ИИ #LLM #MDP #MCTS #PutnamBench #Bourbaki #подцели #рассуждение документ - https://arxiv.org/pdf/2507.02726v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии