BOURBAKI: SELF-GENERATED AND GOAL-CONDITIONED MDPs FOR THEOREM PROVING

Name: BOURBAKI: SELF-GENERATED AND GOAL-CONDITIONED MDPs FOR THEOREM PROVING
Uploaded: 2025-07-07T20:53:46+03:00
Duration: 6 min 43 s
Description: BOURBAKI: SELF-GENERATED AND GOAL-CONDITIONED MDPs FOR THEOREM PROVING

BOURBAKI: САМОГЕНЕРИРУЕМЫЕ И ЦЕЛЕОРИЕНТИРОВАННЫЕ МDP ДЛЯ ДОКАЗАТЕЛЬСТВА ТЕОРЕМ В данной статье представлен новый фреймворк под названием самогенерируемые целеориентированные MDP (sG-MDPs) для улучшения автоматизированного доказательства теорем (ATP) с использованием больших языковых моделей (LLM). Фреймворк решает проблемы в средах с редкими наградами, позволяя агентам генерировать и преследовать подцели на основе развивающегося состояния доказательства. В подходе используются алгоритмы, подобные методу Монте-Карло поиска по дереву (MCTS), для решения sG-MDP. Авторы реализуют этот подход в модульной системе под названием Bourbaki (7B), которая объединяет несколько 7B LLM для генерации подцелей и синтеза тактик. Bourbaki достигает самых современных результатов на наборе данных PutnamBench, решив 26 задач. Это демонстрирует эффективность поиска, управляемого подцелями, и самогенерируемой целевой обусловленности. Система вдохновлена математиками, которые разбивают сложные доказательства на более мелкие, управляемые подцели. Структура целеориентированного обучения с подкреплением (GCRL) адаптирована для того, чтобы агенты могли динамически генерировать подцели в зависимости от истории взаимодействий. #доказательствотеорем #ИИ #LLM #MDP #MCTS #PutnamBench #Bourbaki #подцели #рассуждение документ - https://arxiv.org/pdf/2507.02726v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

12+

9 просмотров

Пожаловаться Нарушение авторских прав

12+

9 просмотров

, чтобы оставлять комментарии