DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering

Name: DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering
Uploaded: 2025-07-18T19:55:11+03:00
Duration: 7 min 26 s
Description: DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering

DrafterBench: Оценка больших языковых моделей для автоматизации задач в гражданском строительстве Этот документ представляет DrafterBench, новый бенчмарк с открытым исходным кодом, предназначенный для оценки возможностей больших языковых моделей (LLM) в автоматизации задач в области гражданского строительства. В частности, он фокусируется на задаче пересмотра технических чертежей. DrafterBench включает в себя двенадцать типов задач, извлеченных из реальных файлов чертежей, в общей сложности 1920 задач и 46 настраиваемых функций. Он тщательно проверяет способность агентов ИИ интерпретировать инструкции, использовать предварительные знания и адаптироваться к различным инструкциям. Бенчмарк оценивает понимание структурированных данных, выполнение функций, следование инструкциям и критическое мышление. Он предоставляет подробный анализ точности выполнения задач и статистики ошибок для определения областей для улучшения интеграции LLM в инженерные приложения. Цель состоит в том, чтобы преодолеть разрыв между общими возможностями LLM и конкретными требованиями промышленных задач в гражданском строительстве, где в настоящее время не хватает бенчмарков. DrafterBench призван обеспечить более реалистичную и всестороннюю оценку, чем существующие бенчмарки. #LLM #ГражданскоеСтроительство #Бенчмарк #Автоматизация #DrafterBench #ИИ #АвтоматизацияЗадач документ - https://arxiv.org/pdf/2507.11527v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

12+

16 просмотров

Пожаловаться Нарушение авторских прав

12+

16 просмотров

, чтобы оставлять комментарии