MiniCPM4: Ultra-Efficient LLMs for End Devices
MiniCPM4: Сверхэффективные БЯМ для конечных устройств В этой статье представлена MiniCPM4, большая языковая модель, разработанная для сверхвысокой эффективности на конечных устройствах. Ее высокая эффективность достигается за счет систематических инноваций по четырем направлениям: архитектура модели, обучающие данные, алгоритмы обучения и системы вывода. Архитектурные улучшения включают InfLLM v2, обучаемый разреженный механизм внимания, ускоряющий обработку длинных контекстов. Стратегии обучающих данных включают фильтрацию UltraClean и генерацию UltraChat v2, обеспечивая удовлетворительную производительность всего на 8 триллионах токенов. Алгоритмы обучения включают ModelTunnel v2 для поиска стратегии, Chunk-wise Rollout для эффективного обучения с подкреплением и BitCPM4 для тернарных БЯМ, а также обучение со смешанной точностью FP8. Эффективный вывод обеспечивается CPM.cu, легковесным фреймворком CUDA, и ArkInfer, кросс-платформенной системой развертывания. MiniCPM4 доступна в версиях с 0.5 миллиардами и 8 миллиардами параметров для удовлетворения разнообразных требований. Результаты оценки демонстрируют, что модели MiniCPM4 превосходят открытые модели аналогичного размера на нескольких бенчмарках. Примечательно, что MiniCPM4-8B демонстрирует значительные улучшения скорости, такие как 7-кратное ускорение декодирования по сравнению с Qwen3-8B на конечных GPU для длинных последовательностей. Модель успешно поддерживает такие приложения, как генерация достоверных опросов и использование инструментов с помощью Model Context Protocol. документ - https://arxiv.org/pdf/2506.07900v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM
MiniCPM4: Сверхэффективные БЯМ для конечных устройств В этой статье представлена MiniCPM4, большая языковая модель, разработанная для сверхвысокой эффективности на конечных устройствах. Ее высокая эффективность достигается за счет систематических инноваций по четырем направлениям: архитектура модели, обучающие данные, алгоритмы обучения и системы вывода. Архитектурные улучшения включают InfLLM v2, обучаемый разреженный механизм внимания, ускоряющий обработку длинных контекстов. Стратегии обучающих данных включают фильтрацию UltraClean и генерацию UltraChat v2, обеспечивая удовлетворительную производительность всего на 8 триллионах токенов. Алгоритмы обучения включают ModelTunnel v2 для поиска стратегии, Chunk-wise Rollout для эффективного обучения с подкреплением и BitCPM4 для тернарных БЯМ, а также обучение со смешанной точностью FP8. Эффективный вывод обеспечивается CPM.cu, легковесным фреймворком CUDA, и ArkInfer, кросс-платформенной системой развертывания. MiniCPM4 доступна в версиях с 0.5 миллиардами и 8 миллиардами параметров для удовлетворения разнообразных требований. Результаты оценки демонстрируют, что модели MiniCPM4 превосходят открытые модели аналогичного размера на нескольких бенчмарках. Примечательно, что MiniCPM4-8B демонстрирует значительные улучшения скорости, такие как 7-кратное ускорение декодирования по сравнению с Qwen3-8B на конечных GPU для длинных последовательностей. Модель успешно поддерживает такие приложения, как генерация достоверных опросов и использование инструментов с помощью Model Context Protocol. документ - https://arxiv.org/pdf/2506.07900v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM