any4: Learned 4-bit Numeric Representation for LLMs
any4: Изученное 4-битное числовое представление для больших языковых моделей В этой статье представлен any4, новый метод изученной 4-битной квантизации весов для больших языковых моделей (LLM). any4 обеспечивает произвольные числовые представления без предварительной обработки весов или активаций. Эксперименты показывают, что any4 достигает более высокой точности по сравнению с другими 4-битными числовыми представлениями, такими как int4, fp4 и nf4, на различных моделях (Llama 2, Llama 3, Mistral и Mixtral). Он конкурирует с техниками предварительной обработки, такими как AWQ и GPTQ. Исследование изучает any3 и any2, демонстрируя конкурентоспособность при более низких битрейтах. Калибровка достигается с использованием единого тщательно отобранного разнообразного примера. Авторы также делают с открытым исходным кодом tinygemm, библиотеку матричного умножения GPU, реализующую any4 и другие методы квантизации. #квантизация #большиеязыковыемодели #сжатие #машинноеобучение #any4 #gpu #низкийбит документ - https://arxiv.org/pdf/2507.04610v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
any4: Изученное 4-битное числовое представление для больших языковых моделей В этой статье представлен any4, новый метод изученной 4-битной квантизации весов для больших языковых моделей (LLM). any4 обеспечивает произвольные числовые представления без предварительной обработки весов или активаций. Эксперименты показывают, что any4 достигает более высокой точности по сравнению с другими 4-битными числовыми представлениями, такими как int4, fp4 и nf4, на различных моделях (Llama 2, Llama 3, Mistral и Mixtral). Он конкурирует с техниками предварительной обработки, такими как AWQ и GPTQ. Исследование изучает any3 и any2, демонстрируя конкурентоспособность при более низких битрейтах. Калибровка достигается с использованием единого тщательно отобранного разнообразного примера. Авторы также делают с открытым исходным кодом tinygemm, библиотеку матричного умножения GPU, реализующую any4 и другие методы квантизации. #квантизация #большиеязыковыемодели #сжатие #машинноеобучение #any4 #gpu #низкийбит документ - https://arxiv.org/pdf/2507.04610v1 подписаться - https://t.me/arxivdotorg отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM