Rendering-Aware Reinforcement Learning for Vector Graphics Generation
Обучение с подкреплением с учетом рендеринга для генерации векторной графики Масштабируемая векторная графика (SVG) предоставляет мощный формат для представления визуальных дизайнов в виде интерпретируемого кода. Хотя модели "зрение-язык" (VLMs) позволяют генерировать высококачественную SVG через генерацию кода, существующие подходы часто не учитывают визуальный вывод при рендеринге во время обучения. Недифференцируемость авторегрессивного рендеринга SVG препятствует прямой оптимизации на основе градиента по визуальной обратной связи. Это ограничение приводит к тому, что модели, обученные исключительно с использованием контролирующей донастройки (SFT), создают неточные или неэффективные SVG и испытывают трудности со сложными входными данными. Для решения этой проблемы представлен RLRF (Reinforcement Learning from Rendering Feedback) — метод обучения с подкреплением, который включает обратную связь от отрисованных SVG-выводов. RLRF работает следующим образом: VLM генерирует SVG-"развертки", которые затем отрисовываются и сравниваются со входными данными для расчета сигнала вознаграждения. Новая составная функция вознаграждения направляет обучение, объединяя метрики реконструкции изображения, семантического сходства и эффективности кода. Обучение включает начальную SVG-SFT для достижения базовых навыков, за которой следует RLRF для уточнения генерации на основе обратной связи от рендеринга. RLRF значительно расширяет возможности генерации SVG как для задач "изображение в SVG", так и для "текст в SVG", превосходя контролируемые методы. Метод демонстрирует сильную обобщающую способность, позволяя моделям создавать точную и хорошо структурированную векторную графику на разнообразных, нераспределенных примерах. документ - http://arxiv.org/pdf/2505.20793v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM
Обучение с подкреплением с учетом рендеринга для генерации векторной графики Масштабируемая векторная графика (SVG) предоставляет мощный формат для представления визуальных дизайнов в виде интерпретируемого кода. Хотя модели "зрение-язык" (VLMs) позволяют генерировать высококачественную SVG через генерацию кода, существующие подходы часто не учитывают визуальный вывод при рендеринге во время обучения. Недифференцируемость авторегрессивного рендеринга SVG препятствует прямой оптимизации на основе градиента по визуальной обратной связи. Это ограничение приводит к тому, что модели, обученные исключительно с использованием контролирующей донастройки (SFT), создают неточные или неэффективные SVG и испытывают трудности со сложными входными данными. Для решения этой проблемы представлен RLRF (Reinforcement Learning from Rendering Feedback) — метод обучения с подкреплением, который включает обратную связь от отрисованных SVG-выводов. RLRF работает следующим образом: VLM генерирует SVG-"развертки", которые затем отрисовываются и сравниваются со входными данными для расчета сигнала вознаграждения. Новая составная функция вознаграждения направляет обучение, объединяя метрики реконструкции изображения, семантического сходства и эффективности кода. Обучение включает начальную SVG-SFT для достижения базовых навыков, за которой следует RLRF для уточнения генерации на основе обратной связи от рендеринга. RLRF значительно расширяет возможности генерации SVG как для задач "изображение в SVG", так и для "текст в SVG", превосходя контролируемые методы. Метод демонстрирует сильную обобщающую способность, позволяя моделям создавать точную и хорошо структурированную векторную графику на разнообразных, нераспределенных примерах. документ - http://arxiv.org/pdf/2505.20793v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM