ИИ на экзамене — сдал или списал?
Как говорится: ты — то, что измеряешь. Половина задачи — понять, как именно это оценить. Сегодня разбираем MMLU, GPQA, DROP и другие методы оценки языковых моделей: что они проверяют и как работают. ⏩️ Мотайте до нужного момента: 00:00 — Введение 01:10 — Система ценностей 06:05 — Методы оценки 10:05 — Популярные тесты 14:05 — Серебряная пуля Подписывайтесь на Telegram канал - https://t.me/femida_tech
Как говорится: ты — то, что измеряешь. Половина задачи — понять, как именно это оценить. Сегодня разбираем MMLU, GPQA, DROP и другие методы оценки языковых моделей: что они проверяют и как работают. ⏩️ Мотайте до нужного момента: 00:00 — Введение 01:10 — Система ценностей 06:05 — Методы оценки 10:05 — Популярные тесты 14:05 — Серебряная пуля Подписывайтесь на Telegram канал - https://t.me/femida_tech