Лекция №15 "Обучение с подкреплением"
Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для восьмого потока обучения. Преподаватель: Любовь Антюфриева Дата: 19.02.2025 00:00 Заставка 00:45 Обучение методом проб и ошибок 01:58 Мотивация использования обучения с подкреплением 05:41 Устоявшаяся терминология 06:47 Примеры задач, решаемых с использованием RL 15:02 Stateless environment in RL 15:38 Задача о многоруких бандитах 16:31 Gymnasium framework 26:28 Поиск оптимальной стратегии решения 35:36 Метаэвристики в обучении с подкреплением 36:11 Cross-entropy method (CEM) 40:41 Пример CEM в Gym 45:22 Марковский процесс принятия решений (Markov decision process, MDP) 48:43 Markov process 01:05:11 Проблема поиска оптимальной политики 01:14:45 Поиск оптимальной политики Беллмана для MDP (решение "MDP") 01:24:17 Temporal difference (TD)-обучение (TD-learning) 01:27:15 Q-Learning 01:33:43 Deep Q-Learning Материалы лекции: Открыть в Colab: https://colab.research.google.com/drive/1Vi2o2PHgvKEsFofrTm2vPweZFkYXekfh Открыть в HTML: https://msu.ai/reinforcement_learning_notebook_new Сайт: https://msu.ai VK: https://vk.com/msu_ai Telegram: https://t.me/msu_ai_channel #МГУ #искусственный_интеллект #нейронные_сети #neural_networks #science #наука #научные_исследования #нейронные_сети_в_науке #как_применять_нейронные_сети #курс_для_студентов_МГУ #наука_и_исследования
Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для восьмого потока обучения. Преподаватель: Любовь Антюфриева Дата: 19.02.2025 00:00 Заставка 00:45 Обучение методом проб и ошибок 01:58 Мотивация использования обучения с подкреплением 05:41 Устоявшаяся терминология 06:47 Примеры задач, решаемых с использованием RL 15:02 Stateless environment in RL 15:38 Задача о многоруких бандитах 16:31 Gymnasium framework 26:28 Поиск оптимальной стратегии решения 35:36 Метаэвристики в обучении с подкреплением 36:11 Cross-entropy method (CEM) 40:41 Пример CEM в Gym 45:22 Марковский процесс принятия решений (Markov decision process, MDP) 48:43 Markov process 01:05:11 Проблема поиска оптимальной политики 01:14:45 Поиск оптимальной политики Беллмана для MDP (решение "MDP") 01:24:17 Temporal difference (TD)-обучение (TD-learning) 01:27:15 Q-Learning 01:33:43 Deep Q-Learning Материалы лекции: Открыть в Colab: https://colab.research.google.com/drive/1Vi2o2PHgvKEsFofrTm2vPweZFkYXekfh Открыть в HTML: https://msu.ai/reinforcement_learning_notebook_new Сайт: https://msu.ai VK: https://vk.com/msu_ai Telegram: https://t.me/msu_ai_channel #МГУ #искусственный_интеллект #нейронные_сети #neural_networks #science #наука #научные_исследования #нейронные_сети_в_науке #как_применять_нейронные_сети #курс_для_студентов_МГУ #наука_и_исследования