Пятница, 3 Ноября 2023

Изучил дип реинфорсмент лернинг. Суть такая что проблема переформлируется следующим образом: если агент проиграл игру дается -1 балл, если если выйграл то 1. Если невалидный ход, то -10, за остальные шаги дается небольшой балл, в случае конектед фор игры 1/42 балла. Далее задача алгоритма максимизировать балл за игру.

Прошел до конца курс реинфорсмент лернинг Reinforcement learning

Начал курс интро в sql. В принципе sql тоже знаю, но почему бы не повторить