Пятница, 3 Ноября 2023
Изучил дип реинфорсмент лернинг. Суть такая что проблема переформлируется следующим образом: если агент проиграл игру дается -1 балл, если если выйграл то 1. Если невалидный ход, то -10, за остальные шаги дается небольшой балл, в случае конектед фор игры 1/42 балла. Далее задача алгоритма максимизировать балл за игру.
Прошел до конца курс реинфорсмент лернинг
Начал курс интро в sql. В принципе sql тоже знаю, но почему бы не повторить