Глубокое обучение с подкреплением, Теория и практика на языке Python, Грессер Л., Кенг В., 2022

К сожалению, на данный момент у нас невозможно бесплатно скачать полный вариант книги. Ссылки на файлы изъяты с этой страницы по запросу обладателей прав на эти материалы.

Но вы можете попробовать скачать полный вариант, купив у наших партнеров электронную книгу здесь, если она у них есть наличии в данный момент.

Также можно купить бумажную версию книги здесь.


Глубокое обучение с подкреплением, Теория и практика на языке Python, Грессер Л., Кенг В., 2022.
 
Глубокое обучение с подкреплением (глубокое RL) сочетает в себе два подхода к машинному обучению. В ходе такого обучения виртуальные агенты учатся решать последовательные задачи о принятии решений. За последнее десятилетие было много неординарных достижений в этой области — от однопользовательских и многопользовательских игр, таких как го и видеоигры Atari и Dota 2, до робототехники. Эта книга — введение в глубокое обучение с подкреплением, уникально комбинирующее теорию и практику. Авторы начинают повествование с базовых сведений, затем подробно объясняют теорию алгоритмов глубокого RL, демонстрируют их реализации на примере программной библиотеки SLM Lab и напоследок описывают практические аспекты использования глубокого RL. Руководство идеально подойдет как для студентов, изучающих компьютерные науки, так и для разработчиков программного обеспечения, которые знакомы с основными принципами машинного обучения и знают Python.

Глубокое обучение с подкреплением, Теория и практика на языке Python, Грессер Л., Кенг В., 2022


REINFORCE.
В этой главе представлен первый из описываемых в книге алгоритмов, REINFORCE. Алгоритм REINFORCE был предложен Рональдом Дж. Вильямсом в 1992 году и описан им в статье Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning1. Алгоритм строит параметризированную стратегию, которая получает вероятности действий по состояниям среды. Агенты непосредственно используют эту стратегию, чтобы действовать в среде. Основной смысл заключается в том, что во время обучения действия, которые приводят к хорошим результатам, должны иметь большую вероятность — они по­ложительно подкрепляются. В противовес этому действия, приводящие к плохим результатам, должны иметь меньшую вероятность. Если обучение успешно, то за несколько итераций распределение полученных стратегией вероятностей действий станет таким, которое приводит к повышению производительности в среде. Веро­ятности действий изменяются в соответствии с градиентом функции стратегии, в связи с чем REINFORCE известен как алгоритм градиента стратегии.

Краткое содержание.
Часть I.Алгоритмы, основанные на стратегиях и полезностях.
Часть II.Комбинированные методы.
Часть III.Практика.
Часть IV.Проектирование сред.
Приложения.

Купить .

По кнопкам выше и ниже «Купить бумажную книгу» и по ссылке «Купить» можно купить эту книгу с доставкой по всей России и похожие книги по самой лучшей цене в бумажном виде на сайтах официальных интернет магазинов Лабиринт, Озон, Буквоед, Читай-город, Литрес, My-shop, Book24, Books.ru.

По кнопке «Купить и скачать электронную книгу» можно купить эту книгу в электронном виде в официальном интернет магазине «ЛитРес», и потом ее скачать на сайте Литреса.

По кнопке «Найти похожие материалы на других сайтах» можно найти похожие материалы на других сайтах.

On the buttons above and below you can buy the book in official online stores Labirint, Ozon and others. Also you can search related and similar materials on other sites.


Дата публикации:






Теги: :: :: :: ::


Следующие учебники и книги:
Предыдущие статьи:


 


 

Книги, учебники, обучение по разделам




Не нашёл? Найди:





2024-05-18 23:21:26