Рейтинг@Mail.ru

Рифко | RifCo™

Нестандартные IT-решения

Среда и агент

В задаче обучения с подкреплением поведение среды и свойства агента могут быть существенно различными.

  1. Статическая среда, не меняющаяся со временем и не подверженная влиянию действий агента.
  2. Динамическая среда, изменяющаяся с течением времени. Это значит, что отклик может соответствовать прошедшему состоянию, а принимаемые решения должны учитывать динамику среды.

  3. Отзывчивая среда (1 или 2), зависящая от действий агента. Самый реалистичный вариант. Принятие решений должно основываться как на памяти о предыдущих событий, так и на прогнозах последующих.

  4. Не только среда (1, 2 или 3), но и состояние агента зависит как от среды, так и от его собственных действий. Самый туманный случай.

Примеры будут.

Оригинал: VK.com

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Рифко © 2003 - 2018 Карта сайта Frontier Theme