В задаче обучения с подкреплением поведение среды и свойства агента могут быть существенно различными.
- Статическая среда, не меняющаяся со временем и не подверженная влиянию действий агента.
Динамическая среда, изменяющаяся с течением времени. Это значит, что отклик может соответствовать прошедшему состоянию, а принимаемые решения должны учитывать динамику среды.
Отзывчивая среда (1 или 2), зависящая от действий агента. Самый реалистичный вариант. Принятие решений должно основываться как на памяти о предыдущих событий, так и на прогнозах последующих.
Не только среда (1, 2 или 3), но и состояние агента зависит как от среды, так и от его собственных действий. Самый туманный случай.
Примеры будут.
Оригинал: VK.com