OR

AG OR/ML - Dr. Peter Geibel

ML


Reinforcement Learning mit beschränktem Risiko


Beim Reinforcement Learning (RL) erwirbt ein Agent eine optimale Handlungsstrategie durch die Exploration einer Umgebung mit zunächst unbekanntem Verhalten, wobei dem Agenten der jeweils aktuelle Zustand der Umgebung bekannt ist. Die Optimierung der zustandsabhängigen Aktionsauswahl durch den Agenten erfolgt mit Hilfe eines Belohnungs-/Bestrafungssignals, wobei mit der sog. akkumulierten Belohnung auch langfristige Auswirkungen der Auswahl von Aktionen berücksichtigt werden. Das RL findet Anwendungen in der Robotik und in der Verfahrenstechnik, beispielsweise zum Finden von zeitoptimalen Trajektorien zu einem vorgegebenen Zielzustand.

Im Vortrag werden zeitdiskrete stochastische Prozesse in Form von endlichen Markov-Entscheidungsproblemen (MDPs) betrachtet. Neben evtl. gegebenen Zielzuständen sind gefährliche Zustände gegeben (z.B. Hindernisse in der Robotik oder gefährliche Prozesszustände in der Verfahrenstechnik). Das Risiko des Agenten in einem Zustand bezüglich einer festen Handlungsstrategie wird als Wahrscheinlichkeit für das Betreten eines gefährlichen Zustands definiert. Das Ziel des Agenten ist nun das Finden einer belohnungsoptimalen Handlungsstrategie, wobei das Risiko in jedem Zustand kleiner als eine subjektive, benutzerdefinierte Risikoschranke sein soll. Formal wird der MDP um ein zweites, beschränktes Kriterium (Risiko) neben der akkumulierten Belohnung als eigentlichem Kriterium erweitert. Im Vortrag werden die Eigenschaften des entstehenden Optimierungsproblems diskutiert. Es wird ein auf Q-Learning basierender heuristischer Online-Algorithmus zum Auffinden einer optimalen Handlungsstrategie vorgestellt werden.


back - Mathematics - OR - LNM - Theoretical Computer Science - Computer Science - University of Osnabrück.

B.Hammer