Cross-Domain Conference for Machine Learning & Knowledge Extraction 2020 (CD-MAKE 2020)

Aktivität: Wissenschaftliche VeranstaltungenTeilnahme an ...

Beschreibung

Die Festlegung von Belohnungsfunktionen, die keine Nebeneffekte verursachen, ist immer noch eine Herausforderung, die es beim Reinforcement Learning zu lösen gilt. Attainable Utility Preservation (AUP) scheint vielversprechend zu sein, um die Fähigkeit zu erhalten, für eine korrekte Belohnungsfunktion zu optimieren, um negative Nebeneffekte zu minimieren. Aktuelle Ansätze gehen jedoch davon aus, dass es im Aktionsraum der Umgebung eine No-op-Aktion gibt, was AUP auf die Lösung von Aufgaben beschränkt, bei denen das Nichtstun für einen einzigen Zeitschritt eine gültige Option darstellt. Je nach Umgebung kann dies nicht immer garantiert werden. Wir stellen vier verschiedene Baselines vor, die nicht auf solchen Aktionen aufbauen und somit das Konzept von AUP auf eine breitere Klasse von Umgebungen ausweiten. Wir evaluieren alle vorgestellten Varianten auf verschiedenen AI-Safety-Gridworlds und zeigen, dass dieser Ansatz AUP auf ein breiteres Spektrum von Aufgaben mit nur geringen Leistungseinbußen verallgemeinert werden kann.
Zeitraum29 Aug. 20231 Sep. 2023
VeranstaltungstypKonferenz
OrtDublin, IrlandAuf Karte anzeigen
BekanntheitsgradInternational

Schlagwörter

  • Reinforcement Learning