Beschreibung
Die Festlegung von Belohnungsfunktionen, die keine Nebeneffekte verursachen, ist immer noch eine Herausforderung, die es beim Reinforcement Learning zu lösen gilt. Attainable Utility Preservation (AUP) scheint vielversprechend zu sein, um die Fähigkeit zu erhalten, für eine korrekte Belohnungsfunktion zu optimieren, um negative Nebeneffekte zu minimieren. Aktuelle Ansätze gehen jedoch davon aus, dass es im Aktionsraum der Umgebung eine No-op-Aktion gibt, was AUP auf die Lösung von Aufgaben beschränkt, bei denen das Nichtstun für einen einzigen Zeitschritt eine gültige Option darstellt. Je nach Umgebung kann dies nicht immer garantiert werden. Wir stellen vier verschiedene Baselines vor, die nicht auf solchen Aktionen aufbauen und somit das Konzept von AUP auf eine breitere Klasse von Umgebungen ausweiten. Wir evaluieren alle vorgestellten Varianten auf verschiedenen AI-Safety-Gridworlds und zeigen, dass dieser Ansatz AUP auf ein breiteres Spektrum von Aufgaben mit nur geringen Leistungseinbußen verallgemeinert werden kann.Zeitraum | 29 Aug. 2023 → 1 Sep. 2023 |
---|---|
Veranstaltungstyp | Konferenz |
Ort | Dublin, IrlandAuf Karte anzeigen |
Bekanntheitsgrad | International |
Schlagwörter
- Reinforcement Learning
Verbundene Inhalte
-
Aktivitäten
-
Standing Still Is Not an Option: Alternative Baselines for Attainable Utility Preservation
Aktivität: Vorträge › Vortrag › Science to Science