NMARL mit Menschlicher Rückmeldung

Dieses Paper untersucht ein Netzwerk-Multi-Agent-Reinforcement-Learning-Problem unter Einbeziehung menschlicher Rückmeldungen. Es präsentiert einen verteilten Nullter-Ordnung-Policy-Gradientenalgorithmus, der auf lokalisierten Zustandsabhängigkeiten basiert und ohne zentrale Kontrolle auskommt. Der Algorithmus maximiert die durchschnittliche diskontierte Rendite und konvergiert zu einem ϵ-stationären Punkt mit polynomieller Stichprobengröße, was seine Skalierbarkeit und Effektivität in verschiedenen Umgebungen unterstreicht.

Einordnung

Kategorie Code & Algorithms

Score 8

Relevanz Das Paper untersucht die Wechselwirkung zwischen menschlicher Rückmeldung und maschinellen Entscheidungsprozessen in verteilten Systemen, was direkt auf das Schichten-Modell der Digitalität und Gesellschaft abzielt. Es betont die Autonomie von Agenten und ihre Fähigkeit zur kooperativen Optimierung ohne zentrale Kontrolle.

NMARL mit Menschlicher Rückmeldung

Einordnung

Quelle

Details