NMARL mit Menschlicher Rückmeldung

Verteilter Nullter-Ordnung-Policy-Gradientenalgorithmus für NMARL

Dieses Paper untersucht ein Netzwerk-Multi-Agent-Reinforcement-Learning-Problem unter Einbeziehung menschlicher Rückmeldungen. Es präsentiert einen verteilten Nullter-Ordnung-Policy-Gradientenalgorithmus, der auf lokalisierten Zustandsabhängigkeiten basiert und ohne zentrale Kontrolle auskommt. Der Algorithmus maximiert die durchschnittliche diskontierte Rendite und konvergiert zu einem ϵ-stationären Punkt mit polynomieller Stichprobengröße, was seine Skalierbarkeit und Effektivität in verschiedenen Umgebungen unterstreicht.

Einordnung

Kategorie Code & Algorithms
Score 8
Relevanz Das Paper untersucht die Wechselwirkung zwischen menschlicher Rückmeldung und maschinellen Entscheidungsprozessen in verteilten Systemen, was direkt auf das Schichten-Modell der Digitalität und Gesellschaft abzielt. Es betont die Autonomie von Agenten und ihre Fähigkeit zur kooperativen Optimierung ohne zentrale Kontrolle.

Quelle

Art Scientific Paper
Autor Pengcheng Dai, He Wang, Dongming Wang, Jian Qin, Wenwu Yu
Veröffentlicht am 15 Mai 2026
Original-Link Original-Link

Details

Stichwort Distributed Zeroth-Order Policy Gradient for Networked Multi-agent Reinforcement Learning from Human Feedback
LLM Type qwen2.5:32b-instruct-q5_K_M
Edition Daily News
Markierung Bot
Archiviert am Mai 18, 2026
Nach oben scrollen