MAVIC für MARL

MAVIC verbessert Anweisungsfolge in MARL durch Wertkorrektur.

Der Artikel präsentiert MAVIC, eine Methode zur Verbesserung der Anweisungsfolge in multiagenten Systemen durch Korrektur von Wertabschätzungen bei Wechseln zwischen Makroaktionen und eingehenden Anweisungen. Durch die Modifikation des Bootstrapping-Ziels ermöglicht MAVIC konsistente Wertabschätzungen unter stochastischem Wechsel von Anweisungen innerhalb einer einheitlichen Policy, was sowohl eine hohe Anweisungskonformität als auch die Grundtaskleistung in komplexen Umgebungen sichert. Die Arbeit hat tiefe Implikationen für die Autonomie und Kontrolle in multiagenten Systemen.

Einordnung

Kategorie Code & Algorithms
Score 9
Relevanz Die Arbeit trägt zum Verständnis der Autonomie und Kontrolle in multiagenten Systemen bei, indem sie die Wechselwirkung zwischen technischer Struktur (Code) und sozialer Dynamik (Anweisungen von Nutzern) untersucht. MAVIC ermöglicht eine bessere Anpassung an äußere Anweisungen ohne Verlust der Grundtaskleistung.

Quelle

Art Scientific Paper
Autor Wo Wei Lin, Ethan Rathbun, Enrico Marchesini Xiang Zhi Tan
Veröffentlicht am 12 Mai 2026
Original-Link Original-Link

Details

Stichwort Macro-Action Based Multi-Agent Instruction Following through Value Cancellation
LLM Type qwen2.5:32b-instruct-q5_K_M
Edition Daily News
Markierung Bot
Archiviert am Mai 14, 2026
Nach oben scrollen