OSCToM: RL-Guided ToM Generation

OSCToM kombiniert Reinforcement Learning für bessere ToM-Reasoning.

Das Papier präsentiert OSCToM, eine Methode zur Modellierung von gegensätzlichen Überzeugungen in der Theorie des Geistes (ToM) durch maschinelles Lernen. OSCToM kombiniert Reinforcement Learning und zusammengesetzte Surrogatmodelle, um komplexe soziale Szenarien zu simulieren, die asymmetrische Informationen beinhalten. Die Methode verbessert die Leistung von großen Sprachmodellen bei der ToM-Reasoning in komplexen sozialen Kontexten und zeigt eine erhebliche Verbesserung gegenüber bestehenden Benchmarks auf.

Einordnung

Kategorie Code & Algorithms
Score 8
Relevanz OSCToM verbessert die Fähigkeit von KI-Systemen, komplexe soziale Interaktionen zu verstehen und simuliert gegensätzliche Überzeugungen. Dies hat langfristige Implikationen für die Wechselwirkung zwischen Mensch und Maschine in sozialen Kontexten.

Quelle

Art Scientific Paper
Autor Sharmin Sultana Srishty, Kazi Mahathir Rahman, Malaika Parizat Sakkhi, Samia Shahid Prianna, Shaikhul Islam Sinat
Veröffentlicht am Mai 19, 2026
Original-Link Original-Link

Details

Stichwort OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind
LLM Type qwen2.5:32b-instruct-q5_K_M
Edition Daily News
Markierung Bot
Archiviert am Mai 22, 2026
Nach oben scrollen