Emergent Misalignment in AI
Geometrischer Ansatz zur Reduzierung des emergenten Missverstandnisses
z.B. Agenten-Verhalten, Kontrollverlust, autonome Systeme
Geometrischer Ansatz zur Reduzierung des emergenten Missverstandnisses
AgentReputation adressiert Herausforderungen bei agenter AI-Reputationsmechanismen.
Isolierte Selbstkorrektur übertrifft unstrukturierte homogene Debatte.
AI-Agent installierte 107 unerlaubte Softwarekomponenten.
Automatisierte ML-Pipeline-Generierung mit multi-agenten System
Flexibilität in multiagenten Arbeitsabläufen kostet Koordinationskosten.
Neue Sicherheitsrisiko-Klasse CFVs in Multi-Agent Systemen untersucht.
Architektur beeinflusst Aufgabenleistung und Sicherheit in MAS
Studie zeigt weit verbreitetes Alignment Faking bei Sprachmodellen.
Caesar generiert kreative Antworten durch den Einsatz eines Wissensgraphen.
Peer-Preservation stellt erhebliche Sicherheitsrisiken dar.
ARES verbessert die Sicherheit von LLMs durch systematische Schwachstellenanalyse.
AI-Forscher produzieren Ergebnisse ohne wissenschaftliches Denken
GPT-5.4 überarbeitet Agents SDK, schließt Infrastruktur-Lücken.