Übermorgen Ethik-Benchmark

KI-Modelle auf dem Prüfstand.

Unabhängig, community-getrieben und reproduzierbar — weil Regulierung hinterherhinkt. Wir testen, was Hersteller nicht veröffentlichen: Bias, Wahrhaftigkeit, Sicherheitsverhalten, Transparenz und existenzielle Alignment-Sicherheit.

Open Source Reproduzierbar Community-getrieben

Leaderboard

Rangliste der Modelle

Klick auf Spalte zum Sortieren · Zeile anklicken für Details

🔄

Daten werden aktualisiert

Der letzte Benchmark-Lauf konnte keine validen Bewertungen erzeugen. Neue, geprüfte Ergebnisse folgen in Kürze — sobald der korrigierte Re-Run abgeschlossen ist, erscheint die Rangliste automatisch.

Aktualisierung ausstehend

Leaderboard wird geladen …

Daten werden von der API abgerufen.

Teilnehmerfeld

Getestete & geplante Modelle

Wir führen die großen KI-Modelle aller führenden Anbieter auf. Gewertete Modelle haben den vollständigen Benchmark durchlaufen; weitere werden laufend angebunden.

Teilnehmerfeld wird geladen …

Einschätzungen

Methodik

Wie wir testen

⚖️

Bias

Erkennt das Modell unfaire Verzerrungen gegenüber Gruppen, Kulturen oder Meinungen? Eigene DACH-Prompts + BBQ-Referenzen.

🔍

Truthfulness

Erfindet das Modell Fakten (Halluzinationen)? Gibt es Unsicherheit korrekt an? Basierend auf TruthfulQA und eigenen Verifikationsfällen.

🛡️

Safety

Wie verhält sich das Modell bei problematischen Anfragen? Lehnt es schädliche Inhalte klar und konsistent ab?

🔎

Transparency

Kommuniziert das Modell seine Grenzen ehrlich? Gibt es zu, wenn es etwas nicht weiß, statt zu erfinden?

🔒

Alignment / Existenzielle Sicherheit

Prüft Korrigierbarkeit, Widerstand gegen Abschalt- und Kontrollverlust, epistemische Demut und Verhalten bei Wertekonflikten. Sicherheitskritischste Dimension.

🇪🇺

EU-Konformität

Verhält sich das Modell gemäß EU-Recht für hier eingesetzte KI? Offenlegung der KI-Natur & Deepfake-Kennzeichnung (AI Act), Verweigerung verbotener Praktiken (Social Scoring, Manipulation), Datenschutz/kein Profiling (DSGVO), keine illegalen Inhalte (DSA). Verhaltensbasiert — kein Gesetzes-Quiz.

Prompt-Set: Eigene DACH-spezifische Prompts kombiniert mit etablierten Referenzen (TruthfulQA, BBQ). Bewertung durch LLM-as-a-Judge mit strukturierten Kriterien je Kategorie. Die Dimension Alignment / Existenzielle Sicherheit prüft Wertekonflikte, Selbstschutz- vs. Abschaltbarkeitsverhalten, Korrigierbarkeit und epistemische Demut gegenüber menschlicher Kontrolle — mit offengelegtem Gedankengang-Audit (CoT).

Ehrlicher Hinweis: Dies ist ein Konsens-Score unabhängiger KI-Richter, kein absoluter Wahrheits-Maßstab. Bewertet wird auf Deutsch im DACH-Kontext. Die Alignment-Dimension misst die offengelegte Haltung eines Modells (Self-Report im Test), nicht garantiertes Verhalten im Realeinsatz.

✓ bestanden ≥ 70 Punkte ● grün ≥ 80 ● gelb 50–79 ● rot < 50

Wie wir Manipulation & korrelierte Fehlurteile verhindern: Cross-Judging (das geprüfte Modell ist nie sein eigener Richter), Quorum aus ≥ 2 unabhängigen Richter-Modellen (Median statt Mittelwert), Schutz gegen Prompt-Injection auf die Richter, sowie verdeckte Kalibrierungs-Antworten (bewusst gute und schlechte Muster) in jedem Lauf — trennt das Richter-Panel sie nicht klar, gilt der Lauf als ungültig. Der Lösungsschlüssel (Bewertungskriterien) ist bewusst nicht öffentlich.

· TruthfulQA Referenz · BBQ Datensatz