Durch die Bewertung eines Sprachmodells anhand dieser Benchmarks können wir ein detailliertes Bild seiner Fähigkeiten und Grenzen gewinnen, was entscheidend ist, um die geeignetsten Modelle für spezifische Anwendungen und Aufgaben auszuwählen.
| MMLU-Pro (Reasoning & Knowledge) | GPQA Diamond (Scientific Reasoning) | LiveCodeBench (Coding) | IFBench (instruction Following) |
gpt-swiss | 75% | 69% | 78% | 65% |
mistral-small-swiss | 68% | 51% | 28% | 34% |
deepseek-r1 | 85% | 81% | 77% | 40% |
gemma-3 | 67% | 43% | 14% | 32% |
qwen-3-fast | 78% | 66% | 52% | 33% |
qwen-3 | 84% | 79% | 79% | 51% |
claude-opus | 86% | 70% | 54% | 43% |
claude-sonnet | 84% | 68% | 45% | 45% |
gemini-2-5-pro-preview | 86% | 84% | 80% | 49% |
gpt-4.1 | 81% | 67% | 46% | 43% |
gpt-4o | 75% | 54% | 31% | 34% |
gpt-5 | 87% | 85% | 85% | 73% |
o3-mini | 79% | 75% | 72% | - |
Vergleich der Leistungsfähigkeit von Sprachmodellen: Ein Überblick über die Benchmarks
Hier geben wir einen Überblick über einige der wichtigsten Benchmarks:
MMLU-Pro (Massive Multitask Language Understanding): Bewertet das Verständnis eines Modells über ein breites Spektrum von Themen und Disziplinen, um zu beurteilen, wie gut ein Modell komplexe Texte versteht und daraus Schlussfolgerungen zieht.
GPQA Diamond (Graduate-Level Google-Proof Q&A): Eine Sammlung anspruchsvoller Multiple-Choice-Fragen aus den Bereichen Biologie, Physik und Chemie. Die Fragen wurden von Fachexperten verfasst und sind so konzipiert, dass sie für Nicht-Experten selbst mit uneingeschränktem Internetzugang nur sehr schwer zu beantworten sind. Experten mit Doktorgrad erreichten bei diesem Test im Schnitt 69,7 %.
LiveCodeBench: Konzentriert sich auf umfassende code-bezogene Fähigkeiten wie Selbstreparatur, Codeausführung und Testausgabevorhersage, die über die reine Codegenerierung hinausgehen. Derzeit hostet LiveCodeBench über dreihundert hochwertige Codierungsprobleme.
IFBench: IFBench ist ein Test, der prüft, ob KI-Modelle neue, komplizierte Regeln genau befolgen können – auch wenn sie sie noch nie zuvor gesehen haben.
Es gibt 58 solche Regeln, die sehr unterschiedlich sind, damit man sehen kann, ob die KI wirklich versteht, was gefragt ist, und nicht nur auswendig lernt.
INFO
Die Performance Benchmarks können sich ändern. (Stand vom 18.11.2025) Quelle: https://artificialanalysis.ai
