Zum Hauptinhalt springen

LLM-Vergleich: Leistungsfähigkeit

Diese Analyse zielt darauf ab, ein umfassendes Bild der Stärken und Schwächen verschiedener Sprachmodelle zu liefern bezüglich der Qualität der Antworten - von Verständnis bis hin zu Problemlösungsfähigkeiten

K
Verfasst von Katja Gersdorf
Vor über 2 Wochen aktualisiert

Durch die Bewertung eines Sprachmodells anhand dieser Benchmarks können wir ein detailliertes Bild seiner Fähigkeiten und Grenzen gewinnen, was entscheidend ist, um die geeignetsten Modelle für spezifische Anwendungen und Aufgaben auszuwählen.

MMLU-Pro (Reasoning & Knowledge)

GPQA Diamond (Scientific Reasoning)

LiveCodeBench (Coding)

IFBench (instruction Following)

gpt-swiss

75%

69%

78%

65%

mistral-small-swiss

68%

51%

28%

34%

deepseek-r1

85%

81%

77%

40%

gemma-3

67%

43%

14%

32%

qwen-3-fast

78%

66%

52%

33%

qwen-3

84%

79%

79%

51%

claude-opus

86%

70%

54%

43%

claude-sonnet

84%

68%

45%

45%

gemini-2-5-pro-preview

86%

84%

80%

49%

gpt-4.1

81%

67%

46%

43%

gpt-4o

75%

54%

31%

34%

gpt-5

87%

85%

85%

73%

o3-mini

79%

75%

72%

-

Vergleich der Leistungsfähigkeit von Sprachmodellen: Ein Überblick über die Benchmarks

Hier geben wir einen Überblick über einige der wichtigsten Benchmarks:

  1. MMLU-Pro (Massive Multitask Language Understanding): Bewertet das Verständnis eines Modells über ein breites Spektrum von Themen und Disziplinen, um zu beurteilen, wie gut ein Modell komplexe Texte versteht und daraus Schlussfolgerungen zieht.

  2. GPQA Diamond (Graduate-Level Google-Proof Q&A): Eine Sammlung anspruchsvoller Multiple-Choice-Fragen aus den Bereichen Biologie, Physik und Chemie. Die Fragen wurden von Fachexperten verfasst und sind so konzipiert, dass sie für Nicht-Experten selbst mit uneingeschränktem Internetzugang nur sehr schwer zu beantworten sind. Experten mit Doktorgrad erreichten bei diesem Test im Schnitt 69,7 %.

  3. LiveCodeBench: Konzentriert sich auf umfassende code-bezogene Fähigkeiten wie Selbstreparatur, Codeausführung und Testausgabevorhersage, die über die reine Codegenerierung hinausgehen. Derzeit hostet LiveCodeBench über dreihundert hochwertige Codierungsprobleme.

  4. IFBench: IFBench ist ein Test, der prüft, ob KI-Modelle neue, komplizierte Regeln genau befolgen können – auch wenn sie sie noch nie zuvor gesehen haben.
    Es gibt 58 solche Regeln, die sehr unterschiedlich sind, damit man sehen kann, ob die KI wirklich versteht, was gefragt ist, und nicht nur auswendig lernt.

INFO

Die Performance Benchmarks können sich ändern. (Stand vom 18.11.2025) Quelle: https://artificialanalysis.ai

Hat dies deine Frage beantwortet?