11. Dezember 2025

Ein Erfahrungsbericht: Warum es sich lohnt, KI-Modelle direkt miteinander zu vergleichen

11. Dezember 2025
15. Dezember 2025

In den letzten Wochen habe ich ein kleines Experiment bei meiner Nutzung von LLMs gestartet: verschiedene KI-Systeme, gleiche Aufgaben, direkter Vergleich. Ich benutze ChatGPT (Bezahl-Version), Perplexity (Bezahl-Version), Google Gemini (kostenlose Version), LeChat von Mistral (kostenlose Version) und Claude von Anthropic (kostenlose Version). Die Ergebnisse waren überraschend verschieden – und genau das macht den Test so aufschlussreich.

Mein „Testaufbau“

Ich habe mit Beispielen gearbeitet, die aus meiner täglichen Praxis stammen. Konkret ging es um Funktionen und Code rund um WordPress – ein Umfeld, in dem ich ausreichend sicher bin, um Unstimmigkeiten sofort zu erkennen. So gab es etwa eine Situation, in der ChatGPT behauptete, eine bestimmte WordPress-Funktion existiere nicht bzw. wäre in dieser Situation nicht anwendbar. Aber: ich wusste, dass sie existiert – ich war mir nur über die genaue Schreibweise (Syntax) nicht sicher. Claude hingegen lieferte im ersten Versuch die korrekte Funktion und einen passenden Lösungsvorschlag dazu. Das war ein präzises Beispiel dafür, wie unterschiedlich diese Modelle arbeiten.

Solche Abweichungen sind nicht ungewöhnlich. Jedes Modell folgt eigenen Trainingsdaten, eigenen Stärken und Grenzen. Für Anwender:innen bedeutet das: die Qualität der Antwort hängt stärker vom Werkzeug ab, als man zunächst annimmt.

Mein praktischer Rat

Probiert mal, dieselbe Frage in mehrere Systeme einzugeben und die Antworten ruhig nebeneinanderlegen. Am besten funktioniert das mit Themen, in denen man sich wie erwähnt ziemlich gut auskennt. Man erkennt Fehler schneller, kann Nuancen besser einschätzen und bekommt ein Gefühl dafür, welchem Modell man welche Aufgabe anvertrauen möchte.

Aus diesen kleinen Vergleichstests entsteht nach und nach eine Art persönlicher Werkzeugkasten. Nicht im Sinne einer Bestenliste oder einer endgültigen Wahrheit, sondern als Orientierung: Welches System löst technische Aufgaben zuverlässig? Welcher Chatbot formuliert klar? Welches Tool hilft beim Strukturieren komplexer Inhalte?

Der Aufwand ist überschaubar, der Erkenntnisgewinn erstaunlich groß. Und man lernt nebenbei etwas über die eigene Arbeitsweise – und darüber, wo eine KI tatsächlich unterstützen kann.

PS: Bitte denkt daran, dass diese generativen Systeme einen sehr hohen Energieverbrauch haben (z.B. Wasser- und Stromverbrauch). Daher testet möglichst weise und hackt nicht alles immer in alle Chatbots rein.

Foto von Aerps.com auf Unsplash

Disclaimer: Dieser Text ist mit Unterstützung von LLMs erstellt worden und von mir eingehend redigiert: Ich habe in ChatGPT einen eigenen Custom-GPT erstellt, dem ich meinen Schreibstil anhand von bisherigen Blog-Artikeln „beigebracht“ habe. Dann habe ich meine Gedanken im Diktiermodus in Text verwandelt und daraus den finalen Text erstellen lassen.

Mit Liebe recherchiert und geschrieben von Lukas Kerecz

Jetzt zum Newsletter anmelden