94,9 % Trefferquote – und trotzdem nutzlos. Was das über Standard-LLMs sagt.

ChatGPT besteht medizinische Zulassungsprüfungen. Es fasst Patientenakten zusammen. Es kennt mehr Diagnosen als die meisten Ärzte. Und trotzdem: Sobald echte Menschen damit arbeiten, bricht die Leistung dramatisch ein. Das ist kein Randproblem. Es ist das Kernproblem jedes Standard-LLM-Einsatzes – auch im Kundenservice.

09.03.2026

Was die Oxford-Studie wirklich zeigt

Forscher der Universität Oxford haben in einer kontrollierten Studie mit 1.298 Probanden untersucht, wie gut Menschen mit LLM-Unterstützung medizinische Szenarien lösen. Das Ergebnis ist eindeutig – und ernüchternd.

Allein getestet: LLMs identifizieren in 94,9 % der Fälle die relevante Erkrankung. Mit echten Nutzern: Die Trefferquote fällt auf maximal 34,5 %. Zur Einordnung – die Kontrollgruppe ohne KI-Unterstützung lag bei 47 %. Mit KI lief es also schlechter als ohne.

Das klinische Wissen der Modelle lässt sich nicht auf die Interaktion mit echten Menschen übertragen. Das ist das Fazit der Oxford-Forscher. Und es gilt nicht nur für Medizin.

Das Problem sitzt nicht im Modell

Zwei Schwachstellen haben die Forscher identifiziert. Erstens: Nutzer liefern unvollständige Informationen. Sie beschreiben ihr Anliegen in Alltagssprache – unstrukturiert, lückenhaft, ohne die Begriffe, die das Modell braucht. Zweitens: Selbst wenn das Modell die richtige Antwort liefert, wird sie falsch verstanden oder ignoriert.

Das Modell „weiß" die Antwort. Die Interaktion scheitert trotzdem.

Genau dasselbe passiert im Kundenservice. Ein Mitarbeitender fragt das System nach einer Produktinformation. Er beschreibt das Problem, wie er es versteht – nicht wie das System es erwartet. Das Ergebnis: unpassende Antworten, Frustration, verlorene Zeit.

Allgemeinwissen reicht nicht

Standard-LLMs sind auf riesigen allgemeinen Datenmengen trainiert. Sie können Sprache verstehen, zusammenfassen, paraphrasieren. Aber sie kennen Ihre Produkte nicht. Ihre Prozesse nicht. Ihre Kontaktgründe nicht.

Im Kundenservice ist genau das entscheidend. Wer nicht weiß, warum jemand anruft – und was dieser Mensch mit seiner unpräzisen Formulierung wirklich meint –, kann keine hilfreiche Antwort liefern.

Ein Standard-LLM ist wie ein hochgebildeter Generalist am ersten Arbeitstag. Er weiß viel. Und kann trotzdem nichts lösen.

Was stattdessen funktioniert: Agentic Knowledge

Bei Samhammer nennen wir die Lösung Agentic Knowledge. Der Ansatz besteht aus drei Bausteinen.

  • Kontextgründe als Schlüssel: Wer weiß, warum jemand fragt, versteht auch, was er braucht. Wir strukturieren Wissen nicht nach Dokumenten, sondern nach echten Serviceanliegen.
  • Dialogfähiges Wissen: PDFs und Handbücher sind kein Wissensmanagement. Wissen muss kontextbezogen, strukturiert und für KI-Systeme interpretierbar aufbereitet sein. Erst dann kann KI verstehen, was Menschen wirklich meinen – auch wenn sie es unvollständig formulieren.
  • Mensch bleibt unverzichtbar: Domänenexperten müssen KI-Systeme kontinuierlich trainieren und validieren. KI lernt nicht von selbst, was in Ihrem Unternehmen gilt.

Die eigentliche Frage

Die Oxford-Studie bestätigt, was wir in der Praxis täglich erleben: Nicht die KI muss schlauer werden. Das Wissen dahinter muss es.

Wer KI im Kundenservice einsetzt und sich fragt, warum die Ergebnisse enttäuschend sind, sollte sich eine ehrliche Frage stellen: Haben wir das Modell mit echtem, strukturiertem, unternehmenseigenem Wissen ausgestattet – oder nur ein Standard-LLM auf einen Datenberg losgelassen?

Der Unterschied ist messbar. Sprechen Sie uns an – wir zeigen Ihnen, wie.

 

Quelle: „Reliability of LLMs as medical assistants for the general public: a randomized preregistered study", Universität Oxford u.a., veröffentlicht in Nature Medicine, Februar 2026. DOI: 10.1038/s41591-025-04074-y

Ähnliche Artikel

Newsletter anmelden

Sie möchten mehr spannende Fakten aus der Welt der Service Excellence und KI?

Lesen Sie mehr

Weitere News und Blogartikel

Sie möchten mehr spannende Fakten aus der Welt der Service Excellence und KI?

Zum Newsletter anmelden