Samhammer: 94,9 % Trefferquote – und trotzdem nutzlos. Was das über Standard-LLMs sagt

Was die Oxford-Studie wirklich zeigt

Forscher der Universität Oxford haben in einer kontrollierten Studie mit 1.298 Probanden untersucht, wie gut Menschen mit LLM-Unterstützung medizinische Szenarien lösen. Das Ergebnis ist eindeutig – und ernüchternd.

Allein getestet: LLMs identifizieren in 94,9 % der Fälle die relevante Erkrankung. Mit echten Nutzern: Die Trefferquote fällt auf maximal 34,5 %. Zur Einordnung – die Kontrollgruppe ohne KI-Unterstützung lag bei 47 %. Mit KI lief es also schlechter als ohne.

Das klinische Wissen der Modelle lässt sich nicht auf die Interaktion mit echten Menschen übertragen. Das ist das Fazit der Oxford-Forscher. Und es gilt nicht nur für Medizin.

Das Problem sitzt nicht im Modell

Zwei Schwachstellen haben die Forscher identifiziert. Erstens: Nutzer liefern unvollständige Informationen. Sie beschreiben ihr Anliegen in Alltagssprache – unstrukturiert, lückenhaft, ohne die Begriffe, die das Modell braucht. Zweitens: Selbst wenn das Modell die richtige Antwort liefert, wird sie falsch verstanden oder ignoriert.

Das Modell „weiß" die Antwort. Die Interaktion scheitert trotzdem.

Genau dasselbe passiert im Kundenservice. Ein Mitarbeitender fragt das System nach einer Produktinformation. Er beschreibt das Problem, wie er es versteht – nicht wie das System es erwartet. Das Ergebnis: unpassende Antworten, Frustration, verlorene Zeit.

Allgemeinwissen reicht nicht

Standard-LLMs sind auf riesigen allgemeinen Datenmengen trainiert. Sie können Sprache verstehen, zusammenfassen, paraphrasieren. Aber sie kennen Ihre Produkte nicht. Ihre Prozesse nicht. Ihre Kontaktgründe nicht.

Im Kundenservice ist genau das entscheidend. Wer nicht weiß, warum jemand anruft – und was dieser Mensch mit seiner unpräzisen Formulierung wirklich meint –, kann keine hilfreiche Antwort liefern.

Ein Standard-LLM ist wie ein hochgebildeter Generalist am ersten Arbeitstag. Er weiß viel. Und kann trotzdem nichts lösen.

Was stattdessen funktioniert: Agentic Knowledge

Bei Samhammer nennen wir die Lösung Agentic Knowledge. Der Ansatz besteht aus drei Bausteinen.

Kontextgründe als Schlüssel: Wer weiß, warum jemand fragt, versteht auch, was er braucht. Wir strukturieren Wissen nicht nach Dokumenten, sondern nach echten Serviceanliegen.
Dialogfähiges Wissen: PDFs und Handbücher sind kein Wissensmanagement. Wissen muss kontextbezogen, strukturiert und für KI-Systeme interpretierbar aufbereitet sein. Erst dann kann KI verstehen, was Menschen wirklich meinen – auch wenn sie es unvollständig formulieren.
Mensch bleibt unverzichtbar: Domänenexperten müssen KI-Systeme kontinuierlich trainieren und validieren. KI lernt nicht von selbst, was in Ihrem Unternehmen gilt.

Die eigentliche Frage

Die Oxford-Studie bestätigt, was wir in der Praxis täglich erleben: Nicht die KI muss schlauer werden. Das Wissen dahinter muss es.

Wer KI im Kundenservice einsetzt und sich fragt, warum die Ergebnisse enttäuschend sind, sollte sich eine ehrliche Frage stellen: Haben wir das Modell mit echtem, strukturiertem, unternehmenseigenem Wissen ausgestattet – oder nur ein Standard-LLM auf einen Datenberg losgelassen?

Der Unterschied ist messbar. Sprechen Sie uns an – wir zeigen Ihnen, wie.

Quelle: „Reliability of LLMs as medical assistants for the general public: a randomized preregistered study", Universität Oxford u.a., veröffentlicht in Nature Medicine, Februar 2026. DOI: 10.1038/s41591-025-04074-y

www.vier.ai

In diesem Artikel

Newsletter anmelden

Sie möchten mehr spannende Fakten aus der Welt der Service Excellence und KI?

Jetzt anmelden

Lesen Sie mehr

Weitere News und Blogartikel

09.03.2026

94,9 % Trefferquote – und trotzdem nutzlos. Was das über Standard-LLMs sagt.

ChatGPT besteht medizinische Zulassungsprüfungen. Es fasst Patientenakten zusammen. Es kennt mehr Diagnosen als die meisten Ärzte. Und trotzdem: Sobald echte Menschen damit arbeiten, bricht die Leistung dramatisch ein. Das ist kein Randproblem. Es ist das Kernproblem jedes Standard-LLM-Einsatzes – auch im Kundenservice.

28.11.2025

VIER und Samhammer bündeln Kräfte

Mit der jetzt geschlossenen Partnerschaft setzen die beiden Spezialisten Samhammer und VIER einen neuen Maßstab für Effizienz und Kundenservice im digitalen Zeitalter des Kundenkontakts.

09.09.2025

Rollen im KI-Projekt: Warum der Mensch über den Erfolg entscheidet

Künstliche Intelligenz verändert die Spielregeln im Kundenservice. Von GenAI über Agentic AI – die Technologien und die damit verbundenen Möglichkeiten scheinen grenzenlos. Doch so groß die Begeisterung darüber ist, so groß ist auch die Zahl der Projekte, die ins Stocken geraten oder sogar komplett scheitern.

01.07.2025

AI-First im Kundenservice: Warum der Begriff oft missverstanden wird

„AI-First“ steht für Innovation, Effizienz und Zukunft. Gleichzeitig sorgt er für offene Fragen und Unsicherheit: Wird der Mensch im Kundenservice bald überflüssig? Wer gewinnt, wenn Mensch und KI gemeinsam denken? Wir nehmen den Begriff unter die Lupe – und zeigen, dass AI-First nicht AI-Only bedeutet und warum Missverständnisse rund um AI-First sogar eine Chance sind.

12.06.2025

Die Zukunft der Service Excellence: Wir haben gefragt – Sie haben geantwortet

Service Excellence ist kein einmaliges Ziel, sondern ein ständiger Prozess, der von neuen Ideen, Technologien und der Zusammenarbeit lebt. Erfahren Sie, welche Themen, Technologien und Visionen für die Teilnehmer des Service Excellence Days im Mittelpunkt stehen und wie wir gemeinsam die nächsten Jahre gestalten wollen. Die Antworten sind so vielfältig wie inspirierend und zeigen, wie sehr sich die Service-Landschaft gerade wandelt.

Sie möchten mehr spannende Fakten aus der Welt der Service Excellence und KI?

Zum Newsletter anmelden

94,9 % Trefferquote – und trotzdem nutzlos. Was das über Standard-LLMs sagt.

Was die Oxford-Studie wirklich zeigt

Das Problem sitzt nicht im Modell

Allgemeinwissen reicht nicht

Was stattdessen funktioniert: Agentic Knowledge

Die eigentliche Frage

In diesem Artikel

Ähnliche Artikel

Newsletter anmelden

Lesen Sie mehr

Weitere News und Blogartikel

94,9 % Trefferquote – und trotzdem nutzlos. Was das über Standard-LLMs sagt.

VIER und Samhammer bündeln Kräfte

Rollen im KI-Projekt: Warum der Mensch über den Erfolg entscheidet

AI-First im Kundenservice: Warum der Begriff oft missverstanden wird

Die Zukunft der Service Excellence: Wir haben gefragt – Sie haben geantwortet

Sie möchten mehr spannende Fakten aus der Welt der Service Excellence und KI?

Datenschutz-Hinweis

Cookies verwalten

Zwecke ansehen

C3 Cookie

YouTube

Google Analytics

Google Ads

Google Tag Manager

Google Analytics

Matomo

Taboola

Leadinfo

Barrierefreiheits-Optionen