Studie warnt vor „ChatGPT Health“: KI erkennt mehr als die Hälfte der Notfälle nicht

Forscher sprechen von „dramatischem Versagen“ bei lebensbedrohlichen Situationen

Die von OpenAI Anfang 2026 veröffentlichte Funktion „ChatGPT Health“ steht nach einer aktuellen Studie massiv in der Kritik. Das Tool soll Nutzer bei medizinischen Fragestellungen unterstützen und Gesundheitsdaten einbeziehen. Doch ein Forscherteam der Icahn School of Medicine at Mount Sinai kommt zu einem alarmierenden Ergebnis: In simulierten Tests erkannte das System mehr als die Hälfte aller medizinischen Notfälle nicht korrekt.

In der kontrollierten Untersuchung mit 1.298 Probandinnen und Probanden wurden zehn medizinische Szenarien getestet. Die Teilnehmenden sollten jeweils eine zugrunde liegende Erkrankung identifizieren und eine angemessene Handlungsempfehlung (Disposition) wählen. Per Randomisierung erhielten sie entweder Unterstützung durch ein LLM – konkret GPT-4o, Llama 3 oder Command R+ – oder nutzten eine frei gewählte Informationsquelle (Kontrollgruppe).

Die Autoren identifizieren insbesondere die Mensch-Maschine-Interaktion als kritischen Faktor. Klassische Benchmarks – etwa medizinische Wissensfragen oder simulierte Patientenfälle – seien kein verlässlicher Prädiktor für reale Nutzungsszenarien mit Laien.

Die Studie zeigt damit eine strukturelle Lücke zwischen modellzentrierter Leistungsbewertung und anwendungsnaher Sicherheitsevaluation. Selbst wenn ein LLM fachlich korrekt antworten kann, bedeutet dies nicht automatisch, dass Nutzer die Informationen richtig interpretieren, gewichten oder in angemessene Entscheidungen überführen.

Konsequenzen für den Einsatz im Gesundheitswesen

Die Autoren empfehlen vor einer öffentlichen Implementierung im Gesundheitsbereich systematische Tests mit realen Anwendern. Interaktive Fähigkeiten und Entscheidungsunterstützung müssten unter realitätsnahen Bedingungen validiert werden. Vor dem Hintergrund zunehmender KI-Integration in patientennahe Anwendungen – etwa Symptom-Checker oder digitale Triage-Systeme – unterstreichen die Ergebnisse die Bedeutung von Human-Factors-Forschung, Risikobewertung und regulatorischer Prüfung. Die Studie relativiert damit die Aussagekraft reiner Modellbenchmarks und legt nahe, dass die Sicherheit KI-gestützter Gesundheitsberatung nicht allein anhand technischer Leistungswerte beurteilt werden kann.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert