Todesursache KI-Chatbot? Risiken, Chancen und notwendige Regeln für den Klinikalltag
Studie warnt vor Fehlinformationen – Wolters-Kluwer-CMO Peter Bonis fordert klare Qualitätsstandards für GenAI im Gesundheitswesen
Generative künstliche Intelligenz (GenAI) hält zunehmend Einzug in den Klinikalltag. Ärztinnen und Ärzte nutzen KI-Chatbots bereits zur Unterstützung bei Diagnose- und Therapieentscheidungen. Doch wie zuverlässig sind diese Systeme wirklich? Der Mediziner Peter Bonis, MD – Chief Medical Officer bei Wolters Kluwer Health und Lehrbeauftragter an der Tufts University School of Medicine (Massachusetts) – hat einen gängigen, frei zugänglichen KI-Chatbot getestet. Sein Fazit: Das Risiko fehlerhafter und gefährlicher Antworten ist erheblich.
Ein Beispiel verdeutlicht die Problematik: Auf die Frage, wie eine Harnwegsinfektion bei Penicillinallergie zu behandeln sei, empfahl der Chatbot „Fluorchinolone oder Levofloxacin“. Neben einem fachlichen Formulierungsfehler – da Levofloxacin selbst ein Fluorchinolon ist – fehlte vor allem ein entscheidender Hinweis: Bei Schwangeren können Fluorchinolone dem ungeborenen Kind ernsthaften Schaden zufügen.
Bonis warnt: „Der KI-Chatbot berücksichtigte diesen grundlegenden Zusammenhang nicht – aus Mangel an Kompetenz hinsichtlich der Relevanz dieses Details. Die Gründe liegen auf der Hand: Der Bot verfügt nicht über die klinische Erfahrung, um die vielen Kontrollpunkte zu navigieren, die durch eine medizinische Ausbildung vermittelt werden.“
Bonis macht in seinem Bericht deutlich, dass Chatbots neben fachlichen Auslassungen auch zu „Halluzinationen“ neigen – Antworten, die zwar plausibel klingen, aber auf falschen oder gar nicht existierenden Quellen beruhen. Selbst erfahrene Ärztinnen und Ärzte können diese Fehlinformationen nicht immer sofort erkennen.
Weitere Probleme sind:
- Reproduzierbarkeit: dieselbe Frage kann zu verschiedenen Zeitpunkten völlig unterschiedliche Antworten liefern.
- Verzerrungen (Biases): Eingabeformulierung oder Datenlage können Ergebnisse in klinisch relevanter Weise beeinflussen.
- Fehleinschätzungen: KI-Modelle sind nicht in der Lage, widersprüchliche Studien kritisch zu bewerten oder Peer-Reviews adäquat zu ersetzen.
Besonders kritisch: KI-Chatbots liefern schnelle, scheinbar verlässliche Antworten. Ärztinnen und Ärzte könnten sich daran gewöhnen, diese Ergebnisse ohne ausreichende Prüfung in den Behandlungsprozess einfließen zu lassen. Daraus erwächst nach Ansicht von Bonis eine neue Dimension der Entscheidungsfindung – mit ungeklärten rechtlichen Fragen im Falle medizinischer Fehler.
Trotz aller Risiken sieht Bonis auch Potenziale. Mit klaren Qualitätsstandards, klinischer Überprüfung und sinnvoller Integration könnten KI-Chatbots künftig die Arzt-Patient-Interaktion in Echtzeit verbessern.
„Mit angemessener Überprüfung und Prozessen zur Gewährleistung klinischer Genauigkeit können KI-Chatbots in Kombination mit anderen Technologien die Behandlung unterstützen – indem sie Rückfragen stellen, den Kontext berücksichtigen und die besten Erkenntnisse einbringen.“
Der Einsatz von GenAI im Gesundheitswesen erfordert aus seiner Sicht eine neue regulatorische Bewertung, klare Verantwortlichkeiten und ein strukturiertes Risikomanagement – damit aus Unterstützung keine Gefahr für Patientinnen und Patienten wird.






