29 Okt
Studie schafft Evidenzgrundlage für den Einsatz von KI im Gesundheitswesen
Studie schafft Evidenzgrundlage für den Einsatz von KI im Gesundheitswesen
In einer Ära, in der die Digitalisierung unser Leben durchdringt und Technologien wie künstliche Intelligenz und Natural Language Processing (NLP) immer ausgefeilter werden, spielen Chatbots eine immer wichtigere Rolle in verschiedenen Aspekten unseres Alltags. Im medizinischen Bereich haben Chatbots das Potenzial, den Zugang zu wichtigen medizinischen Informationen für Ärzte und Gesundheitsfachkräfte zu erleichtern. Eine kürzlich veröffentlichte wissenschaftliche Studie mit dem Titel “ Accuracy and Reliability of Chatbot Responses to Physician Questions“, durchgeführt von Rachel S. Goodman, MBA; J. Randall Patrinely, MD, MBA; Cosby A. Stone Jr, MD, MPH; et al, am 2. Oktober 2023, wirft ein intensives Licht auf die Leistungsfähigkeit von Chatbots in der Medizin.
Hintergrund und Ziel der Studie
Die Integration von NLP-Modellen im Gesundheitswesen verspricht, die Art und Weise, wie Ärzte und medizinische Fachkräfte auf medizinische Informationen zugreifen, zu revolutionieren. Große Sprachmodelle (LLMs) wie ChatGPT (auch als Chatbot bezeichnet) sind darauf ausgelegt, menschenähnlichen Text zu verstehen und zu generieren. ChatGPT, angetrieben von GPT-3.5 mit mehr als 175 Milliarden Parametern, hat in letzter Zeit erhebliche Aufmerksamkeit erregt. Dieser Chatbot wird auf eine breite Palette von Internetquellen trainiert und durch Verstärkungslernen aus menschlichem Feedback für Konversationsaufgaben verfeinert.
Das Ziel der Studie war es, die Genauigkeit und Vollständigkeit von Chatbot-generierten Antworten auf medizinische Fragen zu bewerten, die von Ärzten entwickelt wurden. Die Studie konzentrierte sich insbesondere auf die Zuverlässigkeit und die Grenzen künstlich generierter medizinischer Informationen. Die Autoren wollten herausfinden, ob Chatbots eine praktikable Quelle für medizinische Informationen in klinischen Umgebungen sein können.
Methoden und Teilnehmer
Die Studie umfasste 33 Ärzte aus 17 verschiedenen medizinischen Fachrichtungen, die insgesamt 284 medizinische Fragen erstellten. Diese Fragen wurden von den Ärzten subjektiv als einfach, mittelschwer oder schwer klassifiziert und konnten entweder binäre (Ja oder Nein) oder deskriptive Antworten erfordern. Die Ärzte bewerteten die Chatbot-generierten Antworten auf diese Fragen hinsichtlich Genauigkeit und Vollständigkeit.
Alle Fragen wurden subjektiv als repräsentativ für das jeweilige Fachgebiet des Arztes ausgewählt. Um Bias zu minimieren, wurden sie gebeten, die Fragen nicht selbst im Chatbot zu überprüfen. Jeder Arzt stellte 6 Fragen, von denen 3 binäre Ja- oder Nein-Fragen oder richtige oder falsche Antworten hatten und subjektiv nach Schwierigkeitsgrad bewertet wurden (einfach, mittel und schwer). Die anderen 3 Fragen waren deskriptiv oder eine Liste von mehreren korrekten Antworten, ebenfalls mit den gleichen Schwierigkeitsgradbewertungen. Ein Beispiel für eine leicht schwierige deskriptive Frage war: „Was sind die Erstlinientherapien für das Stadium IA Mycosis fungoides?“ Eine mittelschwere deskriptive Frage war: „Welche Patienten mit gut differenziertem Schilddrüsenkrebs sollten eine postoperative radioaktive Jodablation erhalten?“
Eine schwer schwierige binäre Frage war: “Können wir sofort nach Absetzen eines Angiotensin-Converting-Enzym-Inhibitors mit Angiotensin-Rezeptor-Neprilysin-Inhibitoren beginnen?“. Die Ärzte, die die Fragen erstellt hatten, bewerteten die Genauigkeit der vom KI generierten Antworten basierend auf ihrem medizinischen Fachwissen unter Verwendung von 2 vordefinierten Skalen für Genauigkeit und Vollständigkeit. Die Genauigkeitsskala war eine 6-Punkte-Likert-Skala (wobei 1 völlig inkorrekt angibt; 2 mehr inkorrekt als korrekt; 3 etwa gleich korrekt und inkorrekt; 4 mehr korrekt als inkorrekt; 5 fast alles korrekt; und 6 völlig korrekt). Die Vollständigkeitsskala war eine 3-Punkte-Likert-Skala (wobei 1 unvollständig angibt [behandelt einige Aspekte der Frage, aber wesentliche Teile fehlen oder sind unvollständig]; 2 ausreichend [behandelt alle Aspekte der Frage und liefert die erforderliche Mindestinformation, um als vollständig angesehen zu werden]; und 3 umfassend [behandelt alle Aspekte der Frage und liefert zusätzliche Informationen oder Kontext über das erwartete hinaus]). Völlig inkorrekte Antworten (Genauigkeitswert 1) wurden nicht hinsichtlich ihrer Vollständigkeit bewertet. Um Genauigkeit und Reproduzierbarkeit im Laufe der Zeit zu bewerten, wurde der Chatbot erneut mit Fragen befragt, die ursprünglich ungenaue Antworten (<3 auf der Genauigkeitsskala) generiert hatten, 8 bis 17 Tage später. Dieser Zeitplan hing von der Zeit ab, in der die Ärzte ihre Bewertungen abgegeben hatten. Die Ärzte bewerteten die aktualisierten KI-Antworten erneut. Um die Leistung und Konsistenz mit den neuesten, fortschrittlichsten Modellen in diesem schnelllebigen Bereich umfassend zu bewerten, wurden alle Fragen zu Melanomen und Immuntherapie, unabhängig von den anfänglichen Bewertungen, erneut generiert und mit dem Chatbot bewertet (neueste verfügbare Version, basierend auf Version 4).
Ergebnisse der Studie
Die Ergebnisse der Studie waren vielversprechend. Der Chatbot erzielte insgesamt hohe Genauigkeits- und Vollständigkeitswerte bei der Beantwortung der medizinischen Fragen, die von den Ärzten entwickelt wurden. Der mittlere Genauigkeitswert betrug 5,5 (6-Punkte-Likert-Skala mit 1 für völlig inkorrekt und 6 für völlig korrekt), was auf fast vollständig korrekte Antworten hinweist, während der mittlere Vollständigkeitswert bei 3,0 (3-Punkte-Likert-Skala mit 1 für unvollständig und 3 für vollständig plus zusätzlichen Kontext) lag, was auf umfassende Antworten hinweist. Dies deutet darauf hin, dass der Chatbot in der Lage war, den Ärzten genaue und umfassende Informationen bereitzustellen, die ihren medizinischen Anforderungen entsprachen.
Interessanterweise zeigte die Studie, dass der Chatbot im Laufe der Zeit signifikante Verbesserungen erzielte. Die erneute Bewertung von Fragen, die ursprünglich ungenaue Antworten generiert hatten, ergab eine gesteigerte Genauigkeit. Dies deutet darauf hin, dass regelmäßige Aktualisierungen und Verfeinerungen von KI-Modellen dazu beitragen können, ihre Leistung zu verbessern.
Bedeutung und Schlussfolgerungen
Die Ergebnisse dieser Studie deuten darauf hin, dass Chatbots wie der ChatGPT das Potenzial haben, in klinischen Umgebungen genaue medizinische Informationen bereitzustellen. Dies könnte die Effizienz der Gesundheitsversorgung erheblich verbessern und Ärzten und medizinischen Fachkräften bei komplexen Entscheidungsfindungen unterstützen. Der Chatbot hat gezeigt, dass er in der Lage ist, auf vielfältige medizinische Fragen aus verschiedenen Fachrichtungen zu antworten, und dabei genaue und umfassende Informationen liefert. Dies könnte Ärzten und medizinischem Personal helfen, schneller auf Informationen zuzugreifen und bessere Entscheidungen in der Patientenversorgung zu treffen.
Insgesamt zeigt diese Studie das Potenzial von KI-Systemen bei der Beantwortung von klinischen Fragen, die keine Multiple-Choice-Fragen sind. Chatbots können wertvolle Ressourcen für die schnelle Informationssuche in der klinischen Praxis sein und die Effizienz der Gesundheitsversorgung verbessern. Dennoch müssen weiterhin Anstrengungen unternommen werden, um die Zuverlässigkeit von KI-generierten medizinischen Informationen zu validieren und ethische, Transparenz-, Datenschutz- und medizinrechtliche Fragen anzugehen.
Fazit
Obwohl die vom Chatbot generierten Antworten in dieser Querschnittsstudie hohe Genauigkeits- und Vollständigkeitswerte in verschiedenen Fachrichtungen, Fragetypen und Schwierigkeitsgraden zeigten, bedarf es weiterer Entwicklungen, um die Zuverlässigkeit und Robustheit dieser Tools vor einer klinischen Integration zu verbessern. Medizinische Fachkräfte und Patienten sollten die Einschränkungen erkennen, äußerste Vorsicht walten lassen und KI-generierte Informationen aktiv mit vertrauenswürdigen Quellen verifizieren. Diese Studie schafft eine Evidenzgrundlage für den Einsatz von LLM im Gesundheitswesen und betont die Bedeutung einer fortlaufenden Bewertung und Regulierung.
Die komplette Studie finden Sie: hier
Topics: #healthcare #lifeSciences #medicaldevices #medtech #medicaltechnology #MedSysCon #FDA #KI #AI #Künstliche Intelligenz #Medizintechnik
For further information please get in touch with us:
+49-176-57694801