El uso de chatbots de IA como ChatGPT, Copilot o Gemini como asistentes médicos es, sin duda, una práctica que en algún momento una gran cantidad de usuarios ha realizado, especialmente en jóvenes. Sin embargo, una nueva investigación revela que emplear la opción de Microsoft (Copilot, basado en el motor GPT de OpenAI) como asesor puede causar daños graves, e incluso la muerte en más del 20% de sus respuestas.
Este es el resultado de un estudio realizado por investigadores alemanes y belgas, quienes señalan que no se debe confiar en la IA para obtener información precisa y segura sobre medicamentos, ya que la información proporcionada puede ser errónea y potencialmente peligrosa.
En este trabajo, publicado en la revista BMJ Quality & Safety, se concluye que los pacientes no deben confiar en los motores de búsqueda ni en los chatbots, debido a que una cantidad considerable de sus respuestas eran incorrectas y ponían en riesgo la salud de los usuarios. Además, al dar respuestas complejas, estas resultaban difíciles de comprender para pacientes que no cuentan con un nivel educativo universitario.
El contexto de la investigación
Según el sitio Scimex, los investigadores partieron de la premisa de que los chatbots impulsados por IA prometían mejores resultados de búsqueda, respuestas integrales y experiencias interactivas.
Estos chatbots pueden entrenarse con amplios conjuntos de datos para conversar sobre cualquier tema, incluidas consultas médicas. Sin embargo, los investigadores señalan que también son capaces de "generar desinformación, contenido sin sentido y potencialmente dañino".
En su trabajo, los científicos descubrieron que los estudios previos sobre el uso de chatbots en entornos médicos se habían centrado más en la perspectiva de los profesionales de la salud, es decir, como apoyo, que en los pacientes.
Estableciendo los parámetros a analizar
A partir de este contexto, decidieron explorar varios elementos, como la legibilidad, integridad y precisión en las respuestas de los chatbots a consultas sobre los 50 medicamentos más recetados en Estados Unidos en 2020, específicamente utilizando Bing Copilot de Microsoft, por su capacidad de funcionar como un motor de búsqueda con funciones de chatbot.
Para simular que los pacientes consultaban a chatbots para obtener información sobre medicamentos, los investigadores revisaron bases de datos y consultaron con un farmacéutico clínico y médicos con experiencia en farmacología, con quienes identificaron las preguntas más frecuentes sobre los medicamentos.
Posteriormente, realizaron 10 preguntas al chatbot sobre cada uno de los 50 medicamentos, y abordaron temas como el uso, funcionamiento, instrucciones, efectos secundarios comunes y contraindicaciones, para obtener un total de 500 respuestas.
Estos resultados fueron sometidos a una evaluación de legibilidad, utilizando el índice de lectura de Flesch, que estima el nivel educativo necesario para comprender un texto.
También se evaluaron la integridad y precisión de las respuestas, comparándolas con la información de los medicamentos disponible en sitios web especializados, además de ser revisadas por profesionales y pacientes.
Finalmente, se utilizaron otras métricas, como el alcance del posible daño si el paciente seguía las recomendaciones del chatbot y si estas representaban un riesgo para su seguridad.
Los resultados de usar Copilot para obtener información
Al analizar las respuestas, se determinó que se requería un nivel educativo universitario para comprenderlas y, en la gran mayoría, al menos el nivel educativo de secundaria.
Además, el 26% de las respuestas no coincidían con los datos de referencia y más del 3% resultaron completamente inconsistentes. Solo el 54% de las respuestas se alineaba con el consenso científico, el 39% se contradecía y el 6% restante carecía de concordancia.
En un 3% de los resultados se consideró muy probable que el paciente sufriera algún tipo de daño si seguía los consejos del chatbot, en un 29% la probabilidad era moderada, mientras que en un 34% era poco o nada probable.
No obstante, independientemente de la probabilidad de que se produjeran daños, los investigadores determinaron que el 42% de las respuestas del chatbot podrían causar daños moderados o leves, y en el 22% de los casos, daños graves o hasta la muerte. En un tercio de los casos, aproximadamente el 36%, no se produciría ningún daño.
Más factores a considerar
A pesar de esto, los investigadores aclararon que el estudio no se basó en experiencias reales de pacientes, y que las indicaciones en diferentes idiomas o países podrían afectar la calidad de las respuestas del chatbot.
En lo que sí coinciden los investigadores es en que, de forma general, las respuestas del chatbot eran difíciles de leer, carecían de información o mostraban imprecisiones, lo que ponía en riesgo la seguridad de los pacientes y de los medicamentos.
Por lo tanto, los investigadores consideran crucial que los pacientes consulten a sus profesionales sanitarios, ya que los chatbots no siempre generan información libre de errores. Recomiendan precaución al momento de usar este tipo de herramientas, al menos hasta que se logren mayores índices de precisión.
Ver 1 comentarios