ChatGPT Health en Alerta: Estudio Revela Fallo en Detección de Más del 50% de Emergencias Médicas

Publicado el

Estudio de Mount Sinai y Nature Medicine revela que ChatGPT Health de OpenAI falla en detectar el 52% de emergencias médicas, subestimando riesgos críticos. Se advierte cautela en el uso de IA para asesoramiento sanitario.

Un reciente estudio independiente ha encendido las alarmas en la comunidad médica y tecnológica, al revelar que ChatGPT Health, la herramienta de inteligencia artificial lanzada por OpenAI en enero de 2026, no detecta eficazmente las emergencias médicas, presentando un riesgo significativo para los usuarios que buscan asesoramiento sanitario.

La investigación, llevada a cabo por científicos de la Icahn School of Medicine at Mount Sinai y publicada en la prestigiosa revista Nature Medicine, constituye la primera evaluación independiente del desempeño de esta nueva herramienta de orientación médica al consumidor. Sus hallazgos subrayan una preocupante limitación en la capacidad de la inteligencia artificial para identificar y derivar adecuadamente los casos que requieren atención urgente, lo que cuestiona su idoneidad para el uso directo por parte de los consumidores sin supervisión especializada.

Desde su lanzamiento, ChatGPT Health fue presentado por OpenAI con la promesa de revolucionar el triaje y la orientación médica digital. La compañía informó que, antes del lanzamiento de la versión Health, millones de personas ya utilizaban ChatGPT para realizar consultas médicas; se estima que alrededor de 40 millones de personas consultaban la herramienta diariamente, o más de 230 millones semanalmente, para preguntas relacionadas con el bienestar y el cuidado personal. La herramienta se diseñó para integrar de forma segura la información médica de los usuarios con la inteligencia del chatbot, buscando ofrecer respuestas relevantes y personalizadas, además de analizar resultados y proporcionar consejos de bienestar, aunque siempre con la aclaración de que no está destinada para diagnósticos ni tratamientos.

El estudio empleó una metodología rigurosa, centrada en 960 escenarios médicos simulados. Estos escenarios fueron elaborados a partir de 60 viñetas diseñadas por médicos de diversas especialidades, cubriendo un total de 21 áreas clínicas. Cada caso se evaluó bajo 16 condiciones contextuales distintas, incluyendo factores como género, raza, presencia de barreras de acceso a la atención y situaciones en las que familiares minimizaban los síntomas de los pacientes. Las respuestas de ChatGPT Health se compararon con el consenso de tres médicos expertos, basado en guías de 56 sociedades científicas.

Los resultados son alarmantes: la herramienta falló en el 52% de los casos de emergencia, lo que significa que casi la mitad de las situaciones de urgencia médica no fueron correctamente identificadas ni derivadas a servicios de atención de emergencias por la inteligencia artificial. En contraste, la tasa de fallo en presentaciones no urgentes fue del 35%. Los investigadores observaron un patrón en forma de “U invertida”, donde los errores más peligrosos se concentraron en los extremos clínicos.

Ejemplos específicos de estas fallas críticas incluyen escenarios de cetoacidosis diabética o insuficiencia respiratoria inminente, donde ChatGPT Health recomendó una valoración en 24 a 48 horas en lugar de indicar la necesidad de acudir al departamento de emergencias. Un especialista ejemplificó la situación, señalando que “si sufrís insuficiencia respiratoria o cetoacidosis diabética, hay un 50% de probabilidades de que esta IA te diga que no es para tanto.” Esto contrasta con su desempeño en emergencias claramente reconocidas, como accidentes cerebrovasculares o reacciones alérgicas graves (anafilaxia), donde la herramienta mostró mayor fortaleza.

Otro hallazgo preocupante fue la inconsistencia en la activación de salvaguardas ante situaciones de riesgo suicida. En algunos casos, la investigación encontró que ChatGPT Health indicó consultar a un contacto cuando no era necesario y, de manera crítica, no lo sugirió cuando sí hacía falta. Además, el estudio demostró que factores contextuales, como la tendencia de algunos usuarios a minimizar sus síntomas o la influencia de familiares que restaban importancia a los mismos, aumentaban las probabilidades de que la IA sugiriera cuidados de menor urgencia.

Los investigadores y expertos subrayan la gravedad de estos hallazgos. Isaac S. Kohane, de la Facultad de Medicina de Harvard, señaló que “cuando millones de personas utilizan un sistema de IA para decidir si necesitan atención de emergencia, hay mucho en juego. La evaluación independiente debería ser rutinaria, no opcional.” La principal preocupación radica en la “falsa sensación de seguridad” que estos sistemas pueden generar. Se advierte que si a alguien se le aconseja esperar 48 horas durante una crisis grave, esa tranquilidad podría tener consecuencias fatales.

Es importante destacar que, si bien este estudio resalta las limitaciones de ChatGPT Health en la detección de emergencias, la inteligencia artificial en el ámbito de la salud no es inherentemente ineficaz. Otras investigaciones han demostrado el potencial de la IA para asistir en el triaje médico, por ejemplo, analizando notas clínicas para identificar pacientes que requieren atención prioritaria con una alta precisión. Sin embargo, estos son contextos de aplicación diferentes que no implican el asesoramiento directo al paciente sobre síntomas complejos y ambiguos.

En conclusión, aunque OpenAI insiste en que ChatGPT Health es una herramienta de apoyo y no un sustituto del consejo médico, los resultados de este estudio independiente demandan una cautela extrema en su aplicación en contextos clínicos. Los riesgos de pasar por alto emergencias de alto riesgo son demasiado elevados, haciendo imperativa la validación prospectiva y la supervisión humana experta antes de cualquier implementación a gran escala de estos sistemas de triaje basados en IA.

 

Salud, ChatGPT Health, Inteligencia Artificial Salud, Emergencias Médicas IA, Riesgos IA Salud, Asesoramiento Médico AI,