Las respuestas IA de salud duplican los errores de los médicos

Redacción
Los asistentes virtuales impulsados por IA responden a preguntas cotidianas sobre salud con una precisión de casi el 76%. El dato, aunque relevante, no disipa las dudas sobre su seguridad y fiabilidad en el uso real por parte de los pacientes. Así lo pone de manifiesto un estudio liderado por investigadores de la Universidad de Pensilvania. El estudio advierte que la tasa de errores supera el 20%, aproximadamente el doble que la registrada en médicos humanos.

La tasa de errores en las respuestas de la IA supera el 20%, aproximadamente el doble que los médicos humanos

El trabajo será presentado en la conferencia FAccT 2026 (Association for Computing Machinery Fairness, Accountability and Transparency) en Montreal del 25 al 28 de junio. Se centra en analizar cómo la población general utiliza la IA para resolver dudas médicas; también en qué punto estas herramientas ofrecen respuestas precisas o potencialmente perjudiciales. Amulya Yadav es coautor del estudio y profesor asociado de informática y sistemas inteligentes en la Facultad de Ciencias de la Información y Tecnología de Penn State. “Nos centramos en escenarios reales de uso, en cómo una persona promedio consulta a la IA cuestiones de salud, algo que no se había estudiado en profundidad con los modelos de lenguaje a gran escala”, señala.

Para ello, el equipo organizó una competencia denominada Diagnose-a-thon. Fueron 34 participantes —entre profesores, estudiantes y personal administrativo— que formularon 212 preguntas relacionadas con problemas de salud reales e hipotéticos. Las consultas, redactadas tanto desde la perspectiva del paciente como del médico, fueron respondidas utilizando cuatro modelos de lenguaje: ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro y Llama3-8b. Un grupo de nueve médicos certificados evaluó la precisión de las respuestas generadas por la IA. También midieron el posible grado de daño, empleando una escala de seis niveles. Los resultados mostraron que el 76,2% de las respuestas eran correctas desde el punto de vista clínico. Sin embargo, se produjeron importantes diferencias según la especialidad.

Áreas como obstetricia y ginecología o la otorrinolaringología registraron un mejor rendimiento de los modelos. Por el contrario, disciplinas como medicina interna, neurología y dermatología presentaron peores resultados. En las primeras especialidades con mayor validez y menor riesgo asociado y en las segundas con menor precisión y un mayor potencial de error.

Obstetricia y ginecología y otorrinolaringología registraron un mejor rendimiento que medicina interna, neurología y dermatología

El estudio también identificó que las preguntas más específicas y con una extensión de entre 60 y 250 caracteres obtenían respuestas de la IA más precisas. Esto sugiere que la manera en la que los usuarios formulan sus consultas influye de forma significativa en el rendimiento de la IA. Uno de los aspectos más destacados del trabajo fue el intento de mejorar el desempeño de los modelos mediante su entrenamiento adicional con materiales médicos, como libros de texto, guías clínicas y artículos científicos revisados por pares incluidos en programas formativos de facultades de medicina. Sin embargo, esta estrategia no produjo los resultados esperados. Un panel de profesionales sanitarios y estudiantes valoró de forma similar, e incluso en algunos casos mejor, las respuestas generadas por los modelos base frente a las versiones entrenadas adicionalmente.

La formulación de las consultas influye de forma significativa en el rendimiento de la IA

Jennifer Kraschnewski es coautora del estudio y profesora de medicina interna en Penn State. Para ella, estos resultados reflejan tanto el potencial como las limitaciones actuales de la inteligencia artificial en el ámbito sanitario. “Estamos entrando en una nueva era de la atención médica, y la IA va a desempeñar un papel clave. Existe una gran oportunidad para integrarla de manera que los médicos puedan mejorar la atención al paciente”, afirma. En este contexto, Kraschnewski considera poco probable que la IA sustituya a los médicos. Pero puede convertirse en una herramienta de gran valor para apoyar su labor. “Puede ayudar a mejorar las capacidades de los profesionales sanitarios de una manera que hasta ahora no había sido posible”, apunta.

La tasa de errores en las respuestas de la IA supera el 20%, aproximadamente el doble que los médicos humanos

Obstetricia y ginecología y otorrinolaringología registraron un mejor rendimiento que medicina interna, neurología y dermatología

La formulación de las consultas influye de forma significativa en el rendimiento de la IA

Deja un comentario Cancelar respuesta