Andina

ChatGPT aprobó Examen Nacional de Medicina con mejor promedio que estudiantes peruanos

Los modelos de IA superaron el promedio histórico de respuestas correctas de los estudiantes de medicina.

La inteligencia artificial de ChatGPT-4 logró aprobar la edición del 2022 del Examen Nacional de Medicina (ENAM). Foto: Imagen generada con Bing IA

La inteligencia artificial de ChatGPT-4 logró aprobar la edición del 2022 del Examen Nacional de Medicina (ENAM). Foto: Imagen generada con Bing IA

12:10 | Lima, dic. 29.

Desde el 2006, los postulantes a la residencia médica deben rendir previamente un Examen Nacional de Medicina (ENAM) y sus calificaciones les facilitan elegir los centros de salud para desarrollar su Servicio Rural Urbano Marginal en Salud (SERUMS). ¿Podría ChatGPT y otros modelos de lenguaje de inteligencia artificial como Bard de Google aprobar este importante examen? La respuesta es que sí.

El 43% del total de egresados de medicina inscritos al SERUMS desaprobaron el ENAM, según un estudio que analiza las notas del 2009 al 2019. 

La inteligencia artificial de ChatGPT-4 (una versión actualizada a la que está disponible gratuitamente para todos) logró aprobar la edición del 2022 del Examen Nacional de Medicina (ENAM) con un 86% de precisión.

“ChatGPT supera los 17 y sacar más 15 en el ENAM es algo muy extraño. Además, el rendimiento de la inteligencia artificial aumentaba si se le daban especificaciones sobre cómo enfocar la pregunta. Por ejemplo, cuando se le indicó que ‘pretenda ser un médico de Perú’, ChatGPT solo se equivocó en 9 preguntas”, explicó Javier Flores Cohaila, docente investigador en educación médica de la Universidad Científica del Sur y autor principal del artículo. 

Este hallazgo fue similar en otros países. En el caso de Estados Unidos, la inteligencia artificial logró resultados satisfactorios al resolver el examen requerido para obtener la licencia médica.


La clave: el prompt o instrucción

Esta investigación, publicada en el Journal of Medical Internet Research (JMIR), los científicos ingresaron tres ‘prompt’ diferentes en la plataforma de ChatGPT con el fin de verificar con cuál de ellos la inteligencia artificial obtenía una mejor tasa de respuestas correctas. 

Un ‘prompt’ es el conjunto de palabras con el que interactúan los sistemas de inteligencia artificial, ya sea para darles una instrucción, hacerles una pregunta, entre otros. 

El estudio se basó en los datos del ENAM 2022, que constaba de 180 preguntas de opción múltiples. Los resultados de ChatGPT se comparó con la de una muestra de 1,025 estudiantes que rindieron el examen. 


Se analizaron diversos factores como el tipo de pregunta, el conocimiento específico de Perú, la discriminación, la dificultad y la calidad de las preguntas, y el tema para determinar su impacto en las respuestas incorrectas. 

De acuerdo con la investigación científica, GPT-4 obtuvo 156 respuestas correctas; mientras que otros modelos de lenguaje de inteligencia artificial también aprobaron. BingAI con 148; GPT-3, 120; Bard, 120; y Claude, 118. 

Todos ellos superaron el promedio histórico de respuestas correctas de los estudiantes peruanos, que es 99. 

El investigador dijo que el estudio no buscó demostrar que la IA puede sustituir a un médico, ya que su trabajo es más complejo que solo resolver preguntas. 

“Ser médico, es mucho más que dar un examen de licenciamiento. Ser médico es el rol de comunicación que tenemos con los pacientes, la colaboración con otros profesionales de la salud, el liderazgo de la salud de la población, la promoción de la salud, etc.”, afirmó Flores.

En su opinión, estas tecnologías podrían utilizarse para ayudar en la educación médica y, potencialmente, en la toma de decisiones clínicas.
 
Revisa más noticias sobre ciencia, tecnología e innovación en la Agencia Andina y escucha historias inspiradoras en Andina Podcast.

Más en Andina:
(FIN) NDP/SPV
Publicado: 29/12/2023