Ateneos Bibliográficos
Razonamiento clínico en la era de los LLM
Por Manuel García Gili
Estos modelos, basados en inteligencia artificial, han demostrado una creciente aplicabilidad en distintas áreas de la medicina y su incorporación como herramientas complementarias en la práctica clínica es cada vez más frecuente.
El objetivo de este recorrido es explorar cómo la utilización de los LLMs puede influir en los procesos cognitivos involucrados en la toma de decisiones clínicas, así como analizar sus oportunidades, desafíos y limitaciones dentro del contexto asistencial.
A modo introductorio, cabe mencionar la definición propuesta por la Organización Internacional de Normalización (ISO), la cual describe a la inteligencia artificial (IA) como un conjunto de sistemas informáticos capaces de realizar tareas que normalmente requieren inteligencia humana, como el razonamiento, el aprendizaje, la percepción y la comprensión del lenguaje. Estos sistemas analizan grandes volúmenes de datos, reconocen patrones y toman decisiones con una velocidad y precisión sin precedentes.
Situados dentro de la taxonomía más amplia de la IA, los LLM se incluyen dentro del ámbito del aprendizaje automático, más específicamente dentro del dominio del aprendizaje profundo, debido a su base en arquitecturas de redes neuronales complejas.
Estas redes están compuestas por nodos interconectados que procesan y transmiten señales, lo que permite a la inteligencia artificial aprender patrones complejos. Esto los hace especialmente potentes en tareas como el reconocimiento de imágenes y voz, el procesamiento del lenguaje natural y otras aplicaciones avanzadas de inteligencia artificial. Los LLM aplican el aprendizaje profundo a cantidades masivas de texto, con el objetivo de aprendizaje de predecir secuencias de texto.
Durante el transcurso del año 2023, la empresa Google a través de sus ramas de investigación Google Research y Google DeepMind, publicó dos LLMs entrenados específicamente con datos biomédicos.
El primero fue MedPaLM2, específicamente diseñado para responder preguntas y procesar información en el ámbito médico. Se basa en PaLM 2, el modelo de lenguaje general de Google, pero ha sido adaptado y entrenado con datos clínicos y biomédicos para mejorar su desempeño en tareas relacionadas con la salud. Su sucesor, MedLM, no es un único modelo, sino una familia de modelos optimizados para tareas médicas. Ambos se encuentran restringidos para uso controlado en investigación a través de Google Cloud. Sin embargo, instituciones como la Mayo Clinic, hicieron acuerdos estratégicos y ya están probando MedLM en entornos clínicos reales.
Por último, en el mes de abril, Google presentó AMIE2, un modelo entrenado para emular el razonamiento clínico y la comunicación empática de los médicos durante las consultas diagnósticas. Al igual que los modelos anteriores, AMIE se encuentra en fase de investigación y todavía no fue probada en entornos clínicos reales con pacientes.
Una vez introducidos los conceptos de inteligencia artificial y modelos de lenguaje de gran escala (LLMs), corresponde profundizar en el concepto de razonamiento clínico. Este puede definirse como el proceso cognitivo mediante el cual los profesionales de la salud recolectan, interpretan y analizan información clínica con el objetivo de arribar a un diagnóstico, tomar decisiones terapéuticas y planificar el abordaje integral del paciente. Este proceso está influenciado principalmente por tres esferas:
- el conocimiento médico adquirido,
- la experiencia profesional previa y
- la capacidad de aplicar y adaptar conocimientos extraclínicos al contexto particular de cada caso.
Tal como lo expresa José Letamendi, médico patólogo y poeta español: “El que sólo de medicina sabe, ni de medicina sabe”, destacando así la importancia de una mirada integral y humanística en el ejercicio clínico, más allá del saber técnico.
Para esta exposición, se analizaron dos artículos.
El objetivo principal del primer artículo fue evaluar la capacidad de razonamiento clínico de un LLM generativo (ChatGPT-4) en comparación con médicos residentes y especialistas en medicina interna.
Un modelo de lenguaje de gran escala (LLM) superó a los médicos en el procesamiento de datos médicos, y en el razonamiento clínico, utilizando marcos conceptuales reconocibles, según lo medido por las puntuaciones R-IDEA.
Otros resultados relacionados con el razonamiento clínico no mostraron diferencias entre los médicos y el chatbot, aunque este último presentó más instancias de razonamiento clínico incorrecto que los residentes. Esta observación resalta la importancia de realizar evaluaciones multifacéticas de las capacidades de los LLM antes de su integración en los flujos de trabajo clínicos.
Las principales limitaciones del estudio fueron que los datos clínicos fueron provistos en casos simulados, por lo que no está claro cómo se desempeñaría el chatbot en escenarios clínicos reales. Además, se utilizó un enfoque zero-shot para el prompt del chatbot. Un entrenamiento iterativo podría mejorar el rendimiento del modelo de lenguaje, lo que sugiere que los resultados podrían haber subestimado sus capacidades.
En un segundo artículo el objetivo principal del estudio fue evaluar si el uso de un modelo de LLM, específicamente ChatGPT-4, mejora el desempeño en el razonamiento diagnóstico de médicos en comparación con el uso de recursos convencionales.
Este ensayo clínico aleatorizado encontró que el uso por parte de médicos de un chatbot LLM (ChatGPT-4), no mejoró el razonamiento diagnóstico en casos clínicos complejos, a pesar de que el LLM por sí solo superó significativamente a los médicos participantes.
Los resultados fueron similares en los distintos subgrupos según el nivel de formación y la experiencia previa con el chatbot. Estos hallazgos sugieren que el acceso por sí solo a modelos LLM no mejora el razonamiento diagnóstico de los médicos en la práctica clínica.
La investigación se centró en un único modelo de LLM elegido por su disponibilidad comercial y su integración creciente en la práctica clínica. Sin embargo, múltiples sistemas alternativos de LLM están surgiendo rápidamente, aunque el modelo estudiado sigue siendo actualmente una de las herramientas con mejor rendimiento para las aplicaciones evaluadas.
Por último mencionar la experiencia del Hospital Italiano de Buenos Aires, en el cual se implementó un asistente virtual de IA generativa basado en LLM llamado TANA GPT, desarrollado por el Departamento de Informática en Salud, en el marco del programa pIAsHIBA diseñado para facilitar el acceso a la información clínica de pacientes usando lenguaje natural. Entre sus principales funciones se destaca la búsqueda de información en el módulo de evoluciones, responder preguntas sobre lista de problemas, alergias y medicamentos o acceder a resultados de laboratorios o estudios, entre otros.
Referencias Bibliográficas
- Shahab O, El Kurdi B, Shaukat A, Nadkarni G, Soroush A. Large language models: a primer and gastroenterology applications. Therap Adv Gastroenterol. 2024 Feb 22;17:17562848241227031. doi: 10.1177/17562848241227031. PMID: 38390029; PMCID: PMC10883116.
- Tu, T., Schaekermann, M., Palepu, A. et al. Towards conversational diagnostic artificial intelligence. Nature (2025). https://doi.org/10.1038/s41586-025-08866-7
- Cabral S, Restrepo D, Kanjee Z, Wilson P, Crowe B, Abdulnour RE, Rodman A. Clinical Reasoning of a Generative Artificial Intelligence Model Compared With Physicians. JAMA Intern Med. 2024 May 1;184(5):581-583. doi: 10.1001/jamainternmed.2024.0295. PMID: 38557971; PMCID: PMC10985627.
- Goh E, Gallo R, Hom J, Strong E, Weng Y, Kerman H, Cool JA, Kanjee Z, Parsons AS, Ahuja N, Horvitz E, Yang D, Milstein A, Olson APJ, Rodman A, Chen JH. Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial. JAMA Netw Open. 2024 Oct 1;7(10):e2440969. doi: 10.1001/jamanetworkopen.2024.40969. PMID: 39466245; PMCID: PMC11519755.
- Berner ES, Webster GD, Shugerman AA, Jackson JR, Algina J, Baker AL, Ball EV, Cobbs CG, Dennis VW, Frenkel EP, et al. Performance of four computer-based diagnostic systems. N Engl J Med. 1994 Jun 23;330(25):1792-6. doi: 10.1056/NEJM199406233302506. PMID: 8190157.