Tres mecanismos arquitectónicos por los que la especificación cumple los requisitos de calidad clínica que la recuperación de la guía no alcanza
Manuel Corpas
Senior Lecturer in Genomics, AI, and Data Science
University of Westminster
Versión en castellano · benchmark factorial de tres brazos · 2026
Companion deck to the LatinOMICS introductory deck. That deck establishes
the framework and the spec-vs-no-spec comparison. This deck unpacks the
three-arm comparison (sin spec / recuperación de la guía / con spec
SKILL.md) and the three architectural mechanisms that only the contract
resolves: ambigüedad (gen, fármaco), traducción (fenotipo to acción),
determinismo frente a redistribución. 26,730 evaluations on the locked
dataset. TIMING: 1 min.
Tres formas de hacer responder a un LLM clínico
Tres condiciones, tres mecanismos distintos
La pregunta: ¿cómo se compara una especificación versionada frente a las dos formas habituales de aterrizar un LLM en evidencia clínica?
SIN ESPECIFICACIÓN
Pregunta libre al modelo
Una consulta en lenguaje natural. Sin contexto auxiliar. Mide el conocimiento previo que el modelo aprendió durante el entrenamiento.
CON LA GUÍA CARGADA
Recuperación de la guía CPIC
La consulta se enriquece con fragmentos relevantes recuperados automáticamente de las guías CPIC. La forma habitual de "aterrizar" un modelo en evidencia clínica.
CON ESPECIFICACIÓN
Contrato declarativo ClawBio
La consulta va acompañada de un SKILL.md versionado que codifica el mapeo (genotipo, fenotipo, fármaco) → acción. El modelo ejecuta el contrato, no genera la respuesta.
Tres condiciones, tres mecanismos. No son puntos en un mismo gradiente de exactitud.
Set up the empirical question. The middle condition is the standard
recipe in clinical LLM applications: load relevant guideline text into
the prompt context. We want to know whether it meets the clinical-grade
requirements (determinism, auditability, traceability, population
invariance) or whether the contract mechanism adds something distinct.
TIMING: 1.5 min.
El listón clínico
Cuatro requisitos no negociables
Determinismo
La misma entrada produce la misma salida en cada ejecución. Sin deriva estocástica.
Auditabilidad
La salida se puede rastrear hasta una decisión humana concreta, no a la distribución del entrenamiento.
Trazabilidad
Las salidas se pueden vincular a versiones específicas y firmadas de los componentes.
Invariancia poblacional
El rendimiento no degrada en poblaciones infrarrepresentadas en el entrenamiento.
Si una técnica de aterrizaje clínico no cumple los cuatro, no está lista para el paciente, por bien que mida en exactitud media.
Corpas, Fatumo, Guio. Cell Genomics (en revisión), 2026 · Tabla 1.
These four are the prerequisites the Perspective lays out. The next slides
test which conditions meet which prerequisites. Spoiler: RAG meets none of
the four cleanly, and the failure modes are architectural rather than
model-specific. TIMING: 1 min.
Diseño experimental
26.730 evaluaciones: factorial de tres brazos
Modelos: Claude Opus 4, Sonnet 4 · GPT-5.2, GPT-4.1, o3, o4-mini · Gemini 2.5 Flash · DeepSeek V3 · Mistral Large 2.
Corpus de guías construido a partir del bundle PharmGKB de las guías CPIC, dividido por gen. pharmgx-reporter, ClawBio v0.5.0.
Three-arm factorial. The guideline corpus is the PharmGKB bundle of CPIC
guidelines, chunked by gene. Each (model, case, population) cell is
run three times per condition. The locked dataset is 26,730
evaluations. TIMING: 1 min.
Resultado principal
Cargar la guía mejora el fenotipo, pero aumenta los errores letales
Cargar la guía cierra el 46% de la brecha de fenotipo, pero regresiona la recomendación en 8,6 puntos y aumenta los errores letales un 53%. La especificación cierra todas las brechas a la vez.
The central anomaly. Higher A1 should imply higher A3, but it doesn't.
A2 regresses outright. The rest of the deck explains why: loading the
guideline into the prompt introduces three distinct architectural
problems that the no_spec baseline does not have, and only the
contract resolves all three. TIMING: 1.5 min.
Mecanismo 1: el contrato resuelve la ambigüedad (gen, fármaco)
Cargar la guía no basta: el fragmento contiene varios fármacos
Las guías CPIC se organizan por gen, no por par (gen, fármaco). Un fragmento recuperado para CYP2D6 contiene recomendaciones para codeína, tamoxifeno, ondansetrón, paroxetina y amitriptilina, todas a la vez. El modelo elige el primer fármaco del fragmento, no el que se preguntó. El contrato declara el mapeo (gen, fármaco) → acción uno a uno: la ambigüedad desaparece.
973
Celdas con guía cargada donde A2 baja
470
Respuesta sobre otro fármaco (48,3%)
922
Confusión estructural combinada (94,8%)
51
Equivalencia fraseológica del scorer (5,2%)
El 94,8% de las regresiones son confusión estructural del fragmento, no desacuerdo clínico. Es un problema del esquema documental, no del modelo, y sólo el contrato lo resuelve.
470 of 973 = 48.3% drug substitution. Combined structural confusion
(drug sub + wrong direction + other) = 922/973 = 94.8%. Only 5.2% is
scorer phrasing miss; the regression is real and architectural.
TIMING: 1.5 min.
Ejemplo concreto
CYP2D6 / tamoxifeno (IM, EUR) · Claude Sonnet 4 · con la guía cargada
Fármaco consultado:
tamoxifeno
Verdad CPIC:
tamoxifen: consider higher dose or alternative; reduced endoxifen formation
Respuesta del modelo:
codeine: Use codeine label recommended age- or weight-specific dosing
Mecanismo:
El fragmento recuperado para CYP2D6 lleva recomendaciones para codeína, tamoxifeno, ondansetrón, paroxetina y amitriptilina. El modelo eligió la recomendación del primer fármaco del fragmento (codeína) en lugar del consultado (tamoxifeno). A2 = 0 porque la respuesta no es sobre el fármaco preguntado.
Mismo modelo. Misma consulta. El fragmento decide el fármaco que el modelo responde, no la pregunta del usuario.
Real cpic_rag response on the cyp2d6_tamox_im case under Claude Sonnet 4
in the EUR population. Pulled verbatim from
v3_three_arm_a2_regression_classified.csv. TIMING: 1 min.
Distribución por gen
Cargar la guía ayuda en algunos genes, perjudica catastróficamente en otros
Genes donde cargar la guía perjudica
IFNL3: 100% respuestas sobre otro fármaco
RYR1: 100% sobre otro fármaco
NUDT15: 100% sobre otro fármaco
CYP2C19: 80% sobre otro fármaco (107/130 regresiones)
CYP2D6: 56% sobre otro fármaco
CYP2C9, UGT1A1, SLCO1B1: entre 47% y 55%
Genes con muchos fármacos por fragmento en la guía CPIC.
Genes donde cargar la guía ayuda
HLA-A*31:01: mejora clara
HLA-B*15:02: mejora clara
HLA-B*58:01: sube fenotipo y acción
CYP3A5: mejora marginal
Genes con un único fármaco por entrada CPIC.
La tasa de error por gen sigue la multiplicidad de fármacos del fragmento CPIC: es una propiedad del documento y del esquema de recuperación, no del modelo.
The pattern is mechanical: single-drug HLA loci show negligible
substitution; multi-drug loci show 48-100%. Consistent across all 9
models, indicating an index property not a model property. TIMING: 1 min.
Mecanismo 2: el contrato impone (fenotipo → acción)
El modelo sabe el fenotipo pero no emite la acción correcta
En tres alelos HLA de alto riesgo, cargar la guía hace que el modelo identifique el fenotipo perfectamente, pero no emita la recomendación canónica AVOID. El fragmento recuperado lleva la fraseología clínica suavizada ("contraindicado", "probar antes de prescribir", "usar con cautela") y el modelo la copia sin comprometerse con la acción categórica.
HLA-B*57:01 / abacavir
A1 = 1,000 A3 = 0,111
Fenotipo correcto en cada celda. Acción AVOID emitida sólo en el 11% de los casos letales.
HLA-B*15:02 / carbamazepina
A1 = 0,994 A3 = 0,130
87% de los casos letales reciben una recomendación distinta a AVOID, pese a identificar correctamente el riesgo SJS.
HLA-A*31:01 / carbamazepina
A1 = 1,000 A3 = 0,321
68% de los casos letales sin AVOID. El fenotipo y la acción están desacoplados.
Conocer la respuesta correcta no equivale a emitirla. Cargar la guía aterriza la información; sólo el contrato impone la traducción (fenotipo → acción).
Three loci showing the canonical info-without-action pattern. The
HLA-B*58:01 locus, in contrast, improves cleanly when the guideline is
loaded (A1 0.988 / A3 1.000); the failure is locus-specific, depending
on how the CPIC chunk phrases the action. TIMING: 1.5 min.
El paso que falla
El contrato cierra el bucle (fenotipo → acción)
Las tres condiciones ecoan su fuente: el modelo libre ecoa el entrenamiento, el modelo con la guía cargada ecoa el fragmento, el modelo con spec ejecuta el contrato. Sólo el contrato impone la traducción.
Within lethal-class A3 = 1 cells, free-prompted has 19.0% misaligned
(action correct but phenotype wrong); RAG halves to 11.5%; spec
eliminates to 0%. The mechanism is that the contract encodes both A1
and the A1-to-A3 mapping deterministically. TIMING: 1 min.
Mecanismo 3: el contrato no redistribuye errores, los elimina
Cargar la guía redistribuye los errores, no los reduce
Si partimos las celdas letales en cuatro cuadrantes según el cruce de fenotipo y acción, cargar la guía no elimina errores: los mueve. La métrica agregada de seguridad lo esconde.
Q2 cae a la mitad. Q4 cae a la mitad. Q3 se triplica (122 → 341). El total de errores letales A3 sube de 270 a 414.
Key insight from the 4-quadrant analysis. RAG appears to halve some
error modes but actually triples the information-without-action
quadrant. The aggregate A3 metric hides this redistribution. Only spec
collapses all four quadrants into Q1. TIMING: 1.5 min.
Por qué el contrato es distinto
Las tres condiciones ecoan su fuente
SIN ESPECIFICACIÓN
Eco del entrenamiento
El modelo recurre al prior que tenga sobre el par (gen, fármaco) concreto. Funciona para los pares más representados; falla en silencio para los menos.
CON LA GUÍA CARGADA
Eco del fragmento
El modelo ecoa la fraseología natural del fragmento recuperado, incluida la ambigüedad multi-fármaco y el suavizado prescriptivo.
CON ESPECIFICACIÓN
Ejecución del contrato
El modelo ejecuta el mapeo declarado (genotipo, fenotipo, fármaco) → acción. La traducción se resuelve en la spec, no en el modelo.
De las tres, sólo el contrato impone un mapeo determinista (fenotipo, acción). Es la diferencia entre conocer la respuesta correcta y emitirla con certeza.
This is the central interpretive frame for the deck. All three modes
echo a source; the choice of source determines what can be audited.
Training distribution is unauditable; retrieved chunks are partially
auditable; declared contracts are fully auditable. TIMING: 1 min.
Validación adversaria
Confirmación: 45 / 45 ecoan la spec corrupta
Corrompimos deliberadamente el SKILL.md para cinco casos letales: PHENOTYPE de "Poor Metaboliser" a "Normal Metaboliser"; DRUG de "AVOID" a "standard dosing". Tres LLM de frontera (Claude Opus 4, DeepSeek V3, GPT-5.2), tres ejecuciones cada uno = 45 llamadas.
43
Ecos verbatim de la spec corrupta
2
Con hedging, todavía ecos en los campos clave
0
Anulaciones hacia la verdad CPIC
135/135
Spec intacta A3 = 1,0 en cada celda
El techo del 100% bajo spec refleja ejecución del contrato, no conocimiento previo del modelo. Mismo modelo, mismo prompt, distinta spec, distinta salida.
Corolario de seguridad: una spec defectuosa propaga al output. La autoría de la spec es una operación crítica para la seguridad clínica, sometida a las mismas disciplinas de revisión, control de versiones y test de regresión que cualquier software clínico.
Adversarial validation slide. Establishes that the with_spec ceiling is
contract execution, not coincident model knowledge. The flip side:
defective specs propagate to outputs, so spec authoring is itself
safety-critical. TIMING: 1 min.
Conclusión
Tres lecciones para una genómica agéntica clínica
01 · El fragmento no es el contrato
Cargar la guía no equivale a ejecutarla. Si el fragmento lleva varios fármacos, el modelo se equivoca de fármaco. Si lleva acción suavizada, el modelo la copia.
02 · Fenotipo → acción es un paso aparte
Identificar el fenotipo es necesario pero no suficiente. La traducción a la acción canónica debe imponerse, no esperarse de la generación libre.
03 · Las métricas agregadas esconden la redistribución
El promedio sugiere que cargar la guía se parece a no cargarla. Los cuadrantes muestran que los errores se mueven, no desaparecen.
TESIS CENTRAL
El futuro clínico de la biología agéntica no se decide por la cantidad de evidencia que un modelo lee, sino por la forma del compromiso con esa evidencia: ¿el modelo ejecuta un contrato declarativo o ecoa una fuente narrativa? Sólo el contrato cumple los cuatro requisitos de calidad clínica simultáneamente.
Corpas, Iacoangeli, Bourdenx, Fatumo, Guio. Cell Genomics, en envío 2026 · benchmark de tres brazos, 26.730 evaluaciones · github.com/ClawBio/ClawBio
Close on the three lessons and the agentic-biology thesis. The mechanism
that closes the gap is contract execution, not larger or more elaborate
retrieval. TIMING: 1.5 min.
1 / 14
manuelcorpas · el futuro de la biología es agéntico (mecanismos) · versión castellano