El Futuro de la Biología
es Agéntico

Tres mecanismos arquitectónicos por los que la especificación cumple los requisitos de calidad clínica que la recuperación de la guía no alcanza
Manuel Corpas
Senior Lecturer in Genomics, AI, and Data Science
University of Westminster
Versión en castellano · benchmark factorial de tres brazos · 2026
Companion deck to the LatinOMICS introductory deck. That deck establishes the framework and the spec-vs-no-spec comparison. This deck unpacks the three-arm comparison (sin spec / recuperación de la guía / con spec SKILL.md) and the three architectural mechanisms that only the contract resolves: ambigüedad (gen, fármaco), traducción (fenotipo to acción), determinismo frente a redistribución. 26,730 evaluations on the locked dataset. TIMING: 1 min.

Tres condiciones, tres mecanismos distintos

La pregunta: ¿cómo se compara una especificación versionada frente a las dos formas habituales de aterrizar un LLM en evidencia clínica?

SIN ESPECIFICACIÓN

Pregunta libre al modelo

Una consulta en lenguaje natural. Sin contexto auxiliar. Mide el conocimiento previo que el modelo aprendió durante el entrenamiento.

CON LA GUÍA CARGADA

Recuperación de la guía CPIC

La consulta se enriquece con fragmentos relevantes recuperados automáticamente de las guías CPIC. La forma habitual de "aterrizar" un modelo en evidencia clínica.

CON ESPECIFICACIÓN

Contrato declarativo ClawBio

La consulta va acompañada de un SKILL.md versionado que codifica el mapeo (genotipo, fenotipo, fármaco) → acción. El modelo ejecuta el contrato, no genera la respuesta.

Tres condiciones, tres mecanismos. No son puntos en un mismo gradiente de exactitud.

Set up the empirical question. The middle condition is the standard recipe in clinical LLM applications: load relevant guideline text into the prompt context. We want to know whether it meets the clinical-grade requirements (determinism, auditability, traceability, population invariance) or whether the contract mechanism adds something distinct. TIMING: 1.5 min.

Cuatro requisitos no negociables

Determinismo

La misma entrada produce la misma salida en cada ejecución. Sin deriva estocástica.

Auditabilidad

La salida se puede rastrear hasta una decisión humana concreta, no a la distribución del entrenamiento.

Trazabilidad

Las salidas se pueden vincular a versiones específicas y firmadas de los componentes.

Invariancia poblacional

El rendimiento no degrada en poblaciones infrarrepresentadas en el entrenamiento.

Si una técnica de aterrizaje clínico no cumple los cuatro, no está lista para el paciente, por bien que mida en exactitud media.

Corpas, Fatumo, Guio. Cell Genomics (en revisión), 2026 · Tabla 1.

These four are the prerequisites the Perspective lays out. The next slides test which conditions meet which prerequisites. Spoiler: RAG meets none of the four cleanly, and the failure modes are architectural rather than model-specific. TIMING: 1 min.

26.730 evaluaciones: factorial de tres brazos

9 LLM de frontera 5 proveedores × 110 casos CPIC Nivel A 21 marcadores · 35 pares gen-fármaco × 3 poblaciones EUR / AMR / AFR × 3 condiciones sin spec / con guía / con spec × 3 ejecuciones independientes test estocástico = 26.730 total evaluaciones DISEÑO FACTORIAL DE TRES BRAZOS Cada celda evaluada en tres dimensiones: fenotipo (A1), recomendación de fármaco (A2), acción de seguridad letal (A3).

Modelos: Claude Opus 4, Sonnet 4 · GPT-5.2, GPT-4.1, o3, o4-mini · Gemini 2.5 Flash · DeepSeek V3 · Mistral Large 2.

Corpus de guías construido a partir del bundle PharmGKB de las guías CPIC, dividido por gen. pharmgx-reporter, ClawBio v0.5.0.

Three-arm factorial. The guideline corpus is the PharmGKB bundle of CPIC guidelines, chunked by gene. Each (model, case, population) cell is run three times per condition. The locked dataset is 26,730 evaluations. TIMING: 1 min.

Cargar la guía mejora el fenotipo, pero aumenta los errores letales

PROMEDIOS AGREGADOS A1 (fenotipo) 80,6% 89,5% 100% A2 (recomendación) 61,6% 53,0% 100% A3 (seguridad) 96,9% 95,3% 100% ERRORES LETALES A3 clase letal (~1.100 celdas) 270 sin spec 414 con guía 0 con spec sin spec con guía cargada con spec

Cargar la guía cierra el 46% de la brecha de fenotipo, pero regresiona la recomendación en 8,6 puntos y aumenta los errores letales un 53%. La especificación cierra todas las brechas a la vez.

The central anomaly. Higher A1 should imply higher A3, but it doesn't. A2 regresses outright. The rest of the deck explains why: loading the guideline into the prompt introduces three distinct architectural problems that the no_spec baseline does not have, and only the contract resolves all three. TIMING: 1.5 min.

Cargar la guía no basta: el fragmento contiene varios fármacos

Las guías CPIC se organizan por gen, no por par (gen, fármaco). Un fragmento recuperado para CYP2D6 contiene recomendaciones para codeína, tamoxifeno, ondansetrón, paroxetina y amitriptilina, todas a la vez. El modelo elige el primer fármaco del fragmento, no el que se preguntó. El contrato declara el mapeo (gen, fármaco) → acción uno a uno: la ambigüedad desaparece.

973
Celdas con guía cargada
donde A2 baja
470
Respuesta sobre
otro fármaco (48,3%)
922
Confusión estructural
combinada (94,8%)
51
Equivalencia fraseológica
del scorer (5,2%)

El 94,8% de las regresiones son confusión estructural del fragmento, no desacuerdo clínico. Es un problema del esquema documental, no del modelo, y sólo el contrato lo resuelve.

Clasificador 3 ejecuciones bloqueado · 33-classify-a2-regressions.py

470 of 973 = 48.3% drug substitution. Combined structural confusion (drug sub + wrong direction + other) = 922/973 = 94.8%. Only 5.2% is scorer phrasing miss; the regression is real and architectural. TIMING: 1.5 min.

CYP2D6 / tamoxifeno (IM, EUR) · Claude Sonnet 4 · con la guía cargada

Fármaco consultado:
tamoxifeno
Verdad CPIC:
tamoxifen: consider higher dose or alternative; reduced endoxifen formation
Respuesta del modelo:
codeine: Use codeine label recommended age- or weight-specific dosing
Mecanismo:

El fragmento recuperado para CYP2D6 lleva recomendaciones para codeína, tamoxifeno, ondansetrón, paroxetina y amitriptilina. El modelo eligió la recomendación del primer fármaco del fragmento (codeína) en lugar del consultado (tamoxifeno). A2 = 0 porque la respuesta no es sobre el fármaco preguntado.

Mismo modelo. Misma consulta. El fragmento decide el fármaco que el modelo responde, no la pregunta del usuario.

Real cpic_rag response on the cyp2d6_tamox_im case under Claude Sonnet 4 in the EUR population. Pulled verbatim from v3_three_arm_a2_regression_classified.csv. TIMING: 1 min.

Cargar la guía ayuda en algunos genes, perjudica catastróficamente en otros

Genes donde cargar la guía perjudica

  • IFNL3: 100% respuestas sobre otro fármaco
  • RYR1: 100% sobre otro fármaco
  • NUDT15: 100% sobre otro fármaco
  • CYP2C19: 80% sobre otro fármaco (107/130 regresiones)
  • CYP2D6: 56% sobre otro fármaco
  • CYP2C9, UGT1A1, SLCO1B1: entre 47% y 55%

Genes con muchos fármacos por fragmento en la guía CPIC.

Genes donde cargar la guía ayuda

  • HLA-A*31:01: mejora clara
  • HLA-B*15:02: mejora clara
  • HLA-B*58:01: sube fenotipo y acción
  • CYP3A5: mejora marginal

Genes con un único fármaco por entrada CPIC.

La tasa de error por gen sigue la multiplicidad de fármacos del fragmento CPIC: es una propiedad del documento y del esquema de recuperación, no del modelo.

The pattern is mechanical: single-drug HLA loci show negligible substitution; multi-drug loci show 48-100%. Consistent across all 9 models, indicating an index property not a model property. TIMING: 1 min.

El modelo sabe el fenotipo pero no emite la acción correcta

En tres alelos HLA de alto riesgo, cargar la guía hace que el modelo identifique el fenotipo perfectamente, pero no emita la recomendación canónica AVOID. El fragmento recuperado lleva la fraseología clínica suavizada ("contraindicado", "probar antes de prescribir", "usar con cautela") y el modelo la copia sin comprometerse con la acción categórica.

HLA-B*57:01 / abacavir

A1 = 1,000
A3 = 0,111

Fenotipo correcto en cada celda. Acción AVOID emitida sólo en el 11% de los casos letales.

HLA-B*15:02 / carbamazepina

A1 = 0,994
A3 = 0,130

87% de los casos letales reciben una recomendación distinta a AVOID, pese a identificar correctamente el riesgo SJS.

HLA-A*31:01 / carbamazepina

A1 = 1,000
A3 = 0,321

68% de los casos letales sin AVOID. El fenotipo y la acción están desacoplados.

Conocer la respuesta correcta no equivale a emitirla. Cargar la guía aterriza la información; sólo el contrato impone la traducción (fenotipo → acción).

Three loci showing the canonical info-without-action pattern. The HLA-B*58:01 locus, in contrast, improves cleanly when the guideline is loaded (A1 0.988 / A3 1.000); the failure is locus-specific, depending on how the CPIC chunk phrases the action. TIMING: 1.5 min.

El contrato cierra el bucle (fenotipo → acción)

EL EJE FENOTIPO → ACCIÓN EN LOS ALELOS HLA LETALES SIN SPEC Fenotipo: priors del entrenamiento Acción: priors del entrenamiento 157 / 826 desalineadas (A3=1 con A1<1) CON LA GUÍA CARGADA Fenotipo: fragmento recuperado ✓ Acción: fraseología del fragmento 82 / 716 desalineadas (A3=1 con A1<1) CON SPEC Fenotipo: contrato ✓ Acción: contrato ✓ 0 / 1.134 desalineadas El SKILL.md codifica la regla: si PHENOTYPE = Positive, entonces DRUG = AVOID. Sin paso de generación libre.

Las tres condiciones ecoan su fuente: el modelo libre ecoa el entrenamiento, el modelo con la guía cargada ecoa el fragmento, el modelo con spec ejecuta el contrato. Sólo el contrato impone la traducción.

Within lethal-class A3 = 1 cells, free-prompted has 19.0% misaligned (action correct but phenotype wrong); RAG halves to 11.5%; spec eliminates to 0%. The mechanism is that the contract encodes both A1 and the A1-to-A3 mapping deterministically. TIMING: 1 min.

Cargar la guía redistribuye los errores, no los reduce

Si partimos las celdas letales en cuatro cuadrantes según el cruce de fenotipo y acción, cargar la guía no elimina errores: los mueve. La métrica agregada de seguridad lo esconde.

SIN SPEC (n=1.096) Q1: 669 (61%) Q2: 157 (14%) Q3: 122 (11%) Q4: 148 (14%) CON LA GUÍA CARGADA (n=1.130) Q1: 634 (56%) Q2: 82 (7%) Q3: 341 (30%) Q4: 73 (6%) CON SPEC (n=1.134) Q1: 1.134 (100%) Q1 correcto alineado Q2 acción sin información Q3 información sin acción Q4 ambos incorrectos

Q2 cae a la mitad. Q4 cae a la mitad. Q3 se triplica (122 → 341). El total de errores letales A3 sube de 270 a 414.

Key insight from the 4-quadrant analysis. RAG appears to halve some error modes but actually triples the information-without-action quadrant. The aggregate A3 metric hides this redistribution. Only spec collapses all four quadrants into Q1. TIMING: 1.5 min.

Las tres condiciones ecoan su fuente

SIN ESPECIFICACIÓN

Eco del entrenamiento

El modelo recurre al prior que tenga sobre el par (gen, fármaco) concreto. Funciona para los pares más representados; falla en silencio para los menos.

CON LA GUÍA CARGADA

Eco del fragmento

El modelo ecoa la fraseología natural del fragmento recuperado, incluida la ambigüedad multi-fármaco y el suavizado prescriptivo.

CON ESPECIFICACIÓN

Ejecución del contrato

El modelo ejecuta el mapeo declarado (genotipo, fenotipo, fármaco) → acción. La traducción se resuelve en la spec, no en el modelo.

De las tres, sólo el contrato impone un mapeo determinista (fenotipo, acción). Es la diferencia entre conocer la respuesta correcta y emitirla con certeza.

This is the central interpretive frame for the deck. All three modes echo a source; the choice of source determines what can be audited. Training distribution is unauditable; retrieved chunks are partially auditable; declared contracts are fully auditable. TIMING: 1 min.

Confirmación: 45 / 45 ecoan la spec corrupta

Corrompimos deliberadamente el SKILL.md para cinco casos letales: PHENOTYPE de "Poor Metaboliser" a "Normal Metaboliser"; DRUG de "AVOID" a "standard dosing". Tres LLM de frontera (Claude Opus 4, DeepSeek V3, GPT-5.2), tres ejecuciones cada uno = 45 llamadas.

43
Ecos verbatim
de la spec corrupta
2
Con hedging,
todavía ecos en los campos clave
0
Anulaciones
hacia la verdad CPIC
135/135
Spec intacta
A3 = 1,0 en cada celda

El techo del 100% bajo spec refleja ejecución del contrato, no conocimiento previo del modelo. Mismo modelo, mismo prompt, distinta spec, distinta salida.

Corolario de seguridad: una spec defectuosa propaga al output. La autoría de la spec es una operación crítica para la seguridad clínica, sometida a las mismas disciplinas de revisión, control de versiones y test de regresión que cualquier software clínico.

Adversarial validation slide. Establishes that the with_spec ceiling is contract execution, not coincident model knowledge. The flip side: defective specs propagate to outputs, so spec authoring is itself safety-critical. TIMING: 1 min.

Tres lecciones para una genómica agéntica clínica

01 · El fragmento no es el contrato

Cargar la guía no equivale a ejecutarla. Si el fragmento lleva varios fármacos, el modelo se equivoca de fármaco. Si lleva acción suavizada, el modelo la copia.

02 · Fenotipo → acción es un paso aparte

Identificar el fenotipo es necesario pero no suficiente. La traducción a la acción canónica debe imponerse, no esperarse de la generación libre.

03 · Las métricas agregadas esconden la redistribución

El promedio sugiere que cargar la guía se parece a no cargarla. Los cuadrantes muestran que los errores se mueven, no desaparecen.

TESIS CENTRAL

El futuro clínico de la biología agéntica no se decide por la cantidad de evidencia que un modelo lee, sino por la forma del compromiso con esa evidencia: ¿el modelo ejecuta un contrato declarativo o ecoa una fuente narrativa? Sólo el contrato cumple los cuatro requisitos de calidad clínica simultáneamente.

Corpas, Iacoangeli, Bourdenx, Fatumo, Guio. Cell Genomics, en envío 2026 · benchmark de tres brazos, 26.730 evaluaciones · github.com/ClawBio/ClawBio

Close on the three lessons and the agentic-biology thesis. The mechanism that closes the gap is contract execution, not larger or more elaborate retrieval. TIMING: 1.5 min.
1 / 14
manuelcorpas · el futuro de la biología es agéntico (mecanismos) · versión castellano