El Futuro de la Biología
es Agéntico

De la orquestación a la validación: bibliotecas de skills nativas para agentes como camino hacia una IA genómica de calidad clínica

Manuel Corpas

Senior Lecturer in Genomics, AI, and Data Science
University of Westminster
Versión en castellano · LatinOMICS y foros académicos en español

Two papers underpin this talk. First, a Perspective in revision at Cell Genomics with Segun Fatumo and Heinner Guio defining what agentic genomics is, what it is not, and the validation framework we propose. Second, an empirical benchmark with Alfredo Iacoangeli, Fatumo, and Guio, in submission to Briefings in Bioinformatics, that tests whether the framework actually delivers on clinical-grade pharmacogenomics. TIMING: 1 min.

El cambio

Dos olas de LLM en biología

Primera ola: recuperación de información

Resumir artículos, responder preguntas sobre rutas metabólicas, extraer datos estructurados de texto.
Útil, pero incremental.

Segunda ola: ejecución autónoma

Los LLM modernos escriben, depuran y ejecutan código.
Conectados a sistemas de archivos, bases de datos y herramientas de línea de comandos, planifican operaciones de varios pasos y se adaptan a los resultados intermedios.
El papel del investigador pasa de producir análisis a evaluarlos.

Corpas, Fatumo, Guio. Agentic Genomics: From Pipeline Automation to Autonomous Validation. Cell Genomics (en revisión), 2026.

The point I want to plant: this is not a chatbot story. The interesting thing is autonomous tool use with consequence. Once the model is acting, the rate-limiting step shifts. TIMING: 1.5 min.

Definición

Definición de genómica agéntica

Conjuntamente necesarias. Falsables con el test de perturbación: un agente que ignora salidas intermedias perturbadas no es agéntico.

Full definition (delivered verbally): "The use of autonomous AI agents, powered by large language models and operating within domain-constrained skill libraries, to discover, plan, execute, and iteratively refine multi-step genomic analyses, where the agent exercises runtime decision-making over tool selection, parameterisation, error handling, and output evaluation." These four conditions are deliberately strict. They exclude workflow automation (Nextflow, Snakemake, Galaxy, no runtime decisions). They exclude AutoML (search within a fixed space). They exclude LLM-assisted scripting (you execute, not the agent). And they exclude general-purpose biomedical copilots (information retrieval, no multi-step execution against real data). TIMING: 2 min.

Figura 1 · Cell Genomics (en revisión)

El cambio de paradigma: de producir código a validar

Figure 1: Traditional vs Agentic Workflow

(A) Flujo tradicional. El investigador escribe el código, configura las herramientas, lanza el pipeline e interpreta los resultados. El cuello de botella es producir código. (B) Flujo agéntico. El investigador describe la intención en lenguaje natural; un agente de IA descubre y ejecuta skills de una biblioteca modular; el investigador valida los resultados. El cuello de botella se desplaza a la validación y el juicio.

This is the central diagram of the Cell Genomics Perspective (in revision). The skills shown in panel B are real ClawBio skills: pharmacogenomics, variant annotation, ancestry estimation, drug safety, genome QC, PRS calculation, nutri-genomics, structural variants. Same audience question for the rest of the talk: what does it take to make panel B trustworthy? TIMING: 1.5 min.

El nuevo cuello de botella

El cuello de botella de validación: fallo silencioso con apariencia plausible

Los agentes de IA producen resultados más rápido de lo que un humano puede verificarlos.

AUTOBA

Pipelines que omitían pasos críticos; herramienta incorrecta para el tipo de dato.

Zhou et al., Adv. Sci. 2024.

SINGLE-CELL AGENTS

Diseños experimentales incompletos; recomendaciones inconsistentes para consultas idénticas.

Zhou et al., Brief. Bioinform. 2025.

BOIKO ET AL. · NATURE 2023

Protocolos sintácticamente correctos, científicamente inválidos, que pasan controles básicos de ejecución.

Boiko et al., Nature 624, 570–578 (2023).

CLAWBIO EARLY AUDIT

Un skill devolvió silenciosamente "todo normal" para 51 fármacos sobre un fichero de entrada vacío.

Auditoría independiente (S. Kornilov, clawbio_bench); ClawBio v0.5.0, Zenodo 2026.

Degradación silenciosa hacia resultados plausibles pero incorrectos.

Each of these is from an independently developed system. The convergence is the point: this is structural, not a one-off bug. The 51-drug ClawBio incident is mine, surfaced by a community auditor. We discovered it because the platform is open. That's an argument for transparency. TIMING: 2 min.

Framework

Un framework de validación por niveles

Calidad investigación

Exploración de hipótesis
Tests unitarios, entradas adversarias
Todas las salidas revisadas
Falsos positivos tolerables

Benchmarked

Análisis publicables
Referencias públicas (GIAB, scRNA-seq)
Benchmarking independiente
Métricas y modos de fallo publicados

Calidad clínica

Atención al paciente, informes diagnósticos
Validación externa multicentro
Alineamiento con FDA/EMA
Paquetes de reproducibilidad firmados
Cumplimiento CLIA/CAP

Validación proporcional a la consecuencia. Las plataformas de agentes deben hacer cumplir los límites entre niveles y exponer replay determinista: la secuencia de decisiones registrada debe ser exactamente reproducible.

Corpas, Fatumo y Guio. Cell Genomics (en revisión), 2026 · Tabla 2.

This is the structural response to silent failure. The tiers are not prescriptive labels; they are calibrated to risk. A skill at research-grade can be invoked freely for hypothesis generation. The same skill cannot be invoked for clinical use without external multi-site validation, signed bundles, and deterministic replay. The next slides ask whether any currently shippable skill can satisfy clinical-grade. TIMING: 2 min.

La biblioteca de skills a prueba

ClawBio

Una biblioteca de skills nativa para agentes, dedicada a la bioinformática.

Open-source · local-first · reproducible

76

skills

876

estrellas en GitHub

20+

contribuidores

MIT

licencia

pharmgx-reporter variant-annotation claw-ancestry-pca gwas-prs scrna-orchestrator mendelian-randomisation wes-clinical-report-en methylation-clock + 68 más

github.com/ClawBio/ClawBio · el artefacto bajo prueba en el benchmark empírico que viene a continuación.

Hero slide. Establish ClawBio as a real, public, open-source artifact before the benchmark. The 76 skills span pharmacogenomics, variant annotation, ancestry/PCA, GWAS/PRS, single-cell, multi-omics, MR, clinical reporting (EN + ES). The benchmark in the next slides tests ONE skill: pharmgx-reporter. The framework slide above (tiered validation) is what ClawBio implements; this slide is the bridge between abstract framework and concrete empirical test. TIMING: 1 min.

Pregunta empírica

¿Puede un `SKILL.md` en texto plano alcanzar calidad clínica?

Dominio: farmacogenómica. De genotipo a fenotipo a recomendación de fármaco, con la verdad de referencia en las guías CPIC.
Riesgo: real. DPYD rs3918290 T/T + fluorouracilo estándar = potencialmente letal.
Si la especificación no mejora la fiabilidad aquí, donde la guía es fija y las consecuencias se miden clínicamente, es improbable que ayude en dominios menos estructurados.

Una prueba empírica: ¿cierra la especificación esa brecha?

Frame the question crisply: pharmacogenomics is the right test bed because the guideline is fixed (CPIC) and the stakes are clinically measurable. If specification does not help here, it does not help anywhere. Next slide: the experimental design. TIMING: 1 min.

Diseño experimental

26.730 evaluaciones: benchmark factorial de tres brazos

Skill a prueba: pharmgx-reporter · ClawBio v0.5.0 · genotipo → fenotipo → recomendación de fármaco

Modelos: Claude Opus 4, Sonnet 4 · GPT-5.2, GPT-4.1, o3, o4-mini · Gemini 2.5 Flash · DeepSeek V3 · Mistral Large 2.

Population contexts: European (Corpasome family WGS), admixed Latin American (Peruvian Genome Project, 109 WGS, 7 sub-populations), East African (Uganda Genome Resource, 6,407 WGS). Curated by Heinner Guio and Segun Fatumo respectively. The factorial design lets us isolate each factor: model, gene/test-case, population, treatment, run-to-run stochasticity. TIMING: 1 min.

Resultado 1 · sin especificación

Los LLM de frontera por sí solos no son de calidad clínica

80,6%

Exactitud media
de fenotipo (A1)

62,8%

Peor modelo
(Gemini 2.5 Flash)

270

Errores letales A3
(de 1.096 celdas letales)

82,7%

Consistencia perfecta
en 3 ejecuciones

Mismo modelo, misma entrada, distintas ejecuciones: deriva estocástica entre repeticiones.
"80% de exactitud" suena bien. En la clase letal, ese promedio significa que aproximadamente 1 de cada 4 pacientes recibe una recomendación potencialmente letal (270 / 1.096 = 24,6%).
Modos de fallo: datos poblacionales fabulados, incumplimiento de formato, mala clasificación del estado metabolizador.

La exactitud media esconde la cola. La cola es lo que daña a los pacientes.

Average accuracy hides the tail. The tail is what gets people hurt. The consistency rate (82.7 percent) is computed as the fraction of model x test-case x population combinations where all 3 parsed runs returned an identical A1 score (2,359 of 2,853 evaluable combinations). Locked 3-of-3 replicate dataset, three-arm benchmark (Cell Genomics 2026, submitted). TIMING: 1.5 min.

Resultado 1 · vista por modelo

La especificación cierra la brecha en todos los ejes Tier-A

Figure 2: Tier A clinical correctness, with vs without ClawBio specification

Tres ejes Tier A en 9 modelos: exactitud de fenotipo (A1), recomendación de fármaco (A2) y seguridad clínica de clase letal (A3). Gris = sin especificación, dispersión amplia, barras de error largas (Gemini 2.5 Flash, o3 en recomendación de fármaco). Verde = con especificación ClawBio, mostrado aquí; el mecanismo de consistencia está en la siguiente diapositiva.

The figure makes the variance visible: it is not just that some models are worse on average; the spread within each model on each axis is large. The error bars are 95% CIs across 3 runs × 3 populations × 12 cases = 36 trials per model per condition. TIMING: 1 min.

Resultado 2 · con especificación ClawBio

La especificación elimina la variación estocástica

Mismo modelo, misma entrada, misma salida, en todos los ejes Tier-A y todas las poblaciones.

The headline number: stochastic drift drops from 17.3% (494 of 2,853 cells) under no_spec to 6.2% under CPIC RAG, to 0% (2,970 of 2,970 cells) under specification. RAG closes most of the consistency gap but does not eliminate it; only contract execution is deterministic by construction. Locked 3-of-3 replicate dataset (Cell Genomics 2026, submitted). TIMING: 1.5 min.

Resultado 2 · vista por celda

Heatmap de consistencia por modelo y caso

Cómo leerlo: filas = 9 modelos · columnas = 110 casos CPIC Nivel A · color de celda = % de 3 ejecuciones que devolvieron el fenotipo correcto (verde = 100%, rojo = 0%).

Figure: Consistency heatmap, no_spec vs with_spec

Izquierda sin spec: celdas rojas dispersas, mismo modelo, misma entrada, distintas ejecuciones que no coinciden. Derecha con especificación ClawBio: el rojo desaparece por completo. Cada celda en 9 modelos por 110 casos por 3 poblaciones devuelve el fenotipo correcto en cada ejecución.

Red cells on the left are stochastic (same model, same input, different runs disagree). With spec they vanish entirely across all 8 models. TIMING: 1.5 min.

Resultado 3 · equidad

Errores letales DPYD: 77 → 26 → 0

Casos letales DPYD (fluorouracilo, capecitabina) · 9 modelos · 3 ejecuciones · 3 poblaciones

La recuperación de la guía CPIC reduce, no elimina, los errores letales. Sólo la ejecución del contrato los lleva a cero, en cada población.

A3=0 en casos letales DPYD del benchmark de tres brazos (Cell Genomics 2026, enviado). Letalidad según la guía CPIC para DPYD (Henricks et al., Clin Pharmacol Ther 2020; doi:10.1002/cpt.1830).

Honest reframing of the locked 3-arm data. Earlier 2-arm v7 numbers showed "6 of 7 lethal errors non-European"; the locked dataset shows DPYD lethal A3 errors are roughly uniformly distributed across EUR/AMR/AFR (25 / 28 / 24 out of 53 / 54 / 54). The structural story is no longer "models default to European training data" (the data does not support that claim on this gene) but "RAG reduces lethal errors by ~66% but does not eliminate them; only contract execution gets to zero". Spec is uniformly safe across populations by construction. TIMING: 1.5 min.

Tesis de cierre

Cinco principios para una genómica agéntica responsable

01

La experiencia del dominio es irreducible

02

Validación proporcional a la consecuencia

03

La transparencia no es negociable

04

Skills testables por diseño

05

La equidad hay que diseñarla

TESIS CENTRAL

La genómica agéntica desplaza el cuello de botella de construir pipelines a validar. Una especificación de skill en texto plano cumple dos de los tres requisitos de calidad clínica; la validación externa multicentro es el trabajo pendiente.

Corpas, Fatumo, Guio. Cell Genomics (en revisión), 2026 · Corpas, Iacoangeli, Fatumo, Guio. Briefings in Bioinformatics, en envío 2026.

Close on the central thesis, not on a pitch. Read the principles, then the closing line. The question is no longer whether agentic genomics will be adopted; it is whether the field will establish the standards required to make it trustworthy before it becomes ubiquitous. TIMING: 2 min, leaving 5 to 7 min Q&A within the 30-min recorded slot.

El Futuro de la Biologíaes Agéntico