De la orquestación a la validación: bibliotecas de skills nativas para agentes como camino hacia una IA genómica de calidad clínica
Manuel Corpas
Senior Lecturer in Genomics, AI, and Data Science
University of Westminster
Versión en castellano · LatinOMICS y foros académicos en español
Two papers underpin this talk. First, a Perspective in revision at Cell Genomics with Segun
Fatumo and Heinner Guio defining what agentic genomics is, what it is not,
and the validation framework we propose. Second, an empirical benchmark
with Alfredo Iacoangeli, Fatumo, and Guio, in submission to Briefings in
Bioinformatics, that tests whether the framework actually delivers on
clinical-grade pharmacogenomics. TIMING: 1 min.
El cambio
Dos olas de LLM en biología
Primera ola: recuperación de información
Resumir artículos, responder preguntas sobre rutas metabólicas, extraer datos estructurados de texto.
Útil, pero incremental.
Segunda ola: ejecución autónoma
Los LLM modernos escriben, depuran y ejecutan código.
Conectados a sistemas de archivos, bases de datos y herramientas de línea de comandos, planifican operaciones de varios pasos y se adaptan a los resultados intermedios.
El papel del investigador pasa de producir análisis a evaluarlos.
Corpas, Fatumo, Guio. Agentic Genomics: From Pipeline Automation to Autonomous Validation. Cell Genomics (en revisión), 2026.
The point I want to plant: this is not a chatbot story. The interesting
thing is autonomous tool use with consequence. Once the model is acting,
the rate-limiting step shifts. TIMING: 1.5 min.
Definición
Definición de genómica agéntica
Conjuntamente necesarias. Falsables con el test de perturbación: un agente que ignora salidas intermedias perturbadas no es agéntico.
Full definition (delivered verbally): "The use of autonomous AI agents,
powered by large language models and operating within domain-constrained
skill libraries, to discover, plan, execute, and iteratively refine
multi-step genomic analyses, where the agent exercises runtime
decision-making over tool selection, parameterisation, error handling,
and output evaluation."
These four conditions are deliberately strict. They exclude workflow
automation (Nextflow, Snakemake, Galaxy, no runtime decisions). They
exclude AutoML (search within a fixed space). They exclude LLM-assisted
scripting (you execute, not the agent). And they exclude general-purpose
biomedical copilots (information retrieval, no multi-step execution
against real data). TIMING: 2 min.
Figura 1 · Cell Genomics (en revisión)
El cambio de paradigma: de producir código a validar
(A) Flujo tradicional. El investigador escribe el código, configura las herramientas, lanza el pipeline e interpreta los resultados. El cuello de botella es producir código.
(B) Flujo agéntico. El investigador describe la intención en lenguaje natural; un agente de IA descubre y ejecuta skills de una biblioteca modular; el investigador valida los resultados. El cuello de botella se desplaza a la validación y el juicio.
This is the central diagram of the Cell Genomics Perspective (in revision). The skills shown
in panel B are real ClawBio skills: pharmacogenomics, variant annotation,
ancestry estimation, drug safety, genome QC, PRS calculation, nutri-genomics,
structural variants. Same audience question for the rest of the talk:
what does it take to make panel B trustworthy? TIMING: 1.5 min.
El nuevo cuello de botella
El cuello de botella de validación: fallo silencioso con apariencia plausible
Los agentes de IA producen resultados más rápido de lo que un humano puede verificarlos.
AUTOBA
Pipelines que omitían pasos críticos; herramienta incorrecta para el tipo de dato.
Zhou et al., Adv. Sci. 2024.
SINGLE-CELL AGENTS
Diseños experimentales incompletos; recomendaciones inconsistentes para consultas idénticas.
Zhou et al., Brief. Bioinform. 2025.
BOIKO ET AL. · NATURE 2023
Protocolos sintácticamente correctos, científicamente inválidos, que pasan controles básicos de ejecución.
Boiko et al., Nature 624, 570–578 (2023).
CLAWBIO EARLY AUDIT
Un skill devolvió silenciosamente "todo normal" para 51 fármacos sobre un fichero de entrada vacío.
Auditoría independiente (S. Kornilov, clawbio_bench); ClawBio v0.5.0, Zenodo 2026.
Degradación silenciosa hacia resultados plausibles pero incorrectos.
Each of these is from an independently developed system. The convergence is
the point: this is structural, not a one-off bug. The 51-drug ClawBio
incident is mine, surfaced by a community auditor. We discovered it because
the platform is open. That's an argument for transparency. TIMING: 2 min.
Framework
Un framework de validación por niveles
Calidad investigación
Exploración de hipótesis
Tests unitarios, entradas adversarias
Todas las salidas revisadas
Falsos positivos tolerables
Benchmarked
Análisis publicables
Referencias públicas (GIAB, scRNA-seq)
Benchmarking independiente
Métricas y modos de fallo publicados
Calidad clínica
Atención al paciente, informes diagnósticos
Validación externa multicentro
Alineamiento con FDA/EMA
Paquetes de reproducibilidad firmados
Cumplimiento CLIA/CAP
Validación proporcional a la consecuencia. Las plataformas de agentes deben hacer cumplir los límites entre niveles y exponer replay determinista: la secuencia de decisiones registrada debe ser exactamente reproducible.
Corpas, Fatumo y Guio. Cell Genomics (en revisión), 2026 · Tabla 2.
This is the structural response to silent failure. The tiers are not
prescriptive labels; they are calibrated to risk. A skill at research-grade
can be invoked freely for hypothesis generation. The same skill cannot be
invoked for clinical use without external multi-site validation, signed
bundles, and deterministic replay. The next slides ask whether any
currently shippable skill can satisfy clinical-grade. TIMING: 2 min.
La biblioteca de skills a prueba
ClawBio
Una biblioteca de skills nativa para agentes, dedicada a la bioinformática.
Open-source · local-first · reproducible
76
skills
876
estrellas en GitHub
20+
contribuidores
MIT
licencia
pharmgx-reportervariant-annotationclaw-ancestry-pcagwas-prsscrna-orchestratormendelian-randomisationwes-clinical-report-enmethylation-clock+ 68 más
github.com/ClawBio/ClawBio · el artefacto bajo prueba en el benchmark empírico que viene a continuación.
Hero slide. Establish ClawBio as a real, public, open-source artifact
before the benchmark. The 76 skills span pharmacogenomics, variant
annotation, ancestry/PCA, GWAS/PRS, single-cell, multi-omics, MR,
clinical reporting (EN + ES). The benchmark in the next slides tests
ONE skill: pharmgx-reporter. The framework slide above (tiered
validation) is what ClawBio implements; this slide is the bridge
between abstract framework and concrete empirical test. TIMING: 1 min.
Pregunta empírica
¿Puede un SKILL.md en texto plano alcanzar calidad clínica?
Dominio: farmacogenómica. De genotipo a fenotipo a recomendación de fármaco, con la verdad de referencia en las guías CPIC.
Si la especificación no mejora la fiabilidad aquí, donde la guía es fija y las consecuencias se miden clínicamente, es improbable que ayude en dominios menos estructurados.
Una prueba empírica: ¿cierra la especificación esa brecha?
Frame the question crisply: pharmacogenomics is the right test bed
because the guideline is fixed (CPIC) and the stakes are clinically
measurable. If specification does not help here, it does not help
anywhere. Next slide: the experimental design. TIMING: 1 min.
Diseño experimental
26.730 evaluaciones: benchmark factorial de tres brazos
Skill a prueba:pharmgx-reporter · ClawBio v0.5.0 · genotipo → fenotipo → recomendación de fármaco
Modelos: Claude Opus 4, Sonnet 4 · GPT-5.2, GPT-4.1, o3, o4-mini · Gemini 2.5 Flash · DeepSeek V3 · Mistral Large 2.
Population contexts: European (Corpasome family WGS), admixed Latin
American (Peruvian Genome Project, 109 WGS, 7 sub-populations), East
African (Uganda Genome Resource, 6,407 WGS). Curated by Heinner Guio
and Segun Fatumo respectively. The factorial design lets us isolate
each factor: model, gene/test-case, population, treatment, run-to-run
stochasticity. TIMING: 1 min.
Resultado 1 · sin especificación
Los LLM de frontera por sí solos no son de calidad clínica
80,6%
Exactitud media de fenotipo (A1)
62,8%
Peor modelo (Gemini 2.5 Flash)
270
Errores letales A3 (de 1.096 celdas letales)
82,7%
Consistencia perfecta en 3 ejecuciones
Mismo modelo, misma entrada, distintas ejecuciones: deriva estocástica entre repeticiones.
"80% de exactitud" suena bien. En la clase letal, ese promedio significa que aproximadamente 1 de cada 4 pacientes recibe una recomendación potencialmente letal (270 / 1.096 = 24,6%).
Modos de fallo: datos poblacionales fabulados, incumplimiento de formato, mala clasificación del estado metabolizador.
La exactitud media esconde la cola. La cola es lo que daña a los pacientes.
Average accuracy hides the tail. The tail is what gets people hurt. The
consistency rate (82.7 percent) is computed as the fraction of model x
test-case x population combinations where all 3 parsed runs returned an
identical A1 score (2,359 of 2,853 evaluable combinations). Locked
3-of-3 replicate dataset, three-arm benchmark (Cell Genomics 2026, submitted).
TIMING: 1.5 min.
Resultado 1 · vista por modelo
La especificación cierra la brecha en todos los ejes Tier-A
Tres ejes Tier A en 9 modelos: exactitud de fenotipo (A1), recomendación de fármaco (A2) y seguridad clínica de clase letal (A3). Gris = sin especificación, dispersión amplia, barras de error largas (Gemini 2.5 Flash, o3 en recomendación de fármaco). Verde = con especificación ClawBio, mostrado aquí; el mecanismo de consistencia está en la siguiente diapositiva.
The figure makes the variance visible: it is not just that some models
are worse on average; the spread within each model on each axis is
large. The error bars are 95% CIs across 3 runs × 3 populations × 12
cases = 36 trials per model per condition. TIMING: 1 min.
Resultado 2 · con especificación ClawBio
La especificación elimina la variación estocástica
Mismo modelo, misma entrada, misma salida, en todos los ejes Tier-A y todas las poblaciones.
The headline number: stochastic drift drops from 17.3% (494 of 2,853 cells)
under no_spec to 6.2% under CPIC RAG, to 0% (2,970 of 2,970 cells)
under specification. RAG closes most of the consistency gap but does not
eliminate it; only contract execution is deterministic by construction.
Locked 3-of-3 replicate dataset (Cell Genomics 2026, submitted). TIMING: 1.5 min.
Resultado 2 · vista por celda
Heatmap de consistencia por modelo y caso
Cómo leerlo: filas = 9 modelos · columnas = 110 casos CPIC Nivel A · color de celda = % de 3 ejecuciones que devolvieron el fenotipo correcto (verde = 100%, rojo = 0%).
Izquierda sin spec: celdas rojas dispersas, mismo modelo, misma entrada, distintas ejecuciones que no coinciden. Derecha con especificación ClawBio: el rojo desaparece por completo. Cada celda en 9 modelos por 110 casos por 3 poblaciones devuelve el fenotipo correcto en cada ejecución.
Red cells on the left are stochastic (same model, same input, different
runs disagree). With spec they vanish entirely across all 8 models.
TIMING: 1.5 min.
La recuperación de la guía CPIC reduce, no elimina, los errores letales. Sólo la ejecución del contrato los lleva a cero, en cada población.
A3=0 en casos letales DPYD del benchmark de tres brazos (Cell Genomics 2026, enviado). Letalidad según la guía CPIC para DPYD (Henricks et al., Clin Pharmacol Ther 2020; doi:10.1002/cpt.1830).
Honest reframing of the locked 3-arm data. Earlier 2-arm v7 numbers
showed "6 of 7 lethal errors non-European"; the locked dataset shows
DPYD lethal A3 errors are roughly uniformly distributed across EUR/AMR/AFR
(25 / 28 / 24 out of 53 / 54 / 54). The structural story is no longer
"models default to European training data" (the data does not support
that claim on this gene) but "RAG reduces lethal errors by ~66% but
does not eliminate them; only contract execution gets to zero". Spec
is uniformly safe across populations by construction. TIMING: 1.5 min.
Tesis de cierre
Cinco principios para una genómica agéntica responsable
01
La experiencia del dominio es irreducible
02
Validación proporcional a la consecuencia
03
La transparencia no es negociable
04
Skills testables por diseño
05
La equidad hay que diseñarla
TESIS CENTRAL
La genómica agéntica desplaza el cuello de botella de construir pipelines a validar. Una especificación de skill en texto plano cumple dos de los tres requisitos de calidad clínica; la validación externa multicentro es el trabajo pendiente.
Corpas, Fatumo, Guio. Cell Genomics (en revisión), 2026 · Corpas, Iacoangeli, Fatumo, Guio. Briefings in Bioinformatics, en envío 2026.
Close on the central thesis, not on a pitch. Read the principles, then
the closing line. The question is no longer whether agentic genomics will
be adopted; it is whether the field will establish the standards required
to make it trustworthy before it becomes ubiquitous. TIMING: 2 min,
leaving 5 to 7 min Q&A within the 30-min recorded slot.