El Futuro de la Biología
es Agéntico

De la orquestación a la validación: bibliotecas de skills nativas para agentes como camino hacia una IA genómica de calidad clínica
Manuel Corpas
Senior Lecturer in Genomics, AI, and Data Science
University of Westminster
Versión en castellano · LatinOMICS y foros académicos en español
Two papers underpin this talk. First, a Perspective in revision at Cell Genomics with Segun Fatumo and Heinner Guio defining what agentic genomics is, what it is not, and the validation framework we propose. Second, an empirical benchmark with Alfredo Iacoangeli, Fatumo, and Guio, in submission to Briefings in Bioinformatics, that tests whether the framework actually delivers on clinical-grade pharmacogenomics. TIMING: 1 min.

Dos olas de LLM en biología

PRIMERA OLA Recuperación de información · chat · resúmenes uso de herramientas, ejecución de código SEGUNDA OLA Ejecución autónoma · planificación multietapa Cuello de botella: producir código validación y juicio investigador: productor → evaluador

Primera ola: recuperación de información

  • Resumir artículos, responder preguntas sobre rutas metabólicas, extraer datos estructurados de texto.
  • Útil, pero incremental.

Segunda ola: ejecución autónoma

  • Los LLM modernos escriben, depuran y ejecutan código.
  • Conectados a sistemas de archivos, bases de datos y herramientas de línea de comandos, planifican operaciones de varios pasos y se adaptan a los resultados intermedios.
  • El papel del investigador pasa de producir análisis a evaluarlos.

Corpas, Fatumo, Guio. Agentic Genomics: From Pipeline Automation to Autonomous Validation. Cell Genomics (en revisión), 2026.

The point I want to plant: this is not a chatbot story. The interesting thing is autonomous tool use with consequence. Once the model is acting, the rate-limiting step shifts. TIMING: 1.5 min.

Definición de genómica agéntica

GENÓMICA AGÉNTICA 1. Autonomía Decisiones en tiempo de ejecución, no un flujo de trabajo estático. 2. Restricción al dominio Biblioteca estructurada de skills validados, no código ad hoc. 3. Refinamiento iterativo Evalúa resultados intermedios, se recupera de errores. 4. Mediación en lenguaje natural El investigador describe la intención; el agente la traduce a ejecución.

Conjuntamente necesarias. Falsables con el test de perturbación: un agente que ignora salidas intermedias perturbadas no es agéntico.

Full definition (delivered verbally): "The use of autonomous AI agents, powered by large language models and operating within domain-constrained skill libraries, to discover, plan, execute, and iteratively refine multi-step genomic analyses, where the agent exercises runtime decision-making over tool selection, parameterisation, error handling, and output evaluation." These four conditions are deliberately strict. They exclude workflow automation (Nextflow, Snakemake, Galaxy, no runtime decisions). They exclude AutoML (search within a fixed space). They exclude LLM-assisted scripting (you execute, not the agent). And they exclude general-purpose biomedical copilots (information retrieval, no multi-step execution against real data). TIMING: 2 min.

El cambio de paradigma: de producir código a validar

Figure 1: Traditional vs Agentic Workflow

(A) Flujo tradicional. El investigador escribe el código, configura las herramientas, lanza el pipeline e interpreta los resultados. El cuello de botella es producir código.   (B) Flujo agéntico. El investigador describe la intención en lenguaje natural; un agente de IA descubre y ejecuta skills de una biblioteca modular; el investigador valida los resultados. El cuello de botella se desplaza a la validación y el juicio.

This is the central diagram of the Cell Genomics Perspective (in revision). The skills shown in panel B are real ClawBio skills: pharmacogenomics, variant annotation, ancestry estimation, drug safety, genome QC, PRS calculation, nutri-genomics, structural variants. Same audience question for the rest of the talk: what does it take to make panel B trustworthy? TIMING: 1.5 min.

El cuello de botella de validación: fallo silencioso con apariencia plausible

Los agentes de IA producen resultados más rápido de lo que un humano puede verificarlos.

AUTOBA

Pipelines que omitían pasos críticos; herramienta incorrecta para el tipo de dato.

Zhou et al., Adv. Sci. 2024.

SINGLE-CELL AGENTS

Diseños experimentales incompletos; recomendaciones inconsistentes para consultas idénticas.

Zhou et al., Brief. Bioinform. 2025.

BOIKO ET AL. · NATURE 2023

Protocolos sintácticamente correctos, científicamente inválidos, que pasan controles básicos de ejecución.

Boiko et al., Nature 624, 570–578 (2023).

CLAWBIO EARLY AUDIT

Un skill devolvió silenciosamente "todo normal" para 51 fármacos sobre un fichero de entrada vacío.

Auditoría independiente (S. Kornilov, clawbio_bench); ClawBio v0.5.0, Zenodo 2026.

Degradación silenciosa hacia resultados plausibles pero incorrectos.

Each of these is from an independently developed system. The convergence is the point: this is structural, not a one-off bug. The 51-drug ClawBio incident is mine, surfaced by a community auditor. We discovered it because the platform is open. That's an argument for transparency. TIMING: 2 min.

Un framework de validación por niveles

Calidad investigación Exploración de hipótesis Tests unitarios, todas las salidas revisadas Benchmarked Análisis publicables Referencias públicas (GIAB), métricas publicadas Calidad clínica Atención al paciente, informes diagnósticos Validación externa multicentro, paquetes firmados, CLIA/CAP Rigor de validación, consecuencia del error →

Calidad investigación

  • Exploración de hipótesis
  • Tests unitarios, entradas adversarias
  • Todas las salidas revisadas
  • Falsos positivos tolerables

Benchmarked

  • Análisis publicables
  • Referencias públicas (GIAB, scRNA-seq)
  • Benchmarking independiente
  • Métricas y modos de fallo publicados

Calidad clínica

  • Atención al paciente, informes diagnósticos
  • Validación externa multicentro
  • Alineamiento con FDA/EMA
  • Paquetes de reproducibilidad firmados
  • Cumplimiento CLIA/CAP

Validación proporcional a la consecuencia. Las plataformas de agentes deben hacer cumplir los límites entre niveles y exponer replay determinista: la secuencia de decisiones registrada debe ser exactamente reproducible.

Corpas, Fatumo y Guio. Cell Genomics (en revisión), 2026 · Tabla 2.

This is the structural response to silent failure. The tiers are not prescriptive labels; they are calibrated to risk. A skill at research-grade can be invoked freely for hypothesis generation. The same skill cannot be invoked for clinical use without external multi-site validation, signed bundles, and deterministic replay. The next slides ask whether any currently shippable skill can satisfy clinical-grade. TIMING: 2 min.

ClawBio

Una biblioteca de skills nativa para agentes, dedicada a la bioinformática.

Open-source · local-first · reproducible

76
skills
876
estrellas en GitHub
20+
contribuidores
MIT
licencia
pharmgx-reporter variant-annotation claw-ancestry-pca gwas-prs scrna-orchestrator mendelian-randomisation wes-clinical-report-en methylation-clock + 68 más

github.com/ClawBio/ClawBio · el artefacto bajo prueba en el benchmark empírico que viene a continuación.

Hero slide. Establish ClawBio as a real, public, open-source artifact before the benchmark. The 76 skills span pharmacogenomics, variant annotation, ancestry/PCA, GWAS/PRS, single-cell, multi-omics, MR, clinical reporting (EN + ES). The benchmark in the next slides tests ONE skill: pharmgx-reporter. The framework slide above (tiered validation) is what ClawBio implements; this slide is the bridge between abstract framework and concrete empirical test. TIMING: 1 min.

¿Puede un SKILL.md en texto plano alcanzar calidad clínica?

Una prueba empírica: ¿cierra la especificación esa brecha?

Frame the question crisply: pharmacogenomics is the right test bed because the guideline is fixed (CPIC) and the stakes are clinically measurable. If specification does not help here, it does not help anywhere. Next slide: the experimental design. TIMING: 1 min.

26.730 evaluaciones: benchmark factorial de tres brazos

9 LLM de frontera 5 proveedores × 110 casos CPIC Nivel A 21 marcadores · 35 pares gen-fármaco × 3 poblaciones EUR / AMR / AFR × 3 condiciones sin spec / RAG / con spec × 3 ejecuciones independientes test estocástico = 26.730 total evaluaciones DISEÑO FACTORIAL DE TRES BRAZOS Sin spec (prompt libre) · RAG (chunks CPIC recuperados) · con spec (SKILL.md ClawBio como contrato).

Skill a prueba: pharmgx-reporter · ClawBio v0.5.0 · genotipo → fenotipo → recomendación de fármaco

Modelos: Claude Opus 4, Sonnet 4 · GPT-5.2, GPT-4.1, o3, o4-mini · Gemini 2.5 Flash · DeepSeek V3 · Mistral Large 2.

Population contexts: European (Corpasome family WGS), admixed Latin American (Peruvian Genome Project, 109 WGS, 7 sub-populations), East African (Uganda Genome Resource, 6,407 WGS). Curated by Heinner Guio and Segun Fatumo respectively. The factorial design lets us isolate each factor: model, gene/test-case, population, treatment, run-to-run stochasticity. TIMING: 1 min.

Los LLM de frontera por sí solos no son de calidad clínica

80,6%
Exactitud media
de fenotipo (A1)
62,8%
Peor modelo
(Gemini 2.5 Flash)
270
Errores letales A3
(de 1.096 celdas letales)
82,7%
Consistencia perfecta
en 3 ejecuciones

La exactitud media esconde la cola. La cola es lo que daña a los pacientes.

Average accuracy hides the tail. The tail is what gets people hurt. The consistency rate (82.7 percent) is computed as the fraction of model x test-case x population combinations where all 3 parsed runs returned an identical A1 score (2,359 of 2,853 evaluable combinations). Locked 3-of-3 replicate dataset, three-arm benchmark (Cell Genomics 2026, submitted). TIMING: 1.5 min.

La especificación cierra la brecha en todos los ejes Tier-A

Figure 2: Tier A clinical correctness, with vs without ClawBio specification

Tres ejes Tier A en 9 modelos: exactitud de fenotipo (A1), recomendación de fármaco (A2) y seguridad clínica de clase letal (A3). Gris = sin especificación, dispersión amplia, barras de error largas (Gemini 2.5 Flash, o3 en recomendación de fármaco). Verde = con especificación ClawBio, mostrado aquí; el mecanismo de consistencia está en la siguiente diapositiva.

The figure makes the variance visible: it is not just that some models are worse on average; the spread within each model on each axis is large. The error bars are 95% CIs across 3 runs × 3 populations × 12 cases = 36 trials per model per condition. TIMING: 1 min.

La especificación elimina la variación estocástica

SIN ESPECIFICACIÓN 82,7% consistencia 3 de 3 2.359 / 2.853 celdas RAG RAG (CPIC) 93,8% consistencia 3 de 3 2.676 / 2.853 celdas SKILL.md CON ESPECIFICACIÓN 100% en los 9 modelos 2.970 / 2.970 celdas MISMO MODELO · MISMA ENTRADA · MISMA SALIDA Evaluable = celdas (modelo, caso, población) con ≥2 de 3 ejecuciones parseables.

Mismo modelo, misma entrada, misma salida, en todos los ejes Tier-A y todas las poblaciones.

The headline number: stochastic drift drops from 17.3% (494 of 2,853 cells) under no_spec to 6.2% under CPIC RAG, to 0% (2,970 of 2,970 cells) under specification. RAG closes most of the consistency gap but does not eliminate it; only contract execution is deterministic by construction. Locked 3-of-3 replicate dataset (Cell Genomics 2026, submitted). TIMING: 1.5 min.

Heatmap de consistencia por modelo y caso

Cómo leerlo: filas = 9 modelos · columnas = 110 casos CPIC Nivel A · color de celda = % de 3 ejecuciones que devolvieron el fenotipo correcto (verde = 100%, rojo = 0%).

Figure: Consistency heatmap, no_spec vs with_spec

Izquierda sin spec: celdas rojas dispersas, mismo modelo, misma entrada, distintas ejecuciones que no coinciden. Derecha con especificación ClawBio: el rojo desaparece por completo. Cada celda en 9 modelos por 110 casos por 3 poblaciones devuelve el fenotipo correcto en cada ejecución.

Red cells on the left are stochastic (same model, same input, different runs disagree). With spec they vanish entirely across all 8 models. TIMING: 1.5 min.

Errores letales DPYD: 77260

Casos letales DPYD (fluorouracilo, capecitabina) · 9 modelos · 3 ejecuciones · 3 poblaciones

SIN ESPECIFICACIÓN prompt libre · sin contexto guía 77 errores letales / 161 RAG (CPIC) chunks de la guía recuperados 26 errores letales / 162 CON ESPECIFICACIÓN SKILL.md como contrato 0 errores letales / 162 SIN SPEC POR POBLACIÓN EUR 25 / 53 AMR 28 / 54 AFR 24 / 54 distribución uniforme ERRORES LETALES DE CLASE A3 EN CASOS DPYD RAG reduce un 66% · la especificación elimina el 100%

La recuperación de la guía CPIC reduce, no elimina, los errores letales. Sólo la ejecución del contrato los lleva a cero, en cada población.

A3=0 en casos letales DPYD del benchmark de tres brazos (Cell Genomics 2026, enviado). Letalidad según la guía CPIC para DPYD (Henricks et al., Clin Pharmacol Ther 2020; doi:10.1002/cpt.1830).

Honest reframing of the locked 3-arm data. Earlier 2-arm v7 numbers showed "6 of 7 lethal errors non-European"; the locked dataset shows DPYD lethal A3 errors are roughly uniformly distributed across EUR/AMR/AFR (25 / 28 / 24 out of 53 / 54 / 54). The structural story is no longer "models default to European training data" (the data does not support that claim on this gene) but "RAG reduces lethal errors by ~66% but does not eliminate them; only contract execution gets to zero". Spec is uniformly safe across populations by construction. TIMING: 1.5 min.

Cinco principios para una genómica agéntica responsable

01
La experiencia del dominio es irreducible
02
Validación proporcional a la consecuencia
03
La transparencia no es negociable
04
Skills testables por diseño
05
La equidad hay que diseñarla
TESIS CENTRAL

La genómica agéntica desplaza el cuello de botella de construir pipelines a validar. Una especificación de skill en texto plano cumple dos de los tres requisitos de calidad clínica; la validación externa multicentro es el trabajo pendiente.

Corpas, Fatumo, Guio. Cell Genomics (en revisión), 2026 · Corpas, Iacoangeli, Fatumo, Guio. Briefings in Bioinformatics, en envío 2026.

Close on the central thesis, not on a pitch. Read the principles, then the closing line. The question is no longer whether agentic genomics will be adopted; it is whether the field will establish the standards required to make it trustworthy before it becomes ubiquitous. TIMING: 2 min, leaving 5 to 7 min Q&A within the 30-min recorded slot.
1 / 15
manuelcorpas · versión castellano · LatinOMICS