Por primera vez en la historia, una máquina propuso una hipótesis científica que investigadores humanos descubrieron de forma independiente — al mismo tiempo. No es una metáfora ni un ejercicio de laboratorio controlado. Es lo que ocurrió cuando el AI Co-Scientist de Google, construido sobre Gemini 2.0, fue aplicado al problema de la resistencia antimicrobiana. El sistema llegó en días a una conclusión que a los científicos del Imperial College London les llevó años de trabajo experimental.
Ese momento define algo nuevo: la IA no ya asiste a los científicos. Está comenzando a hacer ciencia.
Qué son AI Co-Scientist y AlphaEvolve
Son dos sistemas distintos pero complementarios lanzados por Google DeepMind en 2025. Ambos usan modelos Gemini como núcleo cognitivo. Ambos operan con bucles autónomos de generación, evaluación y refinamiento. Y ambos están produciendo resultados que eran impensables hace dos años.
AI Co-Scientist es un sistema multi-agente diseñado para ayudar a los científicos a generar hipótesis novedosas, planes de investigación y protocolos experimentales. Los investigadores especifican un objetivo de investigación en lenguaje natural —por ejemplo, entender mejor cómo se propaga un microorganismo causante de enfermedad— y el AI Co-Scientist propone hipótesis comprobables, junto con un resumen de la literatura publicada relevante y un posible enfoque experimental.
AlphaEvolve es un agente de código evolutivo diseñado para descubrir y optimizar algoritmos. Combina las capacidades creativas de resolución de problemas de los modelos Gemini con evaluadores automatizados que verifican las respuestas, y usa un marco evolutivo para mejorar las ideas más prometedoras. Su objetivo no es la hipótesis científica sino el algoritmo óptimo: el código más eficiente posible para un problema dado.
La arquitectura técnica: cómo funciona AI Co-Scientist
Dado un objetivo de investigación especificado en lenguaje natural, el AI Co-Scientist está diseñado para generar hipótesis de investigación novedosas, una descripción detallada de la investigación y protocolos experimentales. Para hacerlo, utiliza una coalición de agentes especializados — Generation, Reflection, Ranking, Evolution, Proximity y Meta-review — inspirados en el método científico mismo. Estos agentes usan retroalimentación automatizada para generar, evaluar y refinar hipótesis de forma iterativa, resultando en un ciclo autoajustable de outputs de calidad e innovación crecientes.
En detalle, cada agente tiene un rol distinto:
- Generation: genera las hipótesis iniciales a partir del objetivo del investigador y la literatura disponible
- Reflection: revisa críticamente las propuestas, identificando debilidades lógicas o vacíos en la evidencia
- Ranking: ordena las hipótesis por calidad mediante un sistema de torneos tipo Elo (el mismo usado en ajedrez competitivo)
- Evolution: toma las mejores hipótesis y las muta para generar versiones mejoradas
- Proximity: elimina ideas duplicadas o demasiado similares para mantener diversidad en el espacio de exploración
- Meta-review: sintetiza los resultados y produce el output final para el científico
El sistema usa un enfoque llamado test-time compute para generar hipótesis, una técnica que permite aumentar la calidad del output de un modelo de IA aumentando el tiempo e infraestructura que invierte en generar respuestas. A más compute invertido en tiempo de inferencia, mejor calidad de las hipótesis generadas.
El proceso completo es un ciclo «generate, debate, and evolve» que replica formalmente la estructura del método científico, pero ejecutado por una coalición de agentes especializados operando en paralelo y de forma asíncrona.
La arquitectura técnica: cómo funciona AlphaEvolve
AlphaEvolve opera sobre un principio diferente: evolución darwiniana aplicada al código.
El usuario define una especificación del problema, la lógica de evaluación (para medir qué tan bien funciona una solución propuesta) y un programa de inicialización semilla. La semilla es un fragmento de código compilable que ya resuelve el problema, aunque de forma subóptima. Los modelos Gemini procesan el contexto y generan versiones mutadas y optimizadas del código que se agregan al «espacio de población». Los algoritmos de evolución seleccionan cuáles de las mutaciones combinar y mutar aún más, priorizándolas como punto de partida para la próxima generación. Los resultados de la evaluación son usados por el ensemble de LLMs para generar el siguiente conjunto de soluciones mejoradas.
AlphaEvolve emplea un ensemble de modelos de lenguaje: una combinación de Gemini 2.0 Flash y Gemini 2.0 Pro. Este enfoque permite balancear el throughput computacional con la calidad de las soluciones generadas. Gemini 2.0 Flash, con su menor latencia, permite una mayor tasa de generación de candidatos, aumentando el número de ideas exploradas por unidad de tiempo. Gemini 2.0 Pro, con mayor capacidad, aporta sugerencias ocasionales de mayor calidad que pueden avanzar significativamente la búsqueda evolutiva.
La clave del sistema es la separación entre generación y verificación: el evaluador es definido por el usuario y mide el rendimiento real del código, no la plausibilidad verbal de la propuesta. Esto reduce drásticamente el riesgo de alucinaciones.
Los resultados que cambian todo: datos concretos
AI Co-Scientist: tres validaciones biomédicas
1. Leucemia mieloide aguda (AML): el AI Co-Scientist propuso candidatos para reposicionamiento de drogas con hallazgos de validación prometedores, incluyendo candidatos para leucemia mieloide aguda que mostraron inhibición tumoral in vitro a concentraciones clínicamente aplicables.
2. Fibrosis hepática: dos de los tres medicamentos recomendados por el AI Co-Scientist que apuntaban a modificadores epigenómicos exhibieron actividad antifibrótica significativa. El sistema fue consultado sobre el rol de cambios epigenómicos en la fibrosis hepática, generó hipótesis testables y las priorizó para validación experimental. Los resultados fueron confirmados en organoides hepáticos humanos, modelos tridimensionales multicelulares que replican la estructura del hígado humano. Fuente del paper: biorxiv.org/content/10.1101/2025.04.29.651320
3. Resistencia antimicrobiana — el resultado más perturbador: el AI Co-Scientist recapituló un descubrimiento no publicado sobre cómo las islas cromosomales inducibles por fagos formadoras de cápsides se propagan entre múltiples especies bacterianas — un mecanismo clave subyacente a la resistencia antimicrobiana. Según el paper de Gottweis et al., este resultado le tomó al sistema un par de días, mientras que el mismo hallazgo emergió de años de trabajo convencional de laboratorio.
En síntesis: en paralelo con investigadores del Imperial College London que trabajaban en el mismo problema, el AI Co-Scientist llegó a la misma hipótesis de forma independiente. No es que la IA encontró algo que los humanos no podían encontrar. Es que lo encontró órdenes de magnitud más rápido.
Paper original (arXiv): arxiv.org/abs/2502.18864 Blog de Google Research: research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist
AlphaEvolve: cinco métricas de impacto real
1. Algoritmo de 56 años superado: AlphaEvolve desarrolló un procedimiento de optimización basado en gradientes que descubrió múltiples nuevos algoritmos para multiplicación de matrices. Una de sus descobiertas mejoró el algoritmo de Strassen de 1969 — el mejor conocido para multiplicar matrices 4×4 de valores complejos usando 48 multiplicaciones escalares, la primera mejora tras 56 años.
2. Optimización de data centers de Google: un algoritmo descubierto por AlphaEvolve lleva más de un año impulsando Borg, el sistema masivo de gestión de clusters de Google, recuperando en promedio 0,7% de los recursos de cómputo globales de Google de forma continua. A escala de Google, eso equivale a millones de dólares en capacidad recuperada diariamente.
3. Aceleración del entrenamiento de Gemini: AlphaEvolve aceleró en 23% un kernel vital en la arquitectura de Gemini, lo que llevó a una reducción del 1% en el tiempo de entrenamiento de Gemini.
4. Diseño de chips TPU: AlphaEvolve propuso una reescritura en Verilog que removió bits innecesarios en un circuito aritmético clave y altamente optimizado para multiplicación de matrices. Esta propuesta fue integrada en un próximo Tensor Processing Unit (TPU), el acelerador de IA personalizado de Google.
5. Problemas matemáticos abiertos: cuando se aplicó a más de 50 problemas abiertos en análisis matemático, geometría, combinatoria y teoría de números, AlphaEvolve redescubrió soluciones de vanguardia en aproximadamente el 75% de los casos. En el 20% de los casos, mejoró las mejores soluciones conocidas.
Paper técnico (arXiv): arxiv.org/abs/2506.13131 Blog de Google DeepMind: deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms
El ecosistema más amplio: Genesis Mission y los 17 laboratorios nacionales
El impacto de estas herramientas no es solo académico. Google DeepMind proveerá un programa de acceso acelerado para científicos de los 17 Laboratorios Nacionales del Departamento de Energía de EE.UU. a sus modelos de IA de frontera y herramientas agénticas para ciencia. El AI Co-Scientist es un colaborador virtual multi-agente construido sobre Gemini, diseñado para ayudar a los científicos a sintetizar grandes cantidades de información para generar hipótesis y propuestas de investigación novedosas, acelerando el ritmo de descubrimientos científicos y biomédicos.
La Casa Blanca encuadra esto bajo la Genesis Mission: el objetivo de duplicar la productividad científica de Estados Unidos dentro de la década mediante IA. El AI Co-Scientist puede acelerar el desarrollo de hipótesis de años a días.
Cómo hacer una prueba: guía práctica para acceder hoy
AI Co-Scientist
Estado actual: disponible en acceso temprano a través del Trusted Tester Program de Google.
Cómo solicitar acceso:
- Ir a la página oficial: research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist
- Completar el formulario de acceso al Trusted Tester Program
- El sistema da prioridad a investigadores en biomedicina, química y ciencias de la vida
Qué necesitás para probar el sistema:
- Una cuenta de Google Workspace o institucional
- Un objetivo de investigación claro expresado en lenguaje natural (ejemplo: «entender por qué X bacteria desarrolla resistencia a Y antibiótico»)
- Acceso a literatura científica relevante para que el sistema la indexe
- Disposición a validar las hipótesis generadas con un experto de dominio
Flujo de interacción básico:
- Especificás tu objetivo de investigación en lenguaje natural
- El sistema genera un plan de investigación inicial con hipótesis ordenadas por relevancia
- Podés iterar: rechazar hipótesis débiles, pedir profundización en una específica, solicitar protocolos experimentales
- El sistema mejora sus propuestas en cada iteración mediante el bucle de torneo Elo
AlphaEvolve
Estado actual: disponible en private preview en Google Cloud para empresas, con acceso temprano para investigadores académicos.
Cómo solicitar acceso académico:
Qué necesitás para correr AlphaEvolve:
- Un problema de optimización cuya solución pueda expresarse como código ejecutable
- Una función de evaluación que mide el rendimiento (runtime, uso de memoria, precisión numérica, o métricas de dominio específico)
- Un programa semilla que ya resuelve el problema, aunque subóptimamente
- Acceso a la API de AlphaEvolve en Google Cloud (en preview)
Ejemplo de problema apto para AlphaEvolve: Tenés un algoritmo de ruteo logístico que tarda 200ms por consulta. Definís tu función evaluadora como «minimizar tiempo de ejecución manteniendo precisión >99%». AlphaEvolve genera variantes del código, las evalúa automáticamente y evoluciona las mejores hacia versiones cada vez más eficientes.
Herramientas alternativas de acceso abierto para experimentar con el paradigma:
- FunSearch (Google DeepMind, open source): el predecesor de AlphaEvolve, disponible públicamente en github.com/google-deepmind/funsearch. Genera funciones en Python para resolver problemas de búsqueda combinatoria.
- OpenHands / SWE-agent: frameworks open source para agentes de código con capacidades similares a menor escala.
- LangGraph + Gemini API: podés construir un pipeline multi-agente propio que replica la lógica de «generate, reflect, rank» del AI Co-Scientist usando la API pública de Gemini y LangGraph como orquestador.
Qué distingue este paradigma de los LLMs convencionales
La diferencia no es solo cuantitativa. Es arquitectónica.
Un LLM convencional recibe un prompt y genera una respuesta en un solo paso. No verifica su propia respuesta. No itera. No tiene memoria de sus errores anteriores. No compite sus propias hipótesis entre sí.
El AI Co-Scientist y AlphaEvolve operan en bucles: generan, evalúan, seleccionan, mutan, evalúan de nuevo. Gemini Deep Think actúa como «multiplicador de fuerza» del intelecto humano, manejando la recuperación de conocimiento y la verificación rigurosa para que los científicos puedan enfocarse en la profundidad conceptual y la dirección creativa.
La evaluación automatizada es clave. En AlphaEvolve, el código que no funciona mejor es simplemente descartado por el evaluador, sin que ningún humano tenga que revisarlo. En AI Co-Scientist, las hipótesis compiten en torneos donde son juzgadas por criterios formalizados de novedad, plausibilidad y relevancia experimental.
Esto convierte a la IA de un oráculo que responde preguntas en un sistema que formula preguntas, las testea y descarta las malas sin intervención humana.
Las implicancias y los límites honestos
Ninguno de estos sistemas opera en el vacío ni reemplaza al científico. AI Co-Scientist es una herramienta colaborativa para ayudar a los expertos a reunir investigación y refinar su trabajo — no está diseñada para automatizar el proceso científico.
Los límites reales son tres:
Validación experimental sigue siendo humana. El sistema genera hipótesis; los laboratorios las prueban. La brecha entre propuesta in silico y confirmación in vivo sigue siendo trabajo científico duro. AlphaEvolve reduce el espacio de búsqueda; no elimina la necesidad de ingenieros que entiendan los resultados.
Dependencia de la calidad del input. El AI Co-Scientist es tan bueno como la literatura científica que procesa y la claridad del objetivo que el investigador especifica. Objetivos vagos producen hipótesis vagas.
Riesgos de sesgos en la literatura. Si la IA es entrenada sobre literatura con sesgos de publicación (donde los resultados negativos no se publican), sus hipótesis heredarán esos sesgos.
Conclusión
El AI Co-Scientist y AlphaEvolve no son herramientas de productividad. Son una nueva clase de agente científico que opera dentro del método científico, no solo alrededor de él. Estas herramientas abren la puerta a un futuro donde cada científico en un laboratorio tiene un equipo de asistentes de IA investigando simultáneamente miles de soluciones potenciales a los desafíos que motivan su trabajo.
El algoritmo de Strassen resistió 56 años sin mejoras. La resistencia antimicrobiana tardó años en ser elucidada en el laboratorio. La fibrosis hepática no tenía blancos terapéuticos evidentes. En los tres casos, un agente que genera, evalúa y refina sin descanso llegó más lejos, más rápido.
La pregunta ya no es si la IA puede hacer ciencia. Es cómo vamos a integrar estos sistemas en la práctica científica sin perder el escepticismo, la verificación rigurosa y el juicio experto que hacen confiable al conocimiento científico.
Fuentes y recursos esenciales
Papers originales:
Blogs oficiales de Google:
Genesis Mission y Laboratorios Nacionales:
Acceso y pruebas:
Análisis y cobertura: