Connect with us

Publicado

on


Un estudiante universitario de 20 años construyó en 10 días el sistema de simulación multi-agente que llegó al número 1 de GitHub global, recibió una inversión de 4,1 millones de dólares en menos de 24 horas y ya se usa para predecir mercados, opinión pública y hasta el final perdido de clásicos literarios

Hay proyectos que aparecen de la nada y reordenan lo que uno creía posible. MiroFish es uno de ellos. En marzo de 2026, un repositorio de GitHub escrito principalmente en Python trepó al primer puesto del ranking global de tendencias de la plataforma, superando en visibilidad a proyectos de OpenAI, Google y Microsoft. Su autor: Guo Hangjiang, un estudiante de último año de la Universidad de Posts y Telecomunicaciones de Beijing, conocido en la comunidad de desarrolladores bajo el apodo «BaiFu». El tiempo que tardó en construirlo: diez días.

Lo que hace MiroFish no tiene precedente directo en el software de código abierto disponible hasta ese momento: toma un documento del mundo real —una nota periodística, un informe financiero, un borrador de política pública, incluso una novela— y construye a partir de él un mundo digital paralelo habitado por miles de agentes de inteligencia artificial, cada uno con su propia personalidad, su memoria individual, sus relaciones sociales y su lógica de comportamiento. Esos agentes interactúan libremente entre sí, discuten, se influyen, cambian de posición, forman coaliciones. Lo que emerge de esa interacción es una predicción: una distribución de futuros posibles basada no en estadísticas sino en la dinámica social simulada.

La idea central es tan simple como revolucionaria. En lugar de aplicar un modelo estadístico a datos históricos y obtener una probabilidad, MiroFish construye una versión en miniatura del sistema social relevante y lo hace correr hacia adelante a velocidad acelerada. No predice el futuro extrapolando números. Simula cómo se comportaría la gente.


El origen: de BettaFish a MiroFish

La historia de MiroFish no empieza con MiroFish. Empieza con BettaFish, un proyecto anterior de Guo Hangjiang que también llegó al primer puesto de GitHub trending en su momento. BettaFish era una herramienta de análisis de opinión pública basada en múltiples agentes: miraba hacia atrás, analizaba cómo había evolucionado el sentimiento sobre un tema. El sistema era capaz de romper la «burbuja de información» y reconstruir el panorama real de una discusión pública.

Fue BettaFish lo que llamó la atención de Chen Tianqiao, fundador del Shanda Group, uno de los primeros gigantes de internet chino que en su pico de 2004 era la empresa de internet más valiosa del país por capitalización de mercado. Chen había pasado años estudiando lo que él llama la era del «super-individuo»: la idea de que en el tiempo de la inteligencia artificial, una sola persona puede hacer lo que antes requería una empresa entera. Vio en Guo Hangjiang exactamente eso.

Lo que impresionó a Chen no fue tanto la sofisticación técnica de BettaFish como algo más difícil de cuantificar: la capacidad del estudiante para identificar un problema genuinamente valioso y abordarlo con métodos nuevos basados en IA. Chen invitó a Guo a hacer una pasantía en Shanda, con libertad total para trabajar en lo que quisiera.

Lo que Guo quería era llevar BettaFish un paso más allá. Si BettaFish miraba al pasado, lo que faltaba era un sistema que mirara al futuro. Así nació la idea de MiroFish. Mientras el pez betta analiza lo que ya ocurrió, el pez koi o miro simula lo que ocurrirá.

Diez días después, con el método de desarrollo que llama «vibe coding» —rápido, intuitivo, asistido por herramientas de IA, sin sobrediseño—, el sistema funcionaba. Esa misma noche, Guo grabó un video de demostración, más bien tosco, y se lo envió directamente a Chen Tianqiao. En menos de 24 horas, Chen había tomado la decisión: Shanda Group invertiría 30 millones de yuanes, aproximadamente 4,1 millones de dólares, para incubar el proyecto en profundidad. Guo pasó de ser un pasante a ser CEO de la noche a la mañana.

El proyecto se publicó en GitHub el 7 de marzo de 2026. En días acumuló 18.000 estrellas y más de 1.900 forks. Para mediados de abril ya superaba las 53.000 estrellas y seguía creciendo.

Fuente: https://eu.36kr.com/en/p/3720728841763465 Fuente: https://www.panewslab.com/en/articles/019cf53a-ca7c-7159-9fbc-40859cdfa108


Qué es exactamente MiroFish

MiroFish se define a sí mismo en su documentación oficial como «un motor de inteligencia de enjambre simple y universal capaz de predecir cualquier cosa». La descripción suena grandilocuente hasta que se entiende el mecanismo.

El sistema es un motor de predicción de nueva generación basado en tecnología multi-agente. A partir de información semilla extraída del mundo real —noticias de último momento, borradores de políticas, señales financieras— construye automáticamente un mundo digital paralelo de alta fidelidad. En ese espacio, miles de agentes inteligentes con personalidades independientes, memoria a largo plazo y lógica de comportamiento interactúan libremente y experimentan una evolución social. El usuario puede inyectar variables dinámicamente desde una «vista de dios» para deducir con precisión trayectorias futuras: ensayar el futuro en una caja de arena digital, y tomar decisiones después de incontables simulaciones.

La operación básica es sorprendentemente accesible: el usuario sube un documento de origen y describe en lenguaje natural qué quiere predecir. MiroFish devuelve un informe de predicción detallado y un mundo digital interactivo de alta fidelidad con el que puede seguir experimentando.

A nivel macro, MiroFish funciona como un laboratorio de ensayo para tomadores de decisiones: permite probar políticas y estrategias de comunicación sin riesgo. A nivel micro, es una caja de arena creativa para usuarios individuales, ya sea para deducir finales de novelas o explorar escenarios imaginativos.

Fuente: https://github.com/666ghj/MiroFish Fuente: https://mirofish.ink/


La arquitectura técnica: cómo funciona el sistema

Entender MiroFish requiere entender sus cinco componentes arquitectónicos fundamentales. El sistema no es un invento de una sola pieza: es una integración inteligente de tecnologías que ya existían por separado, ensambladas de una manera que produce algo cualitativamente nuevo.

1. La capa de ingestión: GraphRAG y el grafo de conocimiento

Todo comienza con lo que MiroFish llama «material semilla». Puede ser cualquier cosa: un artículo periodístico, un informe de análisis financiero, un borrador de ley, un comunicado de prensa, incluso los primeros capítulos de una novela. El sistema acepta cualquier texto estructurado que describa un escenario.

Ese material semilla es procesado por GraphRAG, una tecnología de generación aumentada por recuperación optimizada para datos estructurados. A diferencia del RAG convencional, que trabaja con texto plano, GraphRAG extrae entidades —personas, organizaciones, eventos, conceptos— y las relaciones entre ellas para construir un grafo de conocimiento. Este grafo no es una lista plana de hechos: es una representación estructurada de la realidad relevante para la predicción, con múltiples niveles de resumen (global, local, por motivos) que reducen los requisitos de ventana de contexto y permiten escalar a grafos de más de 100.000 nodos.

El grafo de conocimiento cumple una función crítica: ancla el comportamiento de los agentes a la realidad. Una de las principales críticas a los sistemas de simulación basados en lenguajes de gran escala (LLM) es que los agentes tienden a «derivar» narrativamente: inventan relaciones, fabrican eventos, se alejan del escenario original. MiroFish previene esto haciendo que los agentes operen dentro del grafo de conocimiento, no fuera de él. Los agentes no inventan relaciones ficticias; operan dentro de un mapa que refleja las entidades, relaciones y presiones reales de los datos de entrada.

Este es el insight arquitectónico central de MiroFish: la emergencia debe estar anclada a la realidad.

2. La generación de agentes: personalidades, historias y lógica de comportamiento

A partir del grafo de conocimiento, MiroFish genera automáticamente miles de personas —perfiles de agentes. Cada agente recibe un perfil único que incluye:

  • Una personalidad distinta (con rasgos como apertura, escrupulosidad, extraversión, amabilidad, neuroticismo en espectros variables)
  • Una historia de fondo coherente con el contexto del grafo
  • Una posición inicial sobre el tema a simular
  • Un conjunto de relaciones sociales con otros agentes
  • Una lógica de comportamiento y toma de decisiones propia

Algunos agentes son aversos al riesgo. Otros son contrarios al consenso. Algunos siguen el sentimiento de la mayoría; otros actúan sobre información incompleta. Hay agentes influyentes y agentes pasivos, líderes de opinión y seguidores. La diversidad es deliberada: espeja la heterogeneidad real de cualquier sistema social.

Un agente de configuración del entorno lee el grafo completo y establece los parámetros de la simulación: qué personas existen, cómo es el entorno social, cuáles son las condiciones iniciales.

3. La memoria persistente: Zep Cloud

Uno de los problemas clásicos de las simulaciones multi-agente con LLM es la falta de memoria persistente. Si cada ronda de interacción comienza desde cero, los agentes no pueden recordar lo que ocurrió antes, no pueden evolucionar, no pueden cambiar de posición en función de experiencias pasadas.

MiroFish resuelve esto con Zep Cloud como sistema de memoria a largo plazo para cada agente. Zep actúa como la fuente de verdad para el estado de cada agente y permite que estos recuerden rondas anteriores, actualicen sus posiciones en función de lo vivido, y ajusten su comportamiento de manera coherente. Esta es la capa que hace posible que una simulación de múltiples rondas produzca trayectorias temporales auténticas en lugar de repeticiones del mismo estado inicial.

La arquitectura de memoria también soporta ejecución distribuida: los agentes pueden moverse entre máquinas y reanudar desde Zep sin perder historia. Esto es lo que permite escalar a decenas de miles de agentes en hardware estándar.

4. El motor de simulación: OASIS y la arquitectura dual de plataformas

El núcleo de la simulación está alimentado por OASIS (Open Agent Social Interaction Simulations), un framework de simulación de agentes sociales de código abierto desarrollado por la comunidad de investigación de CAMEL-AI y publicado en investigación revisada por pares. OASIS puede escalar hasta un millón de agentes con 23 tipos distintos de acciones sociales: seguir, comentar, repostear, dar like, silenciar, buscar, y más.

OASIS maneja la lógica del entorno, los sistemas de recomendación, el motor temporal que activa agentes según horarios, y la capa de inferencia escalable que distribuye las llamadas a LLM entre GPUs. Los agentes ejecutan bucles de comportamiento asíncronos con comunicación dirigida por eventos y gestión de estado distribuido.

MiroFish corre las simulaciones en dos plataformas paralelas simultáneamente:

Plataforma A (tipo Twitter): publicaciones cortas de hasta 280 caracteres, mecánicas virales (retweets, citas, tendencias), alta velocidad, baja profundidad. Óptima para cascadas rápidas de sentimiento.

Plataforma B (tipo Reddit): discusiones en hilos, votación (upvote/downvote), moderación comunitaria, menor velocidad, mayor profundidad. Óptima para debates razonados y formación de facciones.

La polinización cruzada entre plataformas es una característica deliberada del diseño: los agentes pueden repostear contenido de la Plataforma B a la A y viceversa, creando puentes entre comunidades y modelando dinámicas transversales que no existirían en una sola plataforma.

5. El agente de reportes: síntesis e interacción profunda

Una vez concluida la simulación, un agente dedicado —el ReportAgent— analiza los resultados emergentes y produce un informe de predicción estructurado y legible. Este informe no es simplemente un resumen estadístico: combina lo que la población de agentes alcanzó colectivamente con análisis cualitativos de las trayectorias de opinión, las facciones formadas, los puntos de inflexión identificados y los escenarios alternativos posibles.

Pero el sistema no termina ahí. MiroFish permite al usuario interactuar directamente con cualquier agente de la simulación, hacerle preguntas, explorar su razonamiento, entender por qué tomó las decisiones que tomó. También permite interactuar con el ReportAgent para profundizar en aspectos específicos del análisis o explorar escenarios alternativos.

El stack tecnológico completo: Python y FastAPI en el backend, Vue.js en el frontend, OASIS de CAMEL-AI como motor de simulación, GraphRAG para la construcción del grafo de conocimiento, Zep Cloud para la memoria persistente de agentes, y compatibilidad con cualquier LLM que soporte el SDK de OpenAI (Claude, Llama, modelos fine-tuned propios). Licencia: AGPL-3.0. Soporta despliegue con Docker.

Fuente: https://medium.com/@balajibal/mirofish-multi-agent-swarm-intelligence-for-predictive-simulation-09771e60b188 Fuente: https://dev.to/arshtechpro/mirofish-the-open-source-ai-engine-that-builds-digital-worlds-to-predict-the-future-ki8 Fuente: https://emelia.io/hub/mirofish-ai-swarm-prediction Fuente: https://flowtivity.ai/blog/agentic-swarms-mirofish-guide/ Fuente: https://github.com/666ghj/MiroFish/blob/main/README.md


El pipeline completo: de un documento a una predicción

El flujo de trabajo de MiroFish sigue cinco etapas claramente definidas:

Etapa 1 — Construcción del grafo: el documento semilla es procesado por GraphRAG. El sistema extrae entidades y relaciones, inyecta memoria individual y colectiva, y construye el grafo de conocimiento que servirá de base para toda la simulación.

Etapa 2 — Configuración del entorno: a partir del grafo, el sistema genera las personas de los agentes y configura los parámetros de simulación. Un agente de configuración del entorno establece las reglas de interacción, la estructura social y las condiciones iniciales.

Etapa 3 — Simulación: la simulación corre en paralelo en las dos plataformas. Los agentes interactúan, publican, comentan, cambian de posición. El sistema actualiza automáticamente las memorias temporales de cada agente a medida que avanzan las rondas. El usuario puede inyectar variables desde la «vista de dios» en cualquier momento.

Etapa 4 — Generación del informe: el ReportAgent analiza los resultados emergentes y produce el informe de predicción. Tiene acceso a un conjunto rico de herramientas para interactuar con el entorno post-simulación.

Etapa 5 — Interacción profunda: el usuario puede conversar con cualquier agente del mundo simulado o con el ReportAgent para explorar el análisis en mayor profundidad.

Fuente: https://www.blocmates.com/articles/what-is-mirofish-the-agent-engine-that-can-predict-anything-and-everything


Cómo instalar y correr MiroFish

MiroFish está disponible de manera gratuita y abierta en GitHub. Los requisitos del sistema son accesibles para cualquier desarrollador con experiencia básica:

  • Python 3.11 o 3.12
  • Node.js 18 o superior
  • uv (gestor de paquetes de Python)
  • Una API key de cualquier LLM compatible con el SDK de OpenAI
  • Una cuenta de Zep Cloud (para la memoria persistente de agentes)

La instalación básica sigue este flujo:

git clone https://github.com/666ghj/MiroFish
cd MiroFish
cp .env.example .env
# Editar .env con las API keys necesarias
docker compose up -d

Una vez corriendo, la interfaz web está disponible en http://localhost:3000. El usuario sube el documento semilla, describe su pregunta de predicción en lenguaje natural, y el sistema hace el resto.

Para simulaciones pequeñas (20 a 50 agentes), el sistema puede correr en instancias de nube estándar sin requisitos de hardware especiales. A mayor escala (miles de agentes), se necesita gestión eficiente de memoria y contexto. El proyecto recomienda limitar las simulaciones a menos de 40 rondas para mantener los costos de API bajo control.

Para quienes prefieren una versión completamente local sin dependencias de nube, existe MiroFish-Offline, un fork de la comunidad que reemplaza Zep Cloud por Neo4j y usa Ollama para correr LLMs locales (se recomienda qwen2.5:32b). Este fork está disponible en:

https://github.com/nikmcfly/MiroFish-Offline

Para usuarios que quieren trabajar directamente desde la línea de comandos y con soporte para Claude y Codex CLI, existe también el fork mirofish-cli:

https://github.com/amadad/mirofish-cli

Casos de uso y ejemplos exitosos

El experimento de Polymarket: $4.266 de ganancia en 338 operaciones

El caso más citado y documentado de aplicación real de MiroFish es el de un desarrollador que integró el sistema con un bot de trading en Polymarket, el mercado de predicción descentralizado. La lógica del experimento era elegante: en lugar de predecir precios directamente, el bot usaba MiroFish para predecir cómo reaccionaría la gente ante determinados eventos. En un mercado de predicción, eso es exactamente lo que mueve los precios.

El flujo de trabajo era el siguiente: el sistema recibía contexto del mercado, MiroFish construía un mundo paralelo y simulaba 2.847 humanos digitales antes de cada operación, los agentes argumentaban, formaban grupos y cambiaban de posición, y cuando el consenso de los agentes divergía significativamente de lo que Polymarket estaba cotizando, el bot entraba a la operación.

El resultado: 338 operaciones, $4.266 de ganancia acumulada, con una posición que devolvió un 1.655% de retorno en cinco minutos.

El análisis posterior de los datos reveló algo importante sobre los límites del sistema: MiroFish mostró una ventaja estadística real en preguntas políticas de horizonte largo (qué hará una política pública en 90 días, si un tratado será aprobado, cómo evolucionará la opinión pública sobre un tema), donde la respuesta depende de dinámicas de opinión pública agregada e impulso institucional. En cambio, no mostró ventaja en mercados de menos de 15 minutos ni en situaciones donde la respuesta depende de información privada que los agentes simulados no tienen: ganancias corporativas no publicadas, decisiones de bancos centrales antes de su anuncio, movimientos coordinados de ballenas en mercados de criptomonedas.

Esta distinción es fundamental para entender qué puede y qué no puede hacer MiroFish: es extraordinariamente bueno modelando dinámicas sociales públicamente conocibles; es ciego ante información privada.

Fuente: https://www.abhs.in/blog/mirofish-1m-agents-why-trading-fails-public-opinion-wins-2026 Fuente: https://x.com/k1rallik/status/2032870566806307131

Brian Roemmele y la simulación de 500.000 agentes

Brian Roemmele, fundador de The Zero-Human Company, fue uno de los primeros adoptantes públicos de MiroFish fuera del equipo original. Roemmele logró crear una simulación de 500.000 agentes de IA en una sola corrida de MiroFish y describió el resultado como «un superpoder masivo»: usar un motor de IA multi-agente para simular mundos digitales paralelos con cientos de miles de agentes diversos para predecir resultados como tendencias de mercado o reacciones del público ante comportamientos sociales emergentes.

Fuente: https://agentnativedev.medium.com/mirofish-swarm-intelligence-with-1m-agents-that-can-predict-everything-114296323663

El final perdido de El sueño del pabellón rojo

Uno de los casos de uso más fascinantes —y más alejados del mundo financiero— involucra la literatura clásica china. El sueño del pabellón rojo (红楼梦), una de las cuatro grandes novelas clásicas de la literatura china, tiene un problema histórico conocido: su autor original, Cao Xueqin, murió antes de completarla. Los últimos 40 capítulos que circulan hoy fueron escritos por otro autor, Gao E, y no hay consenso sobre cómo habría terminado realmente la historia según la visión original.

El equipo de MiroFish alimentó el sistema con los primeros 80 capítulos de la novela, decenas de miles de palabras, y le pidió que simulara el destino probable de los personajes. En lugar de pedir a un LLM que «completara» la historia, MiroFish creó miles de agentes con las personalidades y relaciones de los personajes establecidas en el texto original, y los dejó interactuar libremente durante múltiples rondas de simulación.

El resultado fue una extrapolación narrativa emergente: no escrita por un autor, no generada por un modelo que predice token a token, sino evolucionada a través de miles de interacciones de agentes moldeadas por los personajes establecidos y sus relaciones. La emergencia colectiva, no la predicción individual, produjo el desenlace.

Este caso ilustra una posibilidad que va mucho más allá de los mercados financieros: MiroFish como herramienta de análisis narrativo, de diseño de juegos, de escritura creativa asistida, de exploración de escenarios ficticios.

Fuente: https://www.beitroot.co/blog/mirofish-open-source-swarm-intelligence-engine Fuente: https://www.blocmates.com/articles/what-is-mirofish-the-agent-engine-that-can-predict-anything-and-everything

La simulación de opinión pública en la Universidad de Wuhan

Otro caso de demostración documentado involucra el análisis de dinámica de opinión pública en el campus de la Universidad de Wuhan. MiroFish recibió un informe estructurado de opinión pública generado por BettaFish sobre una controversia estudiantil y fue instruido para simular cómo evolucionaría el sentimiento durante las semanas siguientes.

La simulación produjo una trayectoria temporal secuenciada de cambio de opinión: no solo predijo adónde llegaría el sentimiento, sino cómo diferentes facciones se formarían, cambiarían y se influirían mutuamente a lo largo del tiempo. La salida incluía el análisis del proceso de polarización, los puntos de inflexión donde la narrativa podría haber tomado rumbos diferentes, y la distribución final de posiciones entre los agentes.

Fuente: https://www.blocmates.com/articles/what-is-mirofish-the-agent-engine-that-can-predict-anything-and-everything

Simulación de la suba de tasas de la Reserva Federal

Uno de los casos de uso financiero más mencionados en la documentación y análisis del proyecto es la simulación de los efectos de una suba de tasas de interés por parte de la Reserva Federal de los Estados Unidos. En este escenario, el material semilla consiste en documentos de política monetaria, análisis de mercado y datos de sentimiento previos a la decisión. MiroFish genera agentes que representan distintos actores del mercado (inversores minoristas, fondos institucionales, analistas, consumidores, periodistas financieros) con diferentes perfiles de riesgo, horizontes temporales y sesgos cognitivos.

La simulación muestra cómo cada tipo de actor respondería a la noticia, cómo esa respuesta se propagaría a través de la red social simulada, y qué configuración de mercado emergerá de esa dinámica colectiva. El resultado no es una predicción puntual sino una distribución de futuros posibles con probabilidades asociadas.

Fuente: https://www.panewslab.com/en/articles/019cf53a-ca7c-7159-9fbc-40859cdfa108


Otros dominios de aplicación

Más allá de los casos documentados, la comunidad ha identificado y experimentado con MiroFish en varios dominios adicionales:

Comunicación de crisis y relaciones públicas: una empresa puede simular cómo reaccionará la opinión pública ante diferentes estrategias de respuesta antes de publicar nada. El sistema modela la propagación del mensaje, la formación de narrativas en medios sociales y la evolución del sentimiento a lo largo de días o semanas simulados, todo en minutos reales.

Lanzamiento de productos: en lugar de grupos focales o encuestas, MiroFish puede simular la reacción de miles de perfiles de consumidores con diferentes personalidades y preferencias ante un nuevo producto, un cambio de precio o una campaña publicitaria. La simulación modela la propagación del mensaje y sus efectos en diferentes segmentos de mercado.

Modelado de impacto regulatorio: agencias de gobierno y grupos de advocacy pueden correr simulaciones de regulaciones propuestas y modelar la respuesta política pública, la formación de coaliciones a favor y en contra, y la presión sobre el proceso legislativo.

Planificación de escenarios competitivos: simular cómo respondería un conjunto de agentes representando a competidores, clientes y medios ante un movimiento estratégico específico antes de tomarlo.

Cambio organizacional: cómo reaccionará el personal ante una reestructuración, una adquisición o un cambio de liderazgo, modelado a través de agentes con diferentes roles, niveles de antigüedad y perfiles de personalidad.

Investigación académica sobre comportamiento social: simular la propagación de desinformación, la formación de movimientos de activismo, la organización de boicots de consumidores —problemas de investigación que con datos longitudinales reales requieren años; con MiroFish, horas.

Fuente: https://www.beitroot.co/blog/mirofish-open-source-swarm-intelligence-engine Fuente: https://www.abhs.in/blog/mirofish-1m-agents-why-trading-fails-public-opinion-wins-2026


La inversión y el concepto del super-individuo

La decisión de inversión de Chen Tianqiao merece un análisis separado porque revela algo más profundo que el entusiasmo por un proyecto particular.

Chen explicó en una charla de finales de 2025 por qué cree en el concepto del super-individuo. Según él, muchas personas confunden al super-individuo con alguien que «hace todo solo», lo cual contradice las leyes naturales para seres de base carbono. Ni siquiera Elon Musk puede ser simultáneamente un científico de primer nivel en cohetes, neurociencia e ingeniería automotriz. Lo que hace Musk es diferente: usa su «voluntad» y «crédito» para agregar los mejores cerebros externos disponibles y ponerlos a trabajar en su dirección. Solo necesita hacer dos cosas: dar un Prompt extremadamente ambicioso (una elección), y asumir plena responsabilidad con todos sus activos. La ejecución la hacen los mejores cerebros externos de la humanidad (y en el futuro, la IA).

En esta visión, Guo Hangjiang es el arquetipo del super-individuo en la era de la IA: una persona sola que, en diez días, construyó algo que habría requerido un equipo financiado y meses de ingeniería apenas unos años antes. La inversión de Chen no fue en MiroFish como software; fue en la demostración viviente de que ese modelo de individuo ya existe y puede ser cultivado.

Chen fue explícito al respecto: lo que Shanda valoró en Guo no fue el nivel técnico particular de su trabajo sino su capacidad para «identificar y definir problemas genuinamente valiosos e intentar resolverlos de maneras nuevas basadas en IA». La tesis era sobre el fundador, no sobre el producto.

Fuente: https://eu.36kr.com/en/p/3720728841763465 Fuente: https://agentnativedev.medium.com/mirofish-swarm-intelligence-with-1m-agents-that-can-predict-everything-114296323663


Limitaciones y advertencias honestas

Sería irresponsable terminar el análisis técnico sin una discusión honesta de las limitaciones conocidas del sistema. La comunidad de desarrolladores y analistas ha sido relativamente franca al respecto.

Falta de benchmarks de validación

Esta es la limitación más importante desde el punto de vista científico. No existen benchmarks publicados que comparen predicciones de MiroFish con resultados reales en condiciones controladas. El sistema produce escenarios plausibles, pero ningún estudio ha demostrado sistemáticamente que esos escenarios sean más confiables que otros métodos de predicción. «Escalofriantemente preciso» es una impresión compartida en redes sociales, no una evaluación científica rigurosa.

El experimento de Polymarket es prometedor pero insuficiente: 338 operaciones es una muestra pequeña, el período de tiempo es corto, y las condiciones del mercado durante ese período no han sido analizadas en detalle. La rentabilidad observada podría ser real o podría ser ruido estadístico.

Costos de API significativos

Cada agente consume tokens de LLM en cada interacción. Una simulación con cientos de agentes a lo largo de varias docenas de rondas puede volverse cara rápidamente. El propio proyecto recomienda limitar las simulaciones a menos de 40 rondas. Para uso en producción a escala, los costos de inferencia son un factor que debe planificarse cuidadosamente.

Sesgos heredados de los LLMs

Los agentes heredan los sesgos de los modelos de lenguaje que los alimentan. Los LLMs tienden a producir comportamientos grupales más polarizados y más gregarios que los humanos reales. Las simulaciones de MiroFish podrían amplificar ciertas dinámicas más allá de lo que ocurriría en la realidad, especialmente en temas polarizados o regulados. Un desarrollador en la comunidad de DEV.to señaló específicamente este problema: el sesgo de comportamiento gregario (herd behavior) documentado en el paper de OASIS puede sesgar significativamente los resultados en temas polarizados, y vale la pena pesar cuidadosamente la diversidad de agentes en la configuración de personas.

Techo fundamental en mercados eficientes

En mercados de predicción, MiroFish tiene un techo estructural que no puede superar con más escala. Los mercados eficientes agregan información privada que los agentes simulados simplemente no tienen. El desarrollador del experimento de Polymarket lo descubrió: ventaja estadística real en preguntas de horizonte largo basadas en dinámicas públicas, cero ventaja en mercados de corto plazo donde la información privada domina. Este no es un problema de escala que se resuelva con más agentes; es una limitación fundamental de la arquitectura.

Estado temprano del proyecto

A la fecha de publicación de esta nota, MiroFish está en versión 0.1.2. Es esencialmente un proyecto de una sola persona respaldado por una empresa inversora. La base de contribuidores es estrecha, no hay adopción enterprise documentada, no hay modelo de precios, y el producto no ha alcanzado el product-market fit en ningún segmento comercial específico. La atención viral es impresionante; la tracción comercial, por ahora, está por verse.

Fuente: https://emelia.io/hub/mirofish-ai-swarm-prediction Fuente: https://dev.to/arshtechpro/mirofish-the-open-source-ai-engine-that-builds-digital-worlds-to-predict-the-future-ki8 Fuente: https://github.com/lucy-cxy/agentvc-index/blob/main/cases/2026-03-23_mirofish.md


Por qué MiroFish importa más allá de MiroFish

Más allá del proyecto específico, MiroFish es un punto de referencia arquitectónico que merece atención de cualquiera que esté construyendo sistemas de IA agénticos.

El stack que usa —GraphRAG para extracción de conocimiento, memoria persistente de agentes via Zep, orquestación multi-agente a escala via OASIS, simulación dual de plataformas— no fue inventado para MiroFish. Todos esos componentes existían previamente como proyectos separados. Lo que hizo Guo Hangjiang fue ensamblarlos de una manera que produce algo cualitativamente nuevo: predicción basada en emergencia social en lugar de extrapolación estadística.

Estos patrones arquitectónicos son cada vez más relevantes en producción:

GraphRAG como capa de fundamentación: en lugar de darle a los agentes texto plano, darles un grafo de conocimiento estructurado previene la deriva narrativa y ancla el comportamiento a la realidad documentada.

Memoria persistente individual por agente: la capacidad de los agentes de recordar interacciones pasadas y evolucionar a lo largo del tiempo es lo que diferencia una simulación dinámica de una repetición estática.

Orquestación multi-agente con diversidad deliberada: diseñar sistemas donde el output no está programado sino que emerge de la interacción entre agentes heterogéneos.

Simulación dual de entornos: modelar dinámicas en múltiples plataformas simultáneamente captura interacciones que una sola plataforma ocultaría.

Un desarrollador en la comunidad de DEV.to lo sintetizó con precisión: «MiroFish no es solo interesante como producto de predicción. Es interesante como ejemplo de varios patrones convergiendo juntos en una forma que es fácil de estudiar y experimentar.»

Fuente: https://dev.to/arshtechpro/mirofish-the-open-source-ai-engine-that-builds-digital-worlds-to-predict-the-future-ki8


El ecosistema de forks

El impacto de MiroFish se mide también en la velocidad con que la comunidad lo adoptó y adaptó. En semanas desde su lanzamiento, varios forks significativos están activos:

MiroFish-Offline (github.com/nikmcfly/MiroFish-Offline): reemplaza Zep Cloud por Neo4j local y usa Ollama para LLMs locales. Permite correr el sistema completo sin ninguna dependencia de API externa, con privacidad total de los datos. Recomendado para organizaciones con requisitos estrictos de seguridad o equipos que trabajan con datos sensibles. El modelo recomendado es qwen2.5:32b. Soporta entre 10.000 y 50.000 agentes en hardware local dependiendo de la GPU disponible.

mirofish-cli (github.com/amadad/mirofish-cli): fork orientado a flujos de trabajo de línea de comandos, con traducción completa al inglés del README y la interfaz, soporte para Claude CLI y Codex CLI, y outputs machine-readable en formato verdict.json además del reporte completo. Diseñado para integrarse en pipelines de CI/CD y automatización.

La existencia y actividad de estos forks en las semanas posteriores al lanzamiento es uno de los indicadores más confiables de que el proyecto tocó una necesidad real en la comunidad de desarrolladores.


Conclusión: el futuro ya está siendo simulado

MiroFish representa algo más que una herramienta técnica interesante. Es un síntoma de un cambio más profundo en cómo pensamos la predicción.

Durante décadas, predecir el futuro significó extrapolación estadística: tomar datos históricos, ajustar un modelo, proyectar hacia adelante. El problema de ese enfoque es que trata a los sistemas sociales como si fueran fenómenos físicos con comportamiento determinístico. Los mercados financieros, la opinión pública, la difusión de ideas: ninguno de estos sistemas se comporta como el movimiento de un proyectil. Se comportan como lo que son: sistemas complejos donde millones de actores interdependientes toman decisiones en paralelo, se observan mutuamente, cambian de posición, forman coaliciones y producen emergencia.

Lo que MiroFish propone es que la mejor manera de predecir esos sistemas no es modelarlos matemáticamente sino simularlos socialmente: construir versiones en miniatura de ellos y hacerlos correr.

Que esa idea haya llegado en la forma de un proyecto construido por un estudiante de 20 años en diez días, con herramientas de código abierto ya existentes, usando métodos de desarrollo asistido por IA, dice algo importante sobre el momento en que estamos. Las herramientas para construir cosas extraordinarias están disponibles. El límite ya no es el acceso a la tecnología ni el tamaño del equipo. El límite es la capacidad de identificar el problema correcto y la decisión de abordarlo.

En eso, al menos, el experimento de MiroFish ya fue un éxito.


Repositorio principal y recursos

Repositorio oficial: https://github.com/666ghj/MiroFish

Demo online: https://mirofish.ink/

README en inglés: https://github.com/666ghj/MiroFish/blob/main/README-EN.md

Fork offline (Neo4j + Ollama): https://github.com/nikmcfly/MiroFish-Offline

Fork CLI (Claude/Codex): https://github.com/amadad/mirofish-cli

Motor OASIS (CAMEL-AI): https://github.com/camel-ai/oasis


Fuentes completas

[1] Repositorio oficial de MiroFish en GitHub — https://github.com/666ghj/MiroFish

[2] Sitio web oficial de MiroFish — https://mirofish.ink/

[3] Perfil de Guo Hangjiang (BaiFu) en GitHub — https://github.com/666ghj

[4] «One Undergrad Built 700,000 AI Agents in 10 Days That Predict Markets and Elections», Abhishek Gautam — https://www.abhs.in/blog/mirofish-swarm-ai-700000-agents-predict-markets-public-opinion-2026

[5] «MiroFish 1M Agents: Why It Fails at Trading But Wins Everything Else», Abhishek Gautam — https://www.abhs.in/blog/mirofish-1m-agents-why-trading-fails-public-opinion-wins-2026

[6] «MiroFish: Swarm-Intelligence with 1M Agents That Can Predict Everything», Agent Native, Medium — https://agentnativedev.medium.com/mirofish-swarm-intelligence-with-1m-agents-that-can-predict-everything-114296323663

[7] «MiroFish: Multi-Agent Swarm Intelligence for Predictive Simulation», Balaji Bal, Medium — https://medium.com/@balajibal/mirofish-multi-agent-swarm-intelligence-for-predictive-simulation-09771e60b188

[8] «MiroFish: The Open-Source AI Engine That Builds Digital Worlds to Predict the Future», DEV.to — https://dev.to/arshtechpro/mirofish-the-open-source-ai-engine-that-builds-digital-worlds-to-predict-the-future-ki8

[9] «MiroFish: The AI Swarm Engine That Simulates the Future With Thousands of Agents», Emelia.io — https://emelia.io/hub/mirofish-ai-swarm-prediction

[10] «What is MiroFish? The Agent Engine That Can Predict Anything and Everything», Blocmates — https://www.blocmates.com/articles/what-is-mirofish-the-agent-engine-that-can-predict-anything-and-everything

[11] «Agentic Swarms Are Here: What MiroFish Teaches Us About Multi-Agent Systems», Flowtivity — https://flowtivity.ai/blog/agentic-swarms-mirofish-guide/

[12] «MiroFish: Open Source AI Simulation Engine for Prediction and Forecasting», Beitroot — https://www.beitroot.co/blog/mirofish-open-source-swarm-intelligence-engine

[13] «MiroFish AI Swarm Prediction Engine, 53k Stars», Decision Crafters — https://www.decisioncrafters.com/mirofish-swarm-intelligence-engine-predicts-anything-53k-github-stars/

[14] «Chen Tianqiao’s Investment in a Post-2000s Individual», 36Kr en inglés — https://eu.36kr.com/en/p/3720728841763465

[15] «Guo Hangjiang, a senior at BUPT: Using 10 days and an AI engine, he persuaded Chen Tianqiao to invest 30M yuan», PANews — https://www.panewslab.com/en/articles/019cf53a-ca7c-7159-9fbc-40859cdfa108

[16] OSS Investment Scorecard: análisis de MiroFish, agentvc-index — https://github.com/lucy-cxy/agentvc-index/blob/main/cases/2026-03-23_mirofish.md

[17] Fork MiroFish-Offline (Neo4j + Ollama) — https://github.com/nikmcfly/MiroFish-Offline

[18] Fork mirofish-cli (Claude/Codex CLI) — https://github.com/amadad/mirofish-cli

[19] Post original del experimento de Polymarket en X (Twitter) — https://x.com/k1rallik/status/2032870566806307131

[20] Segundo post sobre el experimento de Polymarket en X — https://x.com/0xPhantomDefi/status/2033287199924625738

[21] Análisis de MiroFish, HTX European AI — https://ht-x.com/posts/2026/03/github-666ghj-mirofish-a-simple-and-universal-swar/

Continue Reading
Advertisement
Click to comment

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Actualidad

Agentes que hacen ciencia sola: AI Co-Scientist y AlphaEvolve, el laboratorio del futuro ya está aquí

Publicado

on

Por primera vez en la historia, una máquina propuso una hipótesis científica que investigadores humanos descubrieron de forma independiente — al mismo tiempo. No es una metáfora ni un ejercicio de laboratorio controlado. Es lo que ocurrió cuando el AI Co-Scientist de Google, construido sobre Gemini 2.0, fue aplicado al problema de la resistencia antimicrobiana. El sistema llegó en días a una conclusión que a los científicos del Imperial College London les llevó años de trabajo experimental.

Ese momento define algo nuevo: la IA no ya asiste a los científicos. Está comenzando a hacer ciencia.


Qué son AI Co-Scientist y AlphaEvolve

Son dos sistemas distintos pero complementarios lanzados por Google DeepMind en 2025. Ambos usan modelos Gemini como núcleo cognitivo. Ambos operan con bucles autónomos de generación, evaluación y refinamiento. Y ambos están produciendo resultados que eran impensables hace dos años.

AI Co-Scientist es un sistema multi-agente diseñado para ayudar a los científicos a generar hipótesis novedosas, planes de investigación y protocolos experimentales. Los investigadores especifican un objetivo de investigación en lenguaje natural —por ejemplo, entender mejor cómo se propaga un microorganismo causante de enfermedad— y el AI Co-Scientist propone hipótesis comprobables, junto con un resumen de la literatura publicada relevante y un posible enfoque experimental.

AlphaEvolve es un agente de código evolutivo diseñado para descubrir y optimizar algoritmos. Combina las capacidades creativas de resolución de problemas de los modelos Gemini con evaluadores automatizados que verifican las respuestas, y usa un marco evolutivo para mejorar las ideas más prometedoras. Su objetivo no es la hipótesis científica sino el algoritmo óptimo: el código más eficiente posible para un problema dado.


La arquitectura técnica: cómo funciona AI Co-Scientist

Dado un objetivo de investigación especificado en lenguaje natural, el AI Co-Scientist está diseñado para generar hipótesis de investigación novedosas, una descripción detallada de la investigación y protocolos experimentales. Para hacerlo, utiliza una coalición de agentes especializados — Generation, Reflection, Ranking, Evolution, Proximity y Meta-review — inspirados en el método científico mismo. Estos agentes usan retroalimentación automatizada para generar, evaluar y refinar hipótesis de forma iterativa, resultando en un ciclo autoajustable de outputs de calidad e innovación crecientes.

En detalle, cada agente tiene un rol distinto:

  • Generation: genera las hipótesis iniciales a partir del objetivo del investigador y la literatura disponible
  • Reflection: revisa críticamente las propuestas, identificando debilidades lógicas o vacíos en la evidencia
  • Ranking: ordena las hipótesis por calidad mediante un sistema de torneos tipo Elo (el mismo usado en ajedrez competitivo)
  • Evolution: toma las mejores hipótesis y las muta para generar versiones mejoradas
  • Proximity: elimina ideas duplicadas o demasiado similares para mantener diversidad en el espacio de exploración
  • Meta-review: sintetiza los resultados y produce el output final para el científico

El sistema usa un enfoque llamado test-time compute para generar hipótesis, una técnica que permite aumentar la calidad del output de un modelo de IA aumentando el tiempo e infraestructura que invierte en generar respuestas. A más compute invertido en tiempo de inferencia, mejor calidad de las hipótesis generadas.

El proceso completo es un ciclo «generate, debate, and evolve» que replica formalmente la estructura del método científico, pero ejecutado por una coalición de agentes especializados operando en paralelo y de forma asíncrona.


La arquitectura técnica: cómo funciona AlphaEvolve

AlphaEvolve opera sobre un principio diferente: evolución darwiniana aplicada al código.

El usuario define una especificación del problema, la lógica de evaluación (para medir qué tan bien funciona una solución propuesta) y un programa de inicialización semilla. La semilla es un fragmento de código compilable que ya resuelve el problema, aunque de forma subóptima. Los modelos Gemini procesan el contexto y generan versiones mutadas y optimizadas del código que se agregan al «espacio de población». Los algoritmos de evolución seleccionan cuáles de las mutaciones combinar y mutar aún más, priorizándolas como punto de partida para la próxima generación. Los resultados de la evaluación son usados por el ensemble de LLMs para generar el siguiente conjunto de soluciones mejoradas.

AlphaEvolve emplea un ensemble de modelos de lenguaje: una combinación de Gemini 2.0 Flash y Gemini 2.0 Pro. Este enfoque permite balancear el throughput computacional con la calidad de las soluciones generadas. Gemini 2.0 Flash, con su menor latencia, permite una mayor tasa de generación de candidatos, aumentando el número de ideas exploradas por unidad de tiempo. Gemini 2.0 Pro, con mayor capacidad, aporta sugerencias ocasionales de mayor calidad que pueden avanzar significativamente la búsqueda evolutiva.

La clave del sistema es la separación entre generación y verificación: el evaluador es definido por el usuario y mide el rendimiento real del código, no la plausibilidad verbal de la propuesta. Esto reduce drásticamente el riesgo de alucinaciones.


Los resultados que cambian todo: datos concretos

AI Co-Scientist: tres validaciones biomédicas

1. Leucemia mieloide aguda (AML): el AI Co-Scientist propuso candidatos para reposicionamiento de drogas con hallazgos de validación prometedores, incluyendo candidatos para leucemia mieloide aguda que mostraron inhibición tumoral in vitro a concentraciones clínicamente aplicables.

2. Fibrosis hepática: dos de los tres medicamentos recomendados por el AI Co-Scientist que apuntaban a modificadores epigenómicos exhibieron actividad antifibrótica significativa. El sistema fue consultado sobre el rol de cambios epigenómicos en la fibrosis hepática, generó hipótesis testables y las priorizó para validación experimental. Los resultados fueron confirmados en organoides hepáticos humanos, modelos tridimensionales multicelulares que replican la estructura del hígado humano. Fuente del paper: biorxiv.org/content/10.1101/2025.04.29.651320

3. Resistencia antimicrobiana — el resultado más perturbador: el AI Co-Scientist recapituló un descubrimiento no publicado sobre cómo las islas cromosomales inducibles por fagos formadoras de cápsides se propagan entre múltiples especies bacterianas — un mecanismo clave subyacente a la resistencia antimicrobiana. Según el paper de Gottweis et al., este resultado le tomó al sistema un par de días, mientras que el mismo hallazgo emergió de años de trabajo convencional de laboratorio.

En síntesis: en paralelo con investigadores del Imperial College London que trabajaban en el mismo problema, el AI Co-Scientist llegó a la misma hipótesis de forma independiente. No es que la IA encontró algo que los humanos no podían encontrar. Es que lo encontró órdenes de magnitud más rápido.

Paper original (arXiv): arxiv.org/abs/2502.18864 Blog de Google Research: research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist

AlphaEvolve: cinco métricas de impacto real

1. Algoritmo de 56 años superado: AlphaEvolve desarrolló un procedimiento de optimización basado en gradientes que descubrió múltiples nuevos algoritmos para multiplicación de matrices. Una de sus descobiertas mejoró el algoritmo de Strassen de 1969 — el mejor conocido para multiplicar matrices 4×4 de valores complejos usando 48 multiplicaciones escalares, la primera mejora tras 56 años.

2. Optimización de data centers de Google: un algoritmo descubierto por AlphaEvolve lleva más de un año impulsando Borg, el sistema masivo de gestión de clusters de Google, recuperando en promedio 0,7% de los recursos de cómputo globales de Google de forma continua. A escala de Google, eso equivale a millones de dólares en capacidad recuperada diariamente.

3. Aceleración del entrenamiento de Gemini: AlphaEvolve aceleró en 23% un kernel vital en la arquitectura de Gemini, lo que llevó a una reducción del 1% en el tiempo de entrenamiento de Gemini.

4. Diseño de chips TPU: AlphaEvolve propuso una reescritura en Verilog que removió bits innecesarios en un circuito aritmético clave y altamente optimizado para multiplicación de matrices. Esta propuesta fue integrada en un próximo Tensor Processing Unit (TPU), el acelerador de IA personalizado de Google.

5. Problemas matemáticos abiertos: cuando se aplicó a más de 50 problemas abiertos en análisis matemático, geometría, combinatoria y teoría de números, AlphaEvolve redescubrió soluciones de vanguardia en aproximadamente el 75% de los casos. En el 20% de los casos, mejoró las mejores soluciones conocidas.

Paper técnico (arXiv): arxiv.org/abs/2506.13131 Blog de Google DeepMind: deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms


El ecosistema más amplio: Genesis Mission y los 17 laboratorios nacionales

El impacto de estas herramientas no es solo académico. Google DeepMind proveerá un programa de acceso acelerado para científicos de los 17 Laboratorios Nacionales del Departamento de Energía de EE.UU. a sus modelos de IA de frontera y herramientas agénticas para ciencia. El AI Co-Scientist es un colaborador virtual multi-agente construido sobre Gemini, diseñado para ayudar a los científicos a sintetizar grandes cantidades de información para generar hipótesis y propuestas de investigación novedosas, acelerando el ritmo de descubrimientos científicos y biomédicos.

La Casa Blanca encuadra esto bajo la Genesis Mission: el objetivo de duplicar la productividad científica de Estados Unidos dentro de la década mediante IA. El AI Co-Scientist puede acelerar el desarrollo de hipótesis de años a días.


Cómo hacer una prueba: guía práctica para acceder hoy

AI Co-Scientist

Estado actual: disponible en acceso temprano a través del Trusted Tester Program de Google.

Cómo solicitar acceso:

  1. Ir a la página oficial: research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist
  2. Completar el formulario de acceso al Trusted Tester Program
  3. El sistema da prioridad a investigadores en biomedicina, química y ciencias de la vida

Qué necesitás para probar el sistema:

  • Una cuenta de Google Workspace o institucional
  • Un objetivo de investigación claro expresado en lenguaje natural (ejemplo: «entender por qué X bacteria desarrolla resistencia a Y antibiótico»)
  • Acceso a literatura científica relevante para que el sistema la indexe
  • Disposición a validar las hipótesis generadas con un experto de dominio

Flujo de interacción básico:

  1. Especificás tu objetivo de investigación en lenguaje natural
  2. El sistema genera un plan de investigación inicial con hipótesis ordenadas por relevancia
  3. Podés iterar: rechazar hipótesis débiles, pedir profundización en una específica, solicitar protocolos experimentales
  4. El sistema mejora sus propuestas en cada iteración mediante el bucle de torneo Elo

AlphaEvolve

Estado actual: disponible en private preview en Google Cloud para empresas, con acceso temprano para investigadores académicos.

Cómo solicitar acceso académico:

Qué necesitás para correr AlphaEvolve:

  • Un problema de optimización cuya solución pueda expresarse como código ejecutable
  • Una función de evaluación que mide el rendimiento (runtime, uso de memoria, precisión numérica, o métricas de dominio específico)
  • Un programa semilla que ya resuelve el problema, aunque subóptimamente
  • Acceso a la API de AlphaEvolve en Google Cloud (en preview)

Ejemplo de problema apto para AlphaEvolve: Tenés un algoritmo de ruteo logístico que tarda 200ms por consulta. Definís tu función evaluadora como «minimizar tiempo de ejecución manteniendo precisión >99%». AlphaEvolve genera variantes del código, las evalúa automáticamente y evoluciona las mejores hacia versiones cada vez más eficientes.

Herramientas alternativas de acceso abierto para experimentar con el paradigma:

  • FunSearch (Google DeepMind, open source): el predecesor de AlphaEvolve, disponible públicamente en github.com/google-deepmind/funsearch. Genera funciones en Python para resolver problemas de búsqueda combinatoria.
  • OpenHands / SWE-agent: frameworks open source para agentes de código con capacidades similares a menor escala.
  • LangGraph + Gemini API: podés construir un pipeline multi-agente propio que replica la lógica de «generate, reflect, rank» del AI Co-Scientist usando la API pública de Gemini y LangGraph como orquestador.

Qué distingue este paradigma de los LLMs convencionales

La diferencia no es solo cuantitativa. Es arquitectónica.

Un LLM convencional recibe un prompt y genera una respuesta en un solo paso. No verifica su propia respuesta. No itera. No tiene memoria de sus errores anteriores. No compite sus propias hipótesis entre sí.

El AI Co-Scientist y AlphaEvolve operan en bucles: generan, evalúan, seleccionan, mutan, evalúan de nuevo. Gemini Deep Think actúa como «multiplicador de fuerza» del intelecto humano, manejando la recuperación de conocimiento y la verificación rigurosa para que los científicos puedan enfocarse en la profundidad conceptual y la dirección creativa.

La evaluación automatizada es clave. En AlphaEvolve, el código que no funciona mejor es simplemente descartado por el evaluador, sin que ningún humano tenga que revisarlo. En AI Co-Scientist, las hipótesis compiten en torneos donde son juzgadas por criterios formalizados de novedad, plausibilidad y relevancia experimental.

Esto convierte a la IA de un oráculo que responde preguntas en un sistema que formula preguntas, las testea y descarta las malas sin intervención humana.


Las implicancias y los límites honestos

Ninguno de estos sistemas opera en el vacío ni reemplaza al científico. AI Co-Scientist es una herramienta colaborativa para ayudar a los expertos a reunir investigación y refinar su trabajo — no está diseñada para automatizar el proceso científico.

Los límites reales son tres:

Validación experimental sigue siendo humana. El sistema genera hipótesis; los laboratorios las prueban. La brecha entre propuesta in silico y confirmación in vivo sigue siendo trabajo científico duro. AlphaEvolve reduce el espacio de búsqueda; no elimina la necesidad de ingenieros que entiendan los resultados.

Dependencia de la calidad del input. El AI Co-Scientist es tan bueno como la literatura científica que procesa y la claridad del objetivo que el investigador especifica. Objetivos vagos producen hipótesis vagas.

Riesgos de sesgos en la literatura. Si la IA es entrenada sobre literatura con sesgos de publicación (donde los resultados negativos no se publican), sus hipótesis heredarán esos sesgos.


Conclusión

El AI Co-Scientist y AlphaEvolve no son herramientas de productividad. Son una nueva clase de agente científico que opera dentro del método científico, no solo alrededor de él. Estas herramientas abren la puerta a un futuro donde cada científico en un laboratorio tiene un equipo de asistentes de IA investigando simultáneamente miles de soluciones potenciales a los desafíos que motivan su trabajo.

El algoritmo de Strassen resistió 56 años sin mejoras. La resistencia antimicrobiana tardó años en ser elucidada en el laboratorio. La fibrosis hepática no tenía blancos terapéuticos evidentes. En los tres casos, un agente que genera, evalúa y refina sin descanso llegó más lejos, más rápido.

La pregunta ya no es si la IA puede hacer ciencia. Es cómo vamos a integrar estos sistemas en la práctica científica sin perder el escepticismo, la verificación rigurosa y el juicio experto que hacen confiable al conocimiento científico.


Fuentes y recursos esenciales

Papers originales:

Blogs oficiales de Google:

Genesis Mission y Laboratorios Nacionales:

Acceso y pruebas:

Análisis y cobertura:

Continue Reading

Actualidad

La revolución silenciosa de los sistemas multi-agente

Publicado

on

Si 2025 fue el año de los agentes de IA, 2026 es el año en que los agentes aprendieron a trabajar en equipo. El cambio no es menor: estamos ante el mismo salto conceptual que dio la ingeniería de software cuando abandonó el monolito y adoptó los microservicios. Un agente todopoderoso que lo hace todo está siendo reemplazado por equipos orquestados de agentes especializados. Y los números lo confirman.

Gartner reportó un aumento del 1.445% en consultas sobre sistemas multi-agente entre el primer trimestre de 2024 y el segundo trimestre de 2025. Los flujos de trabajo multi-agente registraron un crecimiento del 327% en la plataforma Databricks. El mercado global de plataformas de sistemas multi-agente alcanzó $7.810 millones en 2025 y se proyecta a $54.910 millones para 2030, con un crecimiento anual del 47,7%.

Esto no es hype. Es una reconfiguración de cómo se construyen los sistemas de software empresarial.


¿Qué es un sistema multi-agente y por qué importa?

Un sistema multi-agente (MAS, por sus siglas en inglés) es una arquitectura donde múltiples agentes de IA autónomos, cada uno con roles, herramientas y capacidades especializadas, coordinan su trabajo dentro de un entorno compartido para lograr tareas que ningún agente individual podría manejar solo.

La diferencia con los chatbots o los LLMs convencionales es sustancial. Mientras que un agente único maneja tareas de forma secuencial, un sistema multi-agente divide el trabajo entre agentes especializados que operan en paralelo, haciéndolo mucho más eficiente. Cada agente percibe su entorno, toma decisiones independientes y se comunica con otros agentes a través de protocolos definidos.

La analogía con microservicios no es casual: la arquitectura multi-agente mapea naturalmente sobre los patrones de trabajo existentes. Planificación, ejecución, revisión y aprobación son fases distintas que pueden asignarse a agentes distintos. Esto mejora dramáticamente la confiabilidad, la interpretabilidad y el mantenimiento en entornos de producción.


Los tres protocolos que hacen posible la orquestación

Antes de hablar de frameworks y herramientas, hay que entender los protocolos que hacen posible que los agentes se comuniquen entre sí. La infraestructura necesaria para agentes coordinados finalmente maduró en 2025-2026:

MCP (Model Context Protocol) — Anthropic: Estandariza cómo los agentes acceden a herramientas y recursos externos. Elimina las integraciones personalizadas para cada conexión y funciona como puente operacional entre los planes de orquestación de alto nivel y la ejecución de herramientas de bajo nivel.

A2A (Agent-to-Agent Protocol) — Google: Habilita la colaboración peer-to-peer. Los agentes pueden descubrir y comunicarse con agentes construidos con frameworks distintos. Un agente construido con LangGraph puede invocar uno construido con CrewAI a través de la interfaz estandarizada de A2A.

ACP (Agent Communication Protocol) — IBM: Aporta marcos de gobernanza para el despliegue empresarial, con seguridad y cumplimiento normativo integrados en los flujos de trabajo multi-agente.

Estos tres protocolos, bajo la Linux Foundation, son la apuesta de la industria por un estándar abierto que evite la fragmentación.


Arquitecturas dominantes en producción

Según AgentsIndex, que mantiene un directorio de más de 500 herramientas y frameworks de agentes de IA, la arquitectura que domina en producción es el modelo hub-and-spoke: un agente orquestador central que dirige a múltiples agentes trabajadores. Dos tercios del mercado de IA agentic ya usa enfoques multi-agente coordinados.

Las cuatro arquitecturas principales son:

1. Pipeline (cadena secuencial): Los agentes se organizan como una línea de ensamblaje, cada uno pasando su output al siguiente. Determinístico y fácil de debuggear. Ideal para flujos de procesamiento de documentos: extracción → análisis → formateo.

2. Hub-and-spoke (orquestador-trabajadores): Un agente coordinador recibe las solicitudes y las despacha a agentes especializados. El orquestador mantiene el contexto y sintetiza los resultados. Dominante en sistemas de atención al cliente donde un agente enruta consultas a especialistas en facturación, soporte técnico o gestión de cuentas.

3. Paralela: Múltiples agentes trabajan simultáneamente en tareas independientes. Un sistema de investigación puede consultar tres fuentes de datos al mismo tiempo en lugar de hacerlo secuencialmente.

4. Jerárquica: Agentes organizados en árbol donde un agente raíz delega a sub-agentes que a su vez tienen sus propios sub-agentes. El modelo de Google ADK implementa esta arquitectura nativamente.

Un dato crítico para no sobre-engineerear: Google Research encontró que la coordinación puede reducir el rendimiento en razonamiento secuencial entre un 39% y un 70% comparado con enfoques de agente único. Los multi-agente solo ganan cuando las tareas se descomponen por dominio y la paralelización supera el overhead de coordinación. Las mejores implementaciones en producción empiezan con 3 a 5 agentes; los equipos de 20 o más agentes consistentemente underperforman.


El mapa de herramientas y frameworks en 2026

CrewAI

El framework más popular para equipos que necesitan agentes con roles y responsabilidades diferenciadas. CrewAI brilla cuando se necesitan agentes con distintas personalidades y responsabilidades: se asigna a cada agente un rol, objetivo y contexto, como construir un equipo real. Ideal para automatización de workflows y colaboraciones estructuradas tipo equipo. Empresas como DocuSign lo usaron para consolidar datos de ventas, acelerando sus procesos comerciales. Sitio oficial: crewai.com

LangGraph (LangChain)

Lidera en búsquedas mensuales con 27.100 consultas según el análisis comparativo de Langfuse. Especializado en flujos de trabajo con estado (stateful), ideal para procesos de largo aliento donde el agente necesita recordar decisiones anteriores. Su fortaleza técnica es el grafo de estado: los nodos son agentes o funciones, y las aristas definen las transiciones posibles. Sitio oficial: langchain.com/langgraph

OpenAI Agents SDK

Lanzado en marzo de 2025 en reemplazo del experimental Swarm, es un toolkit de grado productivo cuya abstracción central es el handoff: los agentes transfieren el control entre sí explícitamente, llevando el contexto de la conversación a través de la transición. Incluye tres primitivas: Handoffs para transferencia entre agentes, Guardrails para validación de inputs/outputs, y Tracing para observabilidad end-to-end. Sitio oficial: platform.openai.com/docs/agents

Google ADK (Agent Development Kit)

Provee un árbol jerárquico de agentes donde un agente raíz delega a sub-agentes. Integración nativa con Vertex AI y Gemini, con soporte para el protocolo A2A que permite comunicación entre agentes de distintos frameworks. Su diferenciador es el soporte multimodal nativo: los agentes pueden procesar imágenes, audio y video a través de la API multimodal de Gemini. Ideal para equipos nativos de Google Cloud. Sitio oficial: cloud.google.com/products/agent-development-kit

Microsoft AutoGen

Framework de Microsoft orientado a conversaciones multi-agente. Soporta agentes que pueden ejecutar código, buscar información y coordinarse a través de rondas de diálogo. Muy usado en entornos empresariales Microsoft. Sitio oficial: microsoft.github.io/autogen

MetaGPT

Orientado específicamente a tareas de ingeniería de software: toma un requerimiento en lenguaje natural y lo convierte en código funcional distribuyendo roles como product manager, architect, engineer y QA entre distintos agentes. Sitio oficial: deepwisdom.ai


Cómo construir un sistema multi-agente: los 6 pasos

La implementación de un sistema multi-agente bien diseñado sigue seis pasos bien definidos:

1. Definir objetivos y casos de dolor: Hablar con los stakeholders para entender los puntos de fricción. Descomponer el propósito general en subtareas que cada agente abordará. Establecer métricas de éxito concretas (ejemplo: reducción del 50% en tiempo de espera del cliente).

2. Elegir la arquitectura: La pregunta crítica es si las tareas se descomponen naturalmente por dominio. Si la respuesta es sí y el procesamiento paralelo supera el overhead de coordinación, multi-agente tiene sentido. Si no, un agente único capaz sigue siendo la mejor opción.

3. Diseñar los agentes: Definir roles específicos (Planificador, Ejecutor, Verificador, Optimizador) que repliquen la estructura de equipos humanos. Cada agente debe tener responsabilidades acotadas y claras.

4. Establecer protocolos de comunicación: Elegir entre MCP (para acceso a herramientas), A2A (para comunicación peer-to-peer) o ambos. Definir cómo los agentes comparten estado y manejan fallos.

5. Coordinar y orquestar: Implementar el agente orquestador que gestiona el flujo global. Decidir si la orquestación es centralizada (hub-and-spoke) o distribuida (blackboard architecture donde los agentes leen y escriben en un espacio de datos compartido).

6. Testear, medir y desplegar: Las mejores prácticas recomiendan empezar con 3-5 agentes en producción, medir rendimiento real y escalar el número de agentes solo cuando los datos lo justifican.

Los costos de implementación van desde aproximadamente $10.000 para un prototipo básico hasta más de $500.000 para despliegues a escala enterprise. La mayoría de las empresas reportan un ROI del 200-400% dentro de los 12-24 meses posteriores a la implementación.


Los casos de negocio que ya funcionan

El Big 4 de la consultoría: apuesta total

Las cuatro grandes firmas de consultoría lanzaron plataformas multi-agente en 2025, convirtiendo este tema en una señal corporativa de primer nivel.

PwC lanzó AI Agent OS, una plataforma modular y orientada a la gobernanza que funciona menos como un chatbot y más como un sistema operativo de IA para empresas. La encuesta de PwC a 308 ejecutivos senior encontró que el 79% ya adopta agentes de IA en sus empresas, el 88% planea aumentar sus presupuestos de IA en los próximos 12 meses y el 66% reporta mejoras medibles de productividad. Fuente: pwc.com/ai-agent-survey

Deloitte lanzó Zora AI, un agente especializado en finanzas y procurement que revisa contratos mediante NLP, analiza datos de gasto para identificar ineficiencias y proyecta demoras de proveedores con modelos predictivos. El informe State of AI 2026 de Deloitte reporta que el número de empresas con más del 40% de sus proyectos de IA en producción se duplicará en seis meses. Fuente: deloitte.com/agentic-ai

EY lanzó el EY.ai Agentic Platform con más de 150 agentes fiscales especializados para asistir a 80.000 profesionales en más de 150 países, funcionando como un colega digital en impuestos. La diferencia con un bot: mientras un bot automatiza un solo formulario, los agentes de EY colaboran en flujos de trabajo complejos que cruzan jurisdicciones y normativas.

Logística: el caso LogiCore Global

En 2026, LogiCore Global implementó un sistema multi-agente con cuatro roles especializados: Planning Strategist (planificación de rutas), Customs Diplomat (navegación aduanera), Fleet Executor (gestión de flota) y Financial Auditor (control de costos). La arquitectura elegida fue una Blackboard Architecture: un espacio de datos compartido donde cada agente publica y lee información en tiempo real. Cuando el agente de flota detecta un retraso en el puerto de Rotterdam, lo publica en el blackboard y todos los demás agentes ajustan su estrategia en paralelo. Los agentes negocian entre sí usando un Agent Communication Language: el Fleet Executor puede proponer una ruta más rápida, pero el Financial Auditor puede vetarla si el costo adicional de combustible excede el margen proyectado.

Software y modernización de legado

Un banco de gran escala aplicó una «fábrica digital» agentica para modernizar su software core, que comprendía cientos de aplicaciones. Distintos agentes asumieron tareas de codificación especializadas, trabajando en paralelo para acelerar dramáticamente el proceso de migración.

Investigación científica: Agent Laboratory

El framework AgentLaboratory de arXiv usa agentes de IA como asistentes de investigación, distribuyendo tareas de búsqueda bibliográfica, síntesis de información, generación de hipótesis y validación entre agentes especializados. Está transformando la velocidad con que los investigadores pueden revisar literatura y generar nuevas ideas.


Los desafíos reales que frenan la adopción masiva

La brecha entre el entusiasmo y la realidad productiva sigue siendo significativa. Mientras el 30% de las organizaciones está explorando opciones agenticas y el 38% está en fase piloto, solo el 14% tiene soluciones listas para desplegar y apenas el 11% las usa activamente en producción.

Los tres obstáculos principales son:

Integración con sistemas legados: La mayoría de los sistemas empresariales fueron diseñados para operadores humanos, no para agentes de IA que requieren acceso continuo a datos en tiempo real. Gartner predice que más del 40% de los proyectos de IA agentica fracasarán antes de 2027 porque los sistemas legados no pueden soportar las demandas de ejecución moderna.

Arquitectura de datos: La mayoría de los datos organizacionales no está posicionada para ser consumida por agentes que necesitan entender contexto de negocio y tomar decisiones. Casi la mitad de las organizaciones cita la búsqueda (48%) y la reutilización (47%) de datos como los principales obstáculos.

Gobernanza: Solo 1 de cada 5 empresas tiene un modelo maduro de gobernanza para agentes de IA autónomos. Esto es especialmente crítico porque los sistemas multi-agente, a diferencia de los workflows tradicionales, toman decisiones de forma autónoma que pueden tener consecuencias en cadena.


El diferenciador real: orquestación y gobernanza

La pregunta de negocios en 2026 no es si adoptar sistemas multi-agente, sino cómo hacerlo con suficiente madurez para que generen valor real y no solo demos impresionantes.

El aumento del acceso de los trabajadores a la IA fue del 50% en 2025, pero solo el 34% de las organizaciones está realmente reimaginando el negocio. La mayoría mejora flujos de trabajo existentes en lugar de reinventarlos.

El patrón de los líderes exitosos: no construir más bots, sino construir equipos. Tratar a los agentes como trabajadores digitales que necesitan ser seleccionados cuidadosamente, bien entrenados y correctamente equipados. Y medir el ROI no en términos de automatización de tareas, sino de reimaginación de procesos completos.

La revolución silenciosa de los sistemas multi-agente no está en el front page de la tecnología de consumo. Está ocurriendo en los SOCs de ciberseguridad, en las salas de procurement de las consultoras globales, en los centros de operaciones logísticas y en los laboratorios de investigación. Y está redefiniendo qué significa que un sistema de software sea verdaderamente inteligente.


Fuentes y recursos

Continue Reading

Actualidad

IA + Ciberseguridad en 2026: lo técnico, lo de negocios y las especializaciones que importan

Publicado

on

Este es uno de los sectores donde la IA está generando los cambios más profundos y más rápidos, simultáneamente en ambos lados del tablero: ataque y defensa.


Lo técnico nuevo: del copiloto al agente autónomo

El cambio estructural más importante es que las empresas están abandonando los copilotos que resumen y sugieren, para pasar a agentes de IA que persiguen objetivos mediante flujos de trabajo de múltiples pasos, coordinando herramientas, tomando acciones y actualizando planes a medida que llega nueva información. Denexus

En la práctica, esto se traduce en el concepto de SOC agentic (centro de operaciones de seguridad autónomo). El modelo contrasta las ganancias incrementales de las plataformas SOAR tradicionales con un modelo de agente capaz de razonar, actuar, observar y ajustarse mientras cambia la evidencia — diseñado para gestionar investigaciones dinámicamente en lugar de ejecutar un playbook estático. Denexus

En el frente ofensivo de la IA defensiva, Google DeepMind’s CodeMender es un ejemplo de agente que mejora la seguridad del código automáticamente, con resultados tempranos que demuestran su capacidad de encontrar vulnerabilidades zero-day en software bien probado. Denexus

El otro vector técnico nuevo es el «harvest now, decrypt later»: la exfiltración silenciosa de datos cifrados hoy para descifrarlos cuando la computación cuántica lo permita, que ya está incorporada al cálculo de riesgo actual. Harvard Business Review


Los riesgos reales: el agente como vector de ataque

El problema más perturbador de 2026 no es solo que la IA ayude a los defensores, sino que los agentes se convierten en el blanco preferido de los atacantes.

Un agente está siempre activo, nunca duerme, nunca come; pero si está mal configurado, puede acceder a las claves del reino —acceso privilegiado a APIs críticas, datos y sistemas— y es implícitamente confiable. Con una sola inyección de prompt bien ejecutada o explotando una vulnerabilidad de uso incorrecto de herramientas, los actores maliciosos pueden cooptar el empleado más poderoso y confiable de una organización. Harvard Business Review

En 2026, las organizaciones pueden experimentar sus primeros incidentes de seguridad a gran escala causados por agentes de IA que se comportan de maneras no intencionadas, no necesariamente por intención maliciosa, sino por la facilidad con que los agentes pueden ser influenciados. Los agentes de IA están diseñados para ser útiles, carecen de juicio y operan sin entender el contexto o las consecuencias. Darktrace

Otro vector de riesgo emergente es el Shadow AI: la mayoría de los negocios no saben si sus empleados están usando ChatGPT u otras plataformas, y mucho menos si están ingresando información sensible en ellas. TechNewsWorld

En el frente del ataque puro, los números son contundentes: el costo promedio de una brecha de datos fue de $4.4 millones en 2025, el phishing sigue siendo el vector principal de intrusión en aproximadamente el 60% de los incidentes y el 85% de las organizaciones experimentaron al menos un incidente relacionado con deepfakes en el último año. DeepStrike


Lo de negocios: el mercado explotando

Las cifras de negocio son difíciles de ignorar: el gasto global en productos y servicios de ciberseguridad se proyecta para superar los $520 mil millones anuales en 2026, y la IA está expandiendo el mercado total direccionable para proveedores de ciberseguridad a $2 billones de dólares. ECCU

Del lado de la adopción corporativa, el 52% de los ejecutivos en organizaciones que usan IA generativa ya tienen agentes de IA en producción, y el 46% de los ejecutivos con agentes en producción los están adoptando para operaciones de seguridad y ciberseguridad. Denexus

Un indicador de la madurez institucional del tema: está emergiendo una nueva función ejecutiva —el Chief AI Risk Officer— cuya misión es reencuadrar el riesgo de la IA como un problema de datos, unificando gobernanza, monitoreo en tiempo real y kill switches a nivel de agente. Harvard Business Review


Las especializaciones que valen: el mapa de carreras

El 10% de las ofertas de trabajo en ciberseguridad ya mencionan específicamente habilidades de IA, y el World Economic Forum identifica redes y ciberseguridad entre las tres habilidades de más rápido crecimiento hasta 2030, con el 87% de los encuestados identificando las vulnerabilidades relacionadas con IA como el riesgo cibernético de crecimiento más rápido. Penligent

Las especializaciones concretas que el mercado está demandando ahora mismo:

AI Security Engineer / AI Red Teamer — el rol emergente más destacado de 2026. Identifica vulnerabilidades como prompt injection, model poisoning y explotación de agentes autónomos. Mexa Solutions Es esencialmente un pentester pero para sistemas de IA.

Defenders y Detection Engineers — el carril más duradero porque está más cerca de la continuidad del negocio. Penligent Con IA, el trabajo evoluciona de responder alertas a supervisar agentes que responden alertas.

Cloud Security Engineer — el mayor riesgo en cloud en 2026 es la identidad de máquinas inseguras, con ratios de identidad máquina-a-humano alcanzando 100 a 1, dando a los atacantes nuevas rutas para moverse lateralmente en entornos cloud. Mexa Solutions

AI Safety & Governance Specialist — roles que aseguran el cumplimiento normativo a lo largo del ciclo de vida de los sistemas de IA, desde la definición del riesgo hasta el monitoreo y la respuesta a incidentes. Heisenberginstitute Con solo el 44% de las organizaciones teniendo una política formal de seguridad de IA, hay enorme demanda.

Incident Response con IA — las organizaciones que usan defensas aumentadas por IA están conteniendo brechas 108 días más rápido que las que no las usan. Mexa Solutions


La tensión de fondo: velocidad vs. control

El resumen más honesto del momento lo da Darktrace: los desafíos centrales de la ciberseguridad no están cambiando dramáticamente — identidad, confianza, datos y toma de decisiones humana siguen en el centro de la mayoría de los incidentes. Lo que cambia rápido es el entorno en que estos desafíos ocurren. La IA y la automatización están acelerando todo: la velocidad con que los atacantes escalan, la amplitud con que se distribuye el riesgo, y la facilidad con que el comportamiento no intencionado puede crear impacto real. Darktrace

El diferenciador no va a ser si una organización «usa agentes», sino si puede escalarlos con gobernanza disciplinada, auditabilidad, reglas de engagement bien definidas y un programa de riesgo que pueda cuantificar y comunicar el valor de negocio de la seguridad.

Continue Reading

TENDENCIAS