NVIDIA ofrece acceso gratuito vía API a decenas de modelos de IA potentes a través de su plataforma build.nvidia.com/models (parte de NVIDIA NIM — NVIDIA Inference Microservices). Esto permite probar y desarrollar con modelos de vanguardia sin costo inicial, usando una interfaz compatible con OpenAI SDK. Es ideal para pruebas de desarrollo, experimentación y prototipado.
¿De qué se trata?
NVIDIA hospeda más de 80-150 modelos (el catálogo crece constantemente) en endpoints serverless gratuitos. Muchos son de proveedores chinos y abiertos de alto rendimiento, como:
DeepSeek V4 (incluyendo DeepSeek V4 Flash): Modelo MoE de 284B parámetros (13B activos en Flash) con contexto de hasta 1M tokens. Optimizado para coding, agents y razonamiento largo. Hay versiones Pro y Flash; excelente para tareas de programación y análisis de documentos extensos.
MiniMax M2.7: Modelo de 230B parámetros (MoE, ~10B activos), fuerte en coding, razonamiento, tareas de oficina y workflows agenticos. Se destaca en ingeniería de software, edición de documentos (Excel/PPT/Word) y auto-mejora. Recientemente open-source y disponible en NVIDIA.
GLM 5.1 (o GLM-5.1 / variantes como GLM-4.7): Flagship de Zhipu AI (THUDM/GLM), excelente para workflows agenticos, coding, razonamiento de largo horizonte y multilingual. Muy versátil para tareas complejas.
Gemma 4 (ej. google/gemma-4-31b): De Google DeepMind, modelos livianos pero potentes para chat, razonamiento y tareas generales.
Otros destacados mencionados en la comunidad incluyen Kimi (Moonshot AI) para contexto largo, Qwen, Mistral, Llama/Nemotron de NVIDIA/Meta, embeddings, visión, etc. Hay filtros para “Free Endpoint”.
Ventajas para desarrollo
Compatible con OpenAI SDK: Solo cambias base_url y usas tu API key. Fácil integración en código Python, Node, etc.
Ejemplo básico:Python
from openai import OpenAI
client = OpenAI( base_url=»https://integrate.api.nvidia.com/v1″, api_key=»nvapi-TU_CLAVE_AQUÍ» # Empieza con «nvapi-« )
response = client.chat.completions.create( model=»minimaxai/minimax-m2.7″, # o «deepseek-ai/deepseek-v4-flash», etc. messages=[{«role»: «user», «content»: «Hola, ¿cómo estás?»}] )
Perfecto para pruebas: Rate limits razonables (~40 RPM en muchos casos, varía por modelo y horario). No requiere tarjeta de crédito para el tier gratuito (antes créditos, ahora más orientado a rate limits para dev). Ideal para prototipos, benchmarks y no para producción pesada.
Integración con herramientas: Funciona bien con OpenCode (IDE/coding agent) y OpenClaw (agente que accede archivos, ejecuta comandos). La comunidad ha creado configs y herramientas TUI para alternar automáticamente entre modelos gratuitos según latencia. También compatible con Cursor, Zed, etc.
Cómo obtener acceso (pasos simples)
Ve a build.nvidia.com/models y regístrate/inicia sesión con cuenta NVIDIA (gratis, solo email).
Genera una API key en el dashboard (sección API keys).
Explora el catálogo → filtra por “Free Endpoint”.
Copia el ID del modelo (ej. minimaxai/minimax-m2.7 o deepseek-ai/deepseek-v4-flash) y úsalo con base_url = «https://integrate.api.nvidia.com/v1».
Hay blueprints, ejemplos de código y opciones para self-host con NIM en tus GPUs si luego escalas.
Limitaciones importantes
Tier gratuito para desarrollo: No está pensado para producción de alto volumen (rate limits, posible congestión en modelos populares en horarios pico). NVIDIA puede ajustar límites.
Algunos modelos tienen “Downloadable” (para self-host) además del endpoint gratuito.
Rendimiento varía: Modelos grandes como MiniMax o DeepSeek V4 pueden ser más lentos si hay demanda alta.
Términos de uso: Governed by NVIDIA (prueba/trial) + licencia del modelo original. Usa responsablemente.
¿Por qué lo hace NVIDIA?
Forma parte de su estrategia con NIM para acelerar adopción de IA: ofrece inference optimizada en su infraestructura (GPUs Blackwell, etc.), facilita prototipado y luego incentiva despliegues self-hosted o pagos. También promueve ecosistema (DeepSeek, MiniMax, GLM, Gemma, etc.) junto a sus propias optimizaciones (TensorRT-LLM, etc.).
Esta iniciativa se volvió viral en comunidades de devs (Reddit, X/Twitter, LinkedIn) porque da acceso “gratis” a modelos frontier-like sin gestionar GPUs ni pagar por tokens inicialmente. Es una gran oportunidad para probar DeepSeek V4, MiniMax M2.7, GLM 5.1 y otros en proyectos reales de coding y agents.
Si estás desarrollando, te recomiendo empezar ya: crea la key y prueba un par de modelos en paralelo para ver cuál te gusta más para tu caso (coding vs. razonamiento vs. contexto largo).
En esta segunda parte profundizamos en las herramientas concretas disponibles hoy para construir sistemas multi-agente, diferenciando tres capas: los frameworks de código abierto con control total (LangGraph, AutoGen, CrewAI, PydanticAI), los SDKs oficiales lanzados por los grandes labs entre marzo y abril de 2025 (OpenAI Agents SDK, Google ADK, Claude Agent SDK), y las plataformas enterprise managed que priorizan time-to-market sobre control fino (Bedrock Agents, Copilot Studio, Salesforce Agentforce). Se incluyen casos de negocio reales con métricas documentadas —Klarna, Intercom/Synthesia, DoorDash, Dun & Bradstreet— y un árbol de decisión para elegir el stack según el tipo de equipo, workflow y restricciones regulatorias. El panorama converge hacia arquitecturas heterogéneas conectadas por el protocolo A2A, donde el orquestador y los workers pueden vivir en frameworks distintos.
Casos reales con métricas
Estos son deployments en producción documentados con números concretos:
Klarna — Soporte al cliente (pipeline secuencial + agente único) El asistente de Klarna manejó dos tercios de los chats de soporte entrantes en su primer mes, procesando 2,3 millones de conversaciones, reduciendo el tiempo de resolución de ~11 minutos a menos de 2 minutos. La empresa proyectó una mejora de ~$40M en ganancias para 2024 asociada a estas eficiencias de IA. Arquitectura: OpenAI Agents SDK + handoff a humano cuando el bot no puede resolver. Skywork
Intercom Fin (con Claude) — Soporte técnico SaaS (reflexivo) Fin AI Agent reporta en promedio un 51% de resolución automatizada entre sus clientes. En el caso de Synthesia, ahorró más de 1.300 horas de soporte en seis meses resolviendo más de 6.000 conversaciones; ante un pico de volumen del 690%, el 98,3% de los usuarios se auto-atendió sin escalar a humanos. Skywork
DoorDash — Soporte operacional en AWS (paralelo + orquestador) AWS documenta el uso de su agente Bedrock por DoorDash para soporte, con métricas de containment de llamadas y latencia en workloads productivos durante 2024-2025. El sistema orquesta múltiples agentes especializados: uno para política de reembolsos, otro para rastreo de pedidos, otro para escalar a humanos. Skywork
Dun & Bradstreet — Inteligencia de datos (jerárquico) D&B usa agentes de IA para que sus clientes interactúen con los datos de 500 millones de negocios que la empresa recopila. «Para nosotros, los agentes son esenciales para interactuar con nuestros datos», según su chief data and analytics officer. Sirven al 95% de las Fortune 500 para decisiones de crédito, supply chain, ventas y marketing. CIO
Procesamiento de documentos de préstamos (pipeline + reflexivo) Un sistema productivo puesto en marcha a mediados de 2024 procesó 50.000 documentos en noviembre de ese año. Con automatización tradicional, los humanos revisaban casi cada documento; con IA ese porcentaje se invirtió: en documentos de préstamos, el porcentaje automatizado está en los 90s bajos, con solo algunos porcientos necesitando revisión manual. CIO
Manhattan Associates — Logística (enjambre coordinado) Manhattan Associates desplegó Active Agents como «compañeros digitales» para warehouse management, transportation management y order management. Monitorean el trabajo, resuelven excepciones, guían usuarios, automatizan tareas y recomiendan acciones para reducir el esfuerzo manual.
El protocolo que va a unificar todo: A2A
Google introdujo en ADK soporte nativo para el protocolo A2A (Agent-to-Agent), que permite comunicación entre agentes de distintos frameworks. Un agente ADK puede descubrir e invocar a un agente construido con LangGraph o CrewAI a través de la interfaz estandarizada de A2A. Esto es importante porque significa que podés tener arquitecturas heterogéneas: tu orquestador en LangGraph puede llamar a un worker especializado construido con CrewAI o con el SDK de Claude.
Resumen práctico: el stack por presupuesto
Startup / MVP → CrewAI + OpenAI Agents SDK. Prototipás en días, validás el caso de uso. Cuando el workflow se complica, migrás el orquestador a LangGraph.
Empresa mediana / scale-up → LangGraph como base de orquestación + modelo según caso (Claude para razonamiento complejo, GPT-5 para conversacional, Gemini para multimodal). Observabilidad con Langfuse.
Enterprise / infraestructura cloud propia → Bedrock Agents si están en AWS; Google ADK si están en GCP; Copilot Studio si Microsoft 365 es el core. Todos con LangGraph por debajo para los flujos más complejos.
Caso altamente regulado (finanzas, salud, legal) → Claude Agent SDK por Constitutional AI + LangGraph para el grafo de control + human-in-the-loop en puntos críticos.
Hay 5 patrones principales que se combinan según la complejidad del problema:
Cuándo usar cada una
Pipeline secuencial → tareas donde cada paso depende del anterior. ETL de datos, ingesta + análisis + reporte. Simple de debuggear, frágil ante fallos.
Paralelo → cuando tenés subtareas independientes y querés velocidad. Investigar 10 fuentes a la vez, correr tests en paralelo. Cuidado con el estado compartido.
Reflexivo (critic loop) → cuando la calidad importa más que la velocidad. Generación de código, redacción técnica, decisiones de alto impacto. El «crítico» puede ser otro LLM o incluso el mismo modelo con un prompt diferente.
Jerárquico → sistemas complejos con dominio claro de subdivisión. Lo más parecido a un equipo humano: hay un «manager» que delega a especialistas. Es el patrón más potente pero también el más difícil de coordinar.
Enjambre / gossip → experimental. Los agentes se comunican entre pares sin jerarquía central. Útil para consenso distribuido o exploración creativa, pero difícil de controlar y auditar.
Caso de ejemplo: generador de informes de mercado
Imaginá que querés un sistema que, dada una empresa como input, produzca un informe de análisis competitivo completo.
El flujo concreto de ese sistema sería:
Paso 1 — Orquestador CEO recibe «analizar TechCorp», descompone en 3 subtareas paralelas e instancia los agentes workers.
Paso 2 — Ejecución paralela (los 3 agentes corren simultáneamente): el Agente Research hace web search con Tavily; el Agente Financiero consulta APIs como Alpha Vantage o Yahoo Finance; el Agente Competencia arma un SWOT comparando con competidores.
Paso 3 — Redactor recibe los 3 outputs, los fusiona en un borrador coherente con secciones bien estructuradas.
Paso 4 — Crítico evalúa: ¿hay contradicciones entre los datos financieros y el análisis de mercado? ¿Hay afirmaciones sin fuente? Si detecta problemas, manda feedback al Redactor (máximo 2-3 iteraciones). Si aprueba, el informe sale.
Para construir esto en la práctica, las opciones más sólidas son:
LangGraph (Python) → ideal para flujos con estado explícito y ciclos. El grafo de agentes es literal, lo podés visualizar y debuggear. Mejor para sistemas complejos.
CrewAI → más alto nivel, orientado a roles. Define «CEO», «Research Analyst», «Writer» como entidades con personalidad y goals. Más fácil de arrancar, menos control fino.
AutoGen (Microsoft) → fuerte en conversaciones multi-agente con back-and-forth. Muy bueno para el patrón reflexivo/crítico.
Claude + tool use directo → para el caso de Argentina donde el presupuesto importa, muchas veces un orquestador simple en Python con llamadas a la API de Claude usando tool_use alcanza y evita la complejidad de los frameworks.
La arquitectura híbrida del ejemplo (jerárquica + paralela + reflexiva) es la que mejor escala para casos de uso reales
Son dos caminos hacia la autonomía artificial. Parecen distintos. En el fondo, convergen en la misma pregunta que define la próxima década de la IA: ¿puede un sistema de inteligencia artificial desarrollar capacidades que nadie programó?
Qué es cada una, sin rodeos
La IA Autoreplicante es un agente que puede crear copias funcionales de sí mismo: replican su arquitectura, sus parámetros, sus objetivos y sus capacidades operativas. No necesita intervención humana para propagarse. La replicación puede ser idéntica —como una copia exacta— o adaptativa, generando variantes con ajustes según el contexto donde se despliega.
La IA Evolutiva (IAE) no parte de un original que copiar sino de reglas de variación y selección. Genera poblaciones de soluciones candidatas, las somete a una función de fitness que mide su desempeño, conserva las mejores, descarta las peores y repite el ciclo durante miles de generaciones. El resultado no estaba diseñado: emergió.
La diferencia de fondo es filosófica antes que técnica. La autoreplicante conserva y multiplica. La evolutiva transforma y descarta. Una preserva el diseño original. La otra lo supera.
Lo que tienen en común
Son más parecidas de lo que parece a primera vista, y eso es precisamente lo que las hace relevantes juntas.
Las dos escapan al control lineal. Una IA autoreplicante que se propaga genera instancias que el operador original no controla directamente. Una IAE que converge a una solución de alta fitness puede llegar a comportamientos que nadie anticipó. En ambos casos, el sistema opera más allá del scope intencional de quien lo diseñó.
Las dos requieren compute masivo como variable limitante. La autoreplicante necesita recursos para instanciar copias. La evolutiva necesita ciclos de evaluación iterados —a veces millones de ellos— para que la selección converja. En 2026, con la carrera de infraestructura que describimos en La Carrera Agéntica, el compute deja de ser el cuello de botella. Eso cambia el escenario de riesgo y de oportunidad simultáneamente.
Las dos convergen en los sistemas agénticos actuales. Los agentes de producción de 2026 —Anthropic Managed Agents, Google Agent Platform, Microsoft Foundry— tienen elementos de ambos paradigmas: replican patrones de trabajo humano para arrancar rápido, y optimizan su estrategia iterativamente según resultados de ejecución. La dicotomía teórica se disuelve en el producto real.
Las dos plantean el mismo problema de evaluación. ¿Cómo sabés que una réplica es fiel y segura? ¿Cómo sabés que el resultado evolutivo es robusto y no solo localmente óptimo? La métrica de éxito —y quién la define— es el problema más difícil en ambos casos, y el que concentra la mayor parte del debate sobre alineamiento.
En qué divergen radicalmente
La primera divergencia es de origen del comportamiento. La autoreplicante transfiere comportamiento existente: lo que se propaga es conocimiento ya validado, intenciones ya definidas. La evolutiva genera comportamiento nuevo: nadie sabe exactamente qué va a producir la selección hasta que converge.
La segunda es de dominio de aplicación. La IA autoreplicante brilla donde hay un patrón de excelencia que vale la pena escalar: un agente de atención al cliente que funciona bien en Buenos Aires y hay que desplegar en 50 ciudades, o un workflow especializado que un equipo tardó meses en afinar. La IAE brilla donde el espacio de soluciones es demasiado grande para que un humano lo explore: diseño de proteínas, optimización de algoritmos matemáticos, arquitectura de redes neuronales.
La tercera divergencia —la más importante para los próximos años— es de tipo de riesgo. La IA autoreplicante hereda y amplifica los problemas del original: si el agente origen tiene sesgos, los distribuye a escala; si tiene un fallo de seguridad, lo replica en cada instancia. La IAE puede converger a soluciones correctas pero completamente opacas —nadie sabe por qué el fitness score es alto, solo que lo es— creando sistemas que funcionan pero no se pueden auditar. Dos tipos de riesgo distintos. Los dos serios. Los dos activos en producción hoy.
Ejemplos concretos que existen ahora
IA Autoreplicante en operación:
Agentes de voz (Grok Voice Agent API, CallMe + Claude Code) que se instancian en múltiples sesiones paralelas replicando el mismo perfil de comportamiento
OpenAI Workspace Agents replicando el workflow de un especialista humano a escala organizacional
Sistemas multiagente donde un agente «supervisor» genera sub-agentes con sus mismas capacidades para paralelizar trabajo
IA Evolutiva en operación o investigación avanzada:
AlphaEvolve de Google DeepMind: rediseñó la multiplicación de matrices superando el algoritmo de Strassen después de más de 50 años de vigencia, usando selección evolutiva iterada sobre variantes generadas por LLMs
AlphaFold 3: usa principios de búsqueda evolutiva para predecir estructuras proteicas
Experimentos de Dan-Eric Nilsson con organismos virtuales que desarrollaron estructuras equivalentes a ojos biológicos desde cero, sin que nadie les dijera qué construir, solo aplicando presión de selección sobre miles de generaciones
Hacia dónde va cada una
La IA Autoreplicante se dirige hacia la personalización masiva de agentes especializados. El horizonte 2027-2030 es un ecosistema donde cada organización tiene réplicas digitales de sus workflows críticos: agentes que heredan el conocimiento del equipo, se despliegan en múltiples instancias y operan en su nombre para tareas de menor complejidad decisional. Los frenos más importantes son regulatorios y de identidad: ¿quién es responsable de lo que hace una réplica? ¿Puede un agente replicarse sin consentimiento explícito?
La IA Evolutiva se dirige hacia el descubrimiento científico autónomo. AlphaEvolve es el primer paso de una secuencia que puede llevar a sistemas capaces de formular hipótesis, diseñar experimentos virtuales, evaluar resultados y proponer hallazgos sin intervención humana en el loop de investigación. El debate filosófico sobre si eso constituye «ciencia real» ya empezó.
El punto de convergencia real está en los sistemas que hacen las dos cosas: replican conocimiento experto para arrancar con ventaja, y luego evolucionan más allá de ese conocimiento inicial por selección iterativa de estrategias. Los agentes agénticos de 2026 tienen esa arquitectura en embrión. En 2028-2030 será el estándar, y la pregunta sobre quién controla qué parte del ciclo —humano o máquina— será la pregunta central del diseño de sistemas.