Centaur es un modelo de inteligencia artificial capaz de simular el comportamiento
humano con una precisión sin precedentes. A diferencia de los modelos cognitivos
tradicionales —que solo podían explicar o predecir el pensamiento, pero no ambas
cosas a la vez— Centaur combina ambas capacidades en un único sistema. Fue
entrenado sobre el dataset Psych-101, una colección de más de 10 millones de
decisiones humanas reales, y sus resultados fueron publicados en la revista
científica Nature.
Publicado en Nature, julio 2025 seguimos la evolución del proyecto
Helmholtz Munich — Institute for Human-Centered AI
Dr. Marcel Binz & Dr. Eric Schulz
CIFRAS CLAVE
+10.000.000 decisiones humanas en el dataset de entrenamiento
60.000 participantes humanos en los experimentos
160 experimentos psicológicos distintos
Nature revista donde fue publicado (julio 2025)
¿QUÉ ES CENTAUR Y POR QUÉ ES REVOLUCIONARIO?
Durante décadas, la psicología cognitiva se enfrentó a una disyuntiva que parecía
irresoluble: los modelos que explicaban cómo piensa la mente humana no lograban
predecir con precisión cómo se comporta en situaciones nuevas. Y los modelos
predictivos, a su vez, eran opacos e imposibles de interpretar. Eran mundos
separados.
Centaur llega para romper esa barrera. Desarrollado por el equipo del Dr. Marcel
Binz y el Dr. Eric Schulz en el Institute for Human-Centered AI de Helmholtz
Munich, este modelo de lenguaje fue entrenado de forma especializada sobre el
dataset Psych-101 —una colección sin precedentes de más de 10 millones de
decisiones individuales tomadas por más de 60.000 personas en 160 experimentos
psicológicos— y sus capacidades superaron a todos los modelos cognitivos
anteriores.
«Hemos creado una herramienta que permite predecir el comportamiento humano en
cualquier situación descrita en lenguaje natural — como un laboratorio virtual.»
— Dr. Marcel Binz, investigador principal del proyecto
Lo que hace a Centaur verdaderamente singular no es solo su precisión en tareas
conocidas, sino su capacidad de generalizar: puede predecir cómo se comportaría
una persona en situaciones completamente nuevas que el modelo nunca ha visto
antes. Identifica patrones de toma de decisiones, se adapta a contextos
cambiantes, y —algo que sorprendió incluso a sus creadores— predice con notable
exactitud los tiempos de reacción de los participantes humanos.
EL DATASET PSYCH-101: LA COLUMNA VERTEBRAL DEL PROYECTO
Ningún modelo es más poderoso que los datos sobre los que fue entrenado. En el
caso de Centaur, el equipo no recurrió a datos existentes: construyó desde cero
Psych-101, un dataset específicamente diseñado para capturar la diversidad y
complejidad del comportamiento humano.
Los experimentos cubren cuatro grandes áreas:
[1] TOMA DE RIESGOS
Experimentos sobre cómo las personas evalúan y asumen riesgos en
distintos contextos.
[2] APRENDIZAJE POR RECOMPENSA
Cómo los humanos ajustan su comportamiento ante refuerzos positivos
y negativos.
[3] DILEMAS MORALES
Decisiones éticas complejas en las que valores y consecuencias entran
en tensión.
[4] CONTROL EJECUTIVO
Capacidad de inhibir respuestas automáticas y actuar según objetivos
deliberados.
Cada uno de los experimentos fue procesado y estandarizado manualmente por el
equipo para asegurarse de que el modelo pudiera interpretarlos en lenguaje
natural. El resultado es una base de datos sin equivalente en la historia de
la ciencia cognitiva computacional.
HALLAZGOS CLAVE: LO QUE REVELÓ CENTAUR
ALINEACIÓN CON LA ACTIVIDAD CEREBRAL HUMANA
Uno de los hallazgos más sorprendentes fue confirmado mediante estudios de
neuroimagen (fMRI): las representaciones internas de Centaur se alinean mejor
con la actividad cerebral humana real que las del modelo base sobre el que fue
entrenado —Llama 3.1 70B— incluso aunque Centaur fue entrenado exclusivamente
con datos conductuales, sin acceso a ninguna información neurológica directa.
DATO DESTACADO: Centaur fue el primer modelo de lenguaje que superó tanto al
LLM base como a los modelos cognitivos específicos de dominio en todos los
experimentos de evaluación, incluyendo tareas completamente nuevas que nunca
había visto durante el entrenamiento.
PREDICCIÓN DE TIEMPOS DE REACCIÓN
Predecir cuánto tarda una persona en responder a un estímulo es una de las
tareas más complejas de la psicología experimental, porque refleja procesos
cognitivos profundos como la atención, la carga de procesamiento y la
incertidumbre. Centaur logra predecir estos tiempos con una precisión que
ningún modelo anterior había alcanzado.
GENERALIZACIÓN A CONTEXTOS NUEVOS
A diferencia de los modelos tradicionales, entrenados para resolver tipos
específicos de tareas, Centaur puede trasladar su comprensión a situaciones
nuevas: contextos modificados, estructuras de tareas alteradas o dominios
completamente distintos. Esto lo convierte en el primer modelo cognitivo
verdaderamente generalista.
IMPLICANCIAS CIENTÍFICAS Y CLÍNICAS
El alcance de Centaur va mucho más allá de un logro académico. Sus aplicaciones
potenciales son amplias y transformadoras:
[SALUD MENTAL]
Simular cómo toman decisiones personas con depresión, ansiedad u otros
trastornos para diseñar mejores tratamientos.
[INVESTIGACIÓN COGNITIVA]
Detectar las limitaciones de modelos psicológicos clásicos y sugerir mejoras
teóricas basadas en evidencia.
[CONTEXTOS CLÍNICOS]
Herramienta de diagnóstico auxiliar que modela patrones de decisión
individuales en entornos médicos.
[CIENCIAS AMBIENTALES Y SOCIALES]
Modelar comportamientos colectivos frente a cambio climático, políticas
públicas y dinámicas sociales.
El Dr. Schulz sintetiza la visión del equipo: el objetivo no es reemplazar la
psicología clínica, sino darle a los investigadores un «laboratorio virtual»
capaz de simular millones de escenarios sin necesidad de realizar experimentos
físicos con participantes humanos. Esto aceleraría drásticamente el ciclo de
la investigación científica.
EL CONTEXTO ÉTICO: CIENCIA PÚBLICA VS. INTERESES COMERCIALES
Un aspecto que el equipo subraya explícitamente es que este trabajo se desarrolla
en un entorno de investigación pública, no en los laboratorios de una empresa
tecnológica. Esto tiene implicancias concretas:
«Combinamos investigación en IA con teoría psicológica y un compromiso ético
claro. En un entorno de investigación pública, tenemos la libertad de perseguir
preguntas cognitivas fundamentales que a menudo no son el foco de la industria.»
— Dr. Marcel Binz
El modelo fue construido sobre Llama 3.1 70B (de Meta, de código abierto) y
está diseñado para ser ejecutado localmente, lo que garantiza la soberanía de
los datos y permite auditorías independientes. En un campo donde los modelos más
poderosos son caja negra y propiedad privada, Centaur representa una alternativa
transparente y controlable.
¿QUÉ VIENE DESPUÉS? LA HOJA DE RUTA DEL EQUIPO
PRÓXIMO PASO — Expansión de Psych-101
Incorporar características demográficas individuales, diferencias psicológicas
y nuevos dominios cognitivos al dataset, para que el modelo pueda simular
personas específicas, no solo comportamiento promedio.
INVESTIGACIÓN EN CURSO — Interpretabilidad interna
Analizar qué patrones computacionales dentro de Centaur corresponden a procesos
cognitivos específicos. ¿Es posible «ver» la atención, la memoria de trabajo o
la toma de riesgos dentro del modelo?
OBJETIVO A LARGO PLAZO — Teoría unificada de la cognición
El objetivo final de Binz es desarrollar modelos que no solo simulen
comportamientos en dominios específicos, sino que ofrezcan una visión integral
y unificada de cómo funciona la mente humana como sistema total.
2025 — PUBLICADO EN PNAS
El equipo también publicó en Proceedings of the National Academy of Sciences
un análisis sobre cómo el avance de los LLMs debería transformar el método
científico en psicología y ciencias cognitivas.
EL DESAFÍO DE CENTAUR: CRÍTICAS Y LIMITACIONES
El campo académico no recibió a Centaur sin debate. En diciembre de 2025,
investigadores publicaron en National Science Open un análisis crítico que
sugiere que el modelo podría estar memorizando patrones de los experimentos
en lugar de desarrollar una comprensión genuina de las instrucciones. Esta
distinción —memorización vs. comprensión— es central para evaluar si Centaur
realmente «piensa» o simplemente reproduce asociaciones estadísticas muy
sofisticadas.
El equipo de Helmholtz reconoce que la interpretabilidad interna es precisamente
la próxima gran pregunta por responder, lo que convierte este debate científico
en un motor, no en un obstáculo, para la investigación futura.
FUENTES Y REFERENCIAS
[1] Publicación original en Nature — Helmholtz Munich
Binz et al. (2025). A foundation model to predict and capture human cognition.
https://www.nature.com/articles/s41586-025-09215-4
[2] Nota oficial de Helmholtz Munich
«AI That Thinks Like Us – and Could Help Explain How We Think»
https://www.helmholtz-munich.de/en/hca/news-detail/ai-that-thinks-like-us-and-could-help-explain-how-we-think
[3] Sitio personal del investigador principal
Marcel Binz — Staff Scientist, Helmholtz Munich
https://marcelbinz.github.io/
[4] TechXplore — Cobertura científica
«Centaur: AI that thinks like us — and could help explain how we think»
https://techxplore.com/news/2025-07-centaur-ai.html
[5] SciTechDaily — Análisis crítico posterior
«Did Scientists Overestimate AI’s Ability To Think Like Humans?»
https://scitechdaily.com/did-scientists-overestimate-ais-ability-to-think-like-humans/
[6] New York Times — Cobertura mediática internacional
«Scientists Use A.I. to Mimic the Mind, Warts and All»
https://www.nytimes.com/2025/07/02/science/ai-psychology-mind.html
[7] AI Revolution / PoltextLab — Análisis del modelo
«Centaur: The AI Model That Thinks Like a Human?»
https://airevolution.poltextlab.com/centaur-the-ai-model-that-thinks-like-a-human/
[8] Binz & Schulz (2023) — Investigación precursora
«Using cognitive psychology to understand GPT-3» — PNAS
https://marcelbinz.github.io/imgs/Binz2023GPT3.pdf
Artículo de divulgación científica elaborado con fines informativos.
Todas las afirmaciones están basadas en fuentes académicas y periodísticas
verificadas.
Helmholtz Munich · Nature 2025 · Dr. Marcel Binz · Dr. Eric Schulz