GT Sophy podría tener un “profesor” inesperado para su próxima evolución: un modelo de lenguaje tipo ChatGPT. Esa es la idea que plantea una nueva línea de investigación que busca acelerar (y simplificar) el entrenamiento de agentes de carreras en Gran Turismo 7, transformando instrucciones en lenguaje natural en código que guía el aprendizaje.
De la teoría a la pista: por qué importa el “reward”
En reinforcement learning, el comportamiento del agente se construye a base de recompensas y penalizaciones: avanzar de forma eficiente suma, cortar curvas resta, tocar a un rival penaliza, etc. El problema es que convertir algo tan humano como “corre rápido, pero con deportividad” en una reward function sólida suele exigir muchas horas de ensayo, ajuste y retraining.
El enfoque que se está investigando pretende automatizar esa parte más artesanal del proceso, usando modelos fundacionales para generar y refinar recompensas a partir de una simple descripción textual de lo que queremos ver en pista.

Cómo funciona el sistema (y qué papel juega ChatGPT)
La propuesta se basa en una cadena iterativa: se generan recompensas, se entrena un agente, se evalúa su comportamiento y se repite el ciclo hasta acercarse al objetivo. Dicho de forma simple: menos “tocar coeficientes a mano” y más iteración guiada por IA.
- El usuario describe el estilo deseado (por ejemplo, “ganar respetando reglas y sin contactos”).
- Un LLM genera el código de recompensas que define qué es “hacerlo bien”.
- Se entrena el agente dentro de GT7 con esas recompensas.
- Un modelo con visión evalúa preferencias comparando comportamientos (mirando trayectorias y vídeo) y ayuda a seleccionar las mejores variantes.
- Se itera, con posibilidad de incluir feedback humano puntual para afinar resultados.
ChatGPT para entrenar a GT Sophy: qué resultados se han visto y límites
Las pruebas se han realizado en un escenario controlado de GT7, lo que permite medir rendimiento y “deportividad” de forma consistente. En este punto, lo más llamativo no es solo la velocidad: también la capacidad de generar conductas nuevas a partir de texto (por ejemplo, comportamientos específicos de derrape o incluso conducir marcha atrás sin saltarse reglas básicas).
Eso sí, conviene mantener los pies en el asfalto: este tipo de sistemas sigue siendo caro en cómputo y no apunta a que vayamos a “escribirle” órdenes a Sophy dentro del juego y verlas aplicadas en tiempo real. Aun así, la dirección es clara: rivales con más personalidad, menos homogéneos y, sobre todo, más rápidos de crear para los desarrolladores.
En paralelo, Polyphony Digital continúa ampliando GT7 con actualizaciones periódicas (como la actualización 1.69 de Gran Turismo 7) y explorando tecnologías basadas en IA en otras áreas del juego, como el renderizado con IA. Si ambas líneas siguen convergiendo, el futuro de la IA en Gran Turismo puede ser bastante más interesante que un simple “nivel difícil”.
Para quien quiera entrar al detalle técnico, el trabajo puede consultarse en Automated Reward Design for Gran Turismo.