Un estudio sugiere que repetir la instrucción mejora las respuestas de la IA

Una investigación de Google Research indica que duplicar el pedido dentro de un mismo mensaje puede elevar el rendimiento de varios modelos de lenguaje, sin aumentar los costos de procesamiento en la mayoría de los casos.

Mejorar una respuesta de inteligencia artificial podría no requerir instrucciones más complejas, sino simplemente repetir la solicitud original. Esta es una de las conclusiones de un estudio de Google Research, publicado en arXiv bajo el título «Prompt Repetition Improves Non-Reasoning LLMs». El trabajo plantea que duplicar el pedido dentro del mismo mensaje puede mejorar el rendimiento de varios modelos cuando no utilizan razonamiento extendido.

La técnica se basa en una idea técnica sencilla: dado que estos modelos procesan el texto en secuencia, el orden de los tokens importa. Repetir el prompt hace que cada parte de la instrucción vuelva a aparecer en el contexto y, según los autores, eso mejora la capacidad del modelo para usar la información disponible. En la práctica, esto significa que, en lugar de escribir una instrucción una sola vez, el usuario podría enviarla dos veces seguidas dentro del mismo mensaje.

El estudio sostiene que este cambio, aunque parezca mínimo, mejora los resultados en varios escenarios sin modificar el formato de salida, lo que permitiría implementarlo como un ajuste práctico en sistemas ya existentes. Por ejemplo, en lugar de escribir: «Resumí este texto en cinco líneas», se probó con: «Resumí este texto en cinco líneas. Resumí este texto en cinco líneas».

Los investigadores evaluaron la técnica en siete modelos de distintos proveedores: Gemini 2.0 Flash, Gemini 2.0 Flash Lite, GPT-4o-mini, GPT-4o, Claude 3 Haiku, Claude 3.7 Sonnet y DeepSeek V3. Las pruebas se realizaron mediante las API oficiales de cada empresa entre febrero y marzo de 2025, y se utilizaron siete benchmarks, entre ellos ARC, OpenBookQA, GSM8K, MMLU-Pro y MATH, además de dos pruebas personalizadas.

Según el paper, la repetición del prompt obtuvo mejores resultados en 47 de 70 combinaciones entre modelo y benchmark, sin registrar derrotas bajo su criterio estadístico. Uno de los hallazgos más destacados se observó en una prueba personalizada llamada NameIndex, donde Gemini 2.0 Flash-Lite pasó de un 21,33% a un 97,33% de acierto al aplicar esta técnica. Los autores aclaran que no es un resultado extrapolable a cualquier tarea, pero muestra que una variación de formato muy simple puede alterar drásticamente el desempeño en ciertos contextos.

Un punto atractivo para el uso general es que esta mejora no suele venir acompañada del costo habitual de otras estrategias. El estudio afirma que la repetición no aumenta la cantidad de tokens generados y que, cuando el razonamiento está desactivado, las latencias medidas son similares. La principal excepción se da en modelos de Anthropic con instrucciones muy largas, donde el tiempo de respuesta puede incrementarse. Esto marca una diferencia frente a indicaciones como «pensá paso a paso», que suelen alargar la respuesta y consumir más tiempo de procesamiento.

El estudio también establece límites claros: cuando el razonamiento está habilitado en los modelos, el efecto de la repetición pasa a ser neutral o apenas positivo, y ya no se observa una ventaja tan marcada.

Más allá del hallazgo técnico, la investigación es relevante porque plantea una mejora de bajo costo para aplicaciones reales de inteligencia artificial. Si el efecto se confirma en más escenarios, podría ofrecer una forma de ganar precisión en productos ya existentes, como asistentes, buscadores o sistemas de soporte, sin exigir respuestas más largas, mayores costos de generación o rediseños profundos de la experiencia.

La conclusión subyacente del trabajo va más allá de este recurso puntual: en la era de la IA generativa, no solo importa qué se pregunta, sino también cómo se formula. Incluso en sistemas cada vez más sofisticados, detalles mínimos en la presentación de la instrucción pueden cambiar significativamente la calidad de la respuesta.

Un estudio sugiere que repetir la instrucción mejora las respuestas de la IA

Tiger Woods enfrenta cargos por conducir bajo efectos tras accidente en Florida

Se debate en la provincia de Buenos Aires la posible reforma del sistema electoral

El mercado inmobiliario argentino proyecta un repunte para mediados de año

Activos argentinos se recuperan junto a Wall Street en un contexto de petróleo por encima de los US$100

La selección de Zambia recorre La Bombonera a horas del amistoso con Argentina

También puede interesarte

Nueva Jersey adopta un nuevo plan estatal de desarrollo y reurbanización

Tiger Woods enfrenta cargos por conducir bajo efectos tras accidente en Florida

Se debate en la provincia de Buenos Aires la posible reforma del sistema electoral

El mercado inmobiliario argentino proyecta un repunte para mediados de año