Cuando la IA reemplaza a desarrolladores junior en tareas de codificación de alcance limitado, genera código nuevo o analiza aplicaciones pequeñas y simples, la ecuación económica es sencilla. Los LLMs son más baratos y productivos que los desarrolladores humanos en estos escenarios. La IA opera dentro de un contexto restringido, centrándose en una porción acotada de código donde su razonamiento probabilístico funciona bastante bien.
Pero cuando se le pide a la IA que realice ingeniería inversa de sistemas de software muy grandes y personalizados que funcionan como el «cerebro del negocio» en empresas software-intensivas, los LLMs tienen dificultades, y tanto la investigación como la experiencia de campo confirman la causa raíz: la IA necesita urgentemente contexto arquitectónico, grafos de dependencias, flujos de transacciones y de datos. Esta necesidad se vuelve aún más pronunciada cuando se trata de transformar un «sistema de aplicaciones», es decir, un conjunto de aplicaciones interconectadas que juntas soportan workflows críticos para el negocio.
La industria de la IA gasta sumas sin precedentes en potencia de cómputo bruta. Los hyper-scalers invirtieron más de 370.000 millones de dólares en infraestructura de AI solo en 2025. Se proyecta que el consumo mundial de electricidad de los data centers se duplique hasta 945 TWh en 2030. ¿Por qué? Porque investigaciones revisadas por pares del MIT (2025) y otras instituciones han revelado un punto llamativo: la mayor parte de las mejoras de la IA en los últimos años ha provenido de asignar más hardware y energía al problema, no de algoritmos más inteligentes. Pero más compute no significa más precisión. En la transformación del software empresarial, la brecha entre «plausible» y «correcto» es donde los proyectos fracasan.
Algunos argumentarán que los LLMs mejoran visiblemente año tras año, y los proveedores señalan con razón los avances en reinforcement learning orientado al razonamiento, el pre-training a mayor escala y las nuevas arquitecturas de modelos. Estos avances son reales. La pregunta es: ¿en qué proporción? Y la respuesta respalda la tesis de este artículo: la IA necesita inputs más inteligentes y contextuales para alcanzar su pleno potencial.
Si la capacidad de la IA es fundamentalmente una función de cuánto compute se consume, entonces una IA sin grounding —la que debe descubrir su entorno mediante una exploración paso a paso— está quemando el recurso más costoso de la economía de la IA, mientras produce niveles de precisión e integridad estructural demasiado bajos para la modernización empresarial. Los enfoques sin grounding cuestan 10 veces más y producen resultados demasiado poco fiables para una modernización a escala. Sin grounding, los LLMs hacen arqueología probabilística sobre millones de líneas de código, y la arqueología probabilística produce resultados probabilísticos.
La mitigación más eficaz no es un mejor prompt ni un modelo más grande. Es inyectar inteligencia determinista en la ecuación: flujos de datos reales, rutas de ejecución verdaderas, puntos de integración factuales. Información en la que la IA puede confiar para razonar sobre decenas de miles de componentes interconectados. En lugar de oponer inteligencia determinista y probabilística, este artículo sostiene que las grandes empresas deben combinar el poder de la IA con la precisión y exactitud de la tecnología de análisis determinista, para lograr la precisión e integridad estructural que requiere la modernización empresarial, a una fracción del costo.
1. La sabiduría convencional
El relato popular sobre el progreso de la IA es más o menos el siguiente: investigadores en los mejores laboratorios inventan nuevos algoritmos, arquitecturas y técnicas de entrenamiento ingeniosas. Estos avances hacen los modelos más inteligentes. El hardware ayuda, pero la verdadera magia está en el software.
Este relato es, en el mejor de los casos, incompleto. Un cuerpo creciente de investigaciones rigurosas y revisadas por pares demuestra que la infraestructura física de la IA —GPU, data centers y la electricidad para alimentarlos— ha sido el principal impulsor de las ganancias de capacidad, significativamente más que las mejoras algorítmicas o las arquitecturas de modelos.
2. La evidencia del MIT FutureTech
Dos artículos del MIT FutureTech ofrecen el análisis empírico más detallado de esta dinámica: «What Drives Progress in AI? Trends in Compute» (enero de 2025), y lo que parece ser un artículo de seguimiento «On the Origin of Algorithmic Progress in AI» (enero de 2026).
Este análisis, elaborado por Slattery, Roded, Del Sozzo y Lyu en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, establece el caso fundamental. Tomando como base los trabajos de Thompson et al. (2022) y Ho et al. (2024), el artículo concluye que el escalado del compute ha contribuido aproximadamente el doble que el progreso algorítmico a las ganancias de rendimiento efectivo de la IA (Ho et al., 2024). La potencia de cómputo utilizada para entrenar modelos de IA frontier ha aumentado aproximadamente 4-5 veces al año, superando con creces la Ley de Moore. Los actores industriales dominan el desarrollo de modelos frontier precisamente porque solo ellos pueden costear el compute necesario —el coste de entrenar un único modelo frontier asciende ya a decenas o cientos de millones de dólares. Finalmente, la relación entre compute y rendimiento sigue leyes de escalado suaves y predecibles: más compute produce de forma fiable mejores modelos, en todos los dominios.
El artículo concluye: «Si bien las mejoras algorítmicas desempeñan un papel vital, la mayoría de las ganancias de rendimiento han provenido del aumento de la potencia de cómputo.»
Este artículo de seguimiento (enero de 2026) va más lejos. En lugar de estimar la contribución relativa del hardware frente a los algoritmos, plantea una pregunta más profunda: ¿los propios avances de eficiencia algorítmica dependen del escalado del compute? La respuesta es sí. Mediante la eliminación quirúrgica de innovaciones relacionadas con algoritmos y experimentos de escalado (probando algoritmos con distintos presupuestos de compute), los autores descubren que las estimaciones anteriores acreditaban a los algoritmos una mejora de 22.000× en la eficiencia de entrenamiento entre 2012 y 2023. El nuevo artículo solo puede dar cuenta de «menos de 100×» de innovaciones algorítmicas específicas cuando se prueban experimentalmente. La brecha se explica por la «dependencia de escala»: dos innovaciones clave (la transición de LSTMs a Transformers y el cambio al equilibrio datos-parámetros óptimo de Chinchilla) ofrecen rendimientos de eficiencia crecientes a medida que el compute crece. A pequeña escala de compute, estas innovaciones aportan ganancias modestas. A escala frontier, parecen transformadoras.
El hallazgo principal: «hasta el 91 % de las ganancias de eficiencia medidas dependen del scaling exponencial histórico del compute.» Si los presupuestos de compute hubieran permanecido constantes, las innovaciones algorítmicas por sí solas habrían producido menos del 10 % de las mejoras observadas en la frontier actual. El artículo introduce también un concepto crítico: la «dependencia del marco de referencia». Una secuencia de modelos Transformer progresivamente más grandes (pero por lo demás idénticos) puede parecer mostrar un progreso algorítmico continuo en relación con una baseline LSTM, aunque nada en el procedimiento de entrenamiento haya cambiado. El «progreso» es enteramente un artefacto del desplazamiento a lo largo de una curva de scaling donde la brecha con la referencia crece con el compute. Esto crea lo que los autores describen como «la apariencia de progreso algorítmico sin nuevas innovaciones.»
Conclusión: «Los algoritmos no son más inteligentes. El hardware los hace parecer más inteligentes.»
Puede parecer contundente, pero los hallazgos del MIT no son aislados. Son coherentes con un amplio conjunto de investigaciones:
3. Los mercados de capitales y los proveedores de energía están de acuerdo
El mercado mismo revela dónde se está creando valor. El mayor ganador corporativo de la era de la IA no es una empresa de algoritmos —es NVIDIA. Los hyper-scalers cuentan la misma historia. Amazon, Microsoft, Google y Meta gastaron colectivamente más de 200.000 millones de dólares en capex de infraestructura de IA en 2024, con proyecciones que superan los 330.000 millones en 2025.
En el lado energético, la Agencia Internacional de Energía proyecta que el consumo mundial de electricidad de los data centers se duplicará hasta aproximadamente 945 TWh en 2030, el equivalente a unas dos veces la energía total consumida en Francia en 2024. El Departamento de Energía de EE. UU. informa que la electricidad consumida por los data centers pasó de 58 TWh (2014) a 176 TWh (2023), con proyecciones de entre 325 y 580 TWh para 2028.
El costo de una IA sin grounding se manifiesta en dos dimensiones. La primera es económica: tokens desperdiciados, exploración redundante, compute desbocado. La segunda, que se aborda en la Parte III, es más relevante: degradación de la precisión y compromiso de la integridad estructural del software resultante.
1. El impuesto de exploración
Cuando un agente de IA opera sobre un codebase grande, complejo y multi-tecnológico sin contexto arquitectónico determinista, debe descubrir la estructura del sistema mediante exploración, suposiciones, preguntas y ensayo-error. Cada prompt exploratorio, cada recarga de contexto, cada falso inicio causado por alucinaciones, cada ciclo de iteración consume tokens. Los agentes de IA se enfrentan a un problema de descubrimiento exponencial, que puede describirse de forma simplificada así:
Lo que debería ser una tarea enfocada se convierte en una «expedición de cartografía» que consume potencialmente millones de tokens, con una precisión que se degrada a lo largo del proceso debido a la naturaleza probabilística de cada bucle, construyendo esencialmente probabilidad sobre probabilidad sobre probabilidad. Es un problema de precisión. Cada inferencia probabilística se convierte en el fundamento de la siguiente. Para cuando el agente ha encadenado decenas de dependencias inferidas, la confianza acumulada es extremadamente baja. El desperdicio de tokens y la pérdida de precisión comparten la misma causa raíz: el agente está adivinando, y cada suposición amplifica la anterior.
2. Cuantificar el desperdicio
Los escasos estudios empíricos disponibles —principalmente de SWE-bench— miden agentes en repositorios Python open source bien estructurados de 10K a 100K líneas. Los objetivos de modernización empresarial son fundamentalmente diferentes: más grandes (con frecuencia 1M a 10M+ LOC), multilenguaje (Java, COBOL, C, frameworks, SQL, PL/SQL), con escasa documentación, décadas de deuda técnica acumulada, comentarios engañosos, dependencias circulares y convenciones de nomenclatura que frustran la exploración por palabras clave.
Estos estudios se centran en el consumo de tokens. Pero la economía va más allá del costo de los tokens: el verdadero gasto son los fallos y el retrabajo causados por una precisión e integridad insuficientes. Sin grounding, cada inferencia probabilística amplifica la siguiente, y el retrabajo provocado por alucinaciones se acumula a lo largo de las iteraciones. El desperdicio más importante no son los tokens en sí, sino un nivel de precisión tan bajo que los proyectos de modernización basados únicamente en IA son vistos cada vez más como fracasos.
Para que este artículo sea difícil de rebatir, las estimaciones que se presentan a continuación son deliberadamente conservadoras. Se extrapolan a partir de datos medidos en codebases más simples y tienen como objetivo establecer un orden de magnitud. Se invita a los lectores a considerar que las condiciones reales en entornos empresariales probablemente empujen el consumo real por encima de estas estimaciones, no por debajo.
2.1 Ingeniería inversa y refactoring
2.1.1 Primera capa: Ingeniería inversa
Esta capa cubre el trabajo analítico de comprensión de la arquitectura de cada módulo, sus dependencias, flujos de datos y lógica de negocio. Se realiza una vez por módulo, típicamente unos 50 módulos para una aplicación empresarial de tamaño mediano JavaScript/Java/SQL de 500K LOC.
| Fases | Lo que hace el agente |
Sin grounding (# tokens) |
Sin grounding (Derivación) |
Sin grounding (Precisión) |
Con grounding (# tokens y precisión) |
|---|---|---|---|---|---|
| 1. Descubrimiento inicial (ver (1)) |
Grep, cat/head en puntos de entrada, configs, archivos de build para identificar módulos y capas | 300000 | El agente lee ~5–10 % del codebase en la primera pasada. 5–10 % de 6M = 300K–600K tokens de código bruto. | Límites de módulos asumidos. Los módulos mal identificados se propagan en todas las fases posteriores | Tokens: N/A (ver (2)) Precisión: Análisis determinista |
| 2. Mapeo de dependencias e imports | Rastrea cadenas de import, lee pom.xml / build.gradle, sigue jerarquías de clases, configs de frameworks (Spring, EJB) | 250000 | Cientos de archivos. El agente debe leer configs de build + seguir cadenas. Estimación: 4–8 % del codebase releído con referencias cruzadas entre archivos. | Inferido por coincidencia de palabras clave/patrones: dependencias conectadas por framework no detectadas | Tokens: N/A Precisión: Análisis determinista |
| 3. Análisis de flujos de datos y esquemas | Lee SQL DDL, DML, mappings de entidades, llamadas JDBC/JPA, lógica de transformación de datos | 100000 | El SQL es denso en tokens. Una app de 500K LOC puede tener ~50K líneas de SQL si se lee completamente. El agente lee ~20 % en múltiples pasadas. | Relaciones entre entidades deducidas de patrones de código: joins huérfanos y efectos secundarios de procedimientos almacenados no detectados | Tokens: N/A Precisión: Análisis determinista |
| 4. Rastreo de lógica de negocio y transacciones | Sigue cadenas de llamadas a través de controladores → servicios → repositorios. Rastrea fronteras de transacciones y reglas de negocio. | 500000 | Fase más pesada. El agente debe rastrear flujos de extremo a extremo en muchos archivos, releyendo a medida que descubre aspectos transversales. Los agentes SWE-bench promedian 51 rondas para 10K líneas de Python; la mayoría de las rondas son de exploración intensiva en lectura. | Inferido, no verificado: los flujos de extremo a extremo se reconstituyen a partir de fragmentos. | Tokens: ~30.000 (para leer outputs - call graph, rutas, etc.) Tokens: N/A Precisión: Análisis determinista |
| 5. Falsos inicios e impasses | Exploración de código obsoleto, ramas equivocadas, patrones mal identificados, suposiciones alucinadas que requieren retroceso | 400000 | Algunas ejecuciones consumen 10× más tokens que otras en la misma tarea. Los agentes complejos consumen 5–20× más tokens que las cadenas simples por bucles/reintentos. De forma conservadora: 10–20 % del esfuerzo total es exploración desperdiciada. | Las suposiciones alucinadas se propagan aguas abajo: el agente puede construir planes de refactoring completos sobre premisas estructurales incorrectas | Tokens: N/A Precisión: Análisis determinista |
| 6. Recarga de contexto (acumulada) | Cada ronda reenvía el historial completo de la conversación como tokens de entrada. A lo largo de 40–80+ rondas, el contexto previo se acumula. | 750000 | Si el contexto promedio por ronda crece hasta ~100K tokens durante la sesión, y el agente realiza 50–80 rondas, se obtiene la entrada reenviada acumulativamente. Este es el «asesino silencioso». | Cada recarga arriesga una «deriva de contexto»: el agente reinterpreta sutilmente conclusiones anteriores, introduciendo inconsistencias silenciosas entre rondas | Tokens: N/A Precisión: Análisis determinista |
| 7. Bucles de aclaración humana | El desarrollador explica lo que el agente no pudo descubrir; el agente reprocesa las regiones de código afectadas con la nueva comprensión | 250000 | Cada corrección humana desencadena una re-exploración parcial. Estimación: 5 aclaraciones importantes por tarea, cada una haciendo que el agente relea 50K–100K tokens de código con nuevo contexto. | El agente carece del alcance arquitectónico para propagar una corrección a todas las áreas afectadas, dejando imprecisiones parciales | Tokens: ~50.000 (Prácticamente eliminado. Estimación de 50K tokens para casos límite) |
| 8. Validación y verificación cruzada | El agente relee el código para verificar sus propias conclusiones; comprueba la coherencia de su modelo arquitectónico | 300000 | El agente no tiene memoria persistente entre rondas — debe releer para confirmar conclusiones anteriores. Estimación: 2–3 pasadas de validación sobre módulos clave (~5 % del codebase cada una). | El agente valida contra su propio modelo inferido, no contra la realidad: la verificación circular detecta errores evidentes pero omite los estructurales | Tokens: ~50.000 (Drásticamente reducido. Estimación de 50K tokens para casos límite) |
| Tokens utilizados % de reducción |
2.850.000 | ← varianza de hasta 5×. | 150000 0.947 |
||
| Precisión | 30 % - ver (3) | 85 %+ |
(1) Nota sobre la fase de descubrimiento: La regla general según las fuentes indica que 1 token ≈ 4 caracteres para texto en inglés, pero el código es más denso, aproximadamente 3-4 caracteres por token dependiendo de la verbosidad del lenguaje. El recuento estático de tokens del codebase completo de 500K LoC sería de unos 6 millones de tokens (solo operaciones de lectura). El agente no lee todo el codebase durante la fase de descubrimiento, ya que la ventana de contexto (200K efectiva para 1M nominal) no puede contenerlo. Por ello, el agente lee selectivamente alrededor del 5-10 % del codebase, entre 250K y 500K tokens de código bruto, más prompts, historial, etc. 500K tokens para un descubrimiento «aproximado» parece ser el orden de magnitud correcto, 300K para ser conservador. Cabe destacar que, como el agente nunca puede «ver» más que un pequeño fragmento de la aplicación en un momento dado, trabaja a través de una cerradura, vuelta tras vuelta, releyendo fragmentos e intentando construir un modelo mental que en realidad no puede sostener.
(2) Con grounding, el agente recibe el mapa de componentes, sabe exactamente qué archivos modificar y comprende las dependencias de antemano. Similar a la reducción del 23-54 % constatada por SWE-Pruner, pero el grounding va más allá del pruning: elimina por completo la exploración para la parte del contexto arquitectónico (arquitectura real precalculada, grafos de dependencias, call flows, transacciones de extremo a extremo desde las entradas del usuario hasta el acceso a datos). Una estimación conservadora debería situarse en el rango de 100K-150K tokens por tarea de refactoring.
(3) La pérdida de precisión se acumula entre las fases. Un límite de módulo mal identificado en la Fase 1 conduce a un mapeo incorrecto de dependencias en la Fase 2, que produce un análisis erróneo de los flujos de datos en la Fase 3, que corrompe el rastreo de la lógica de negocio en la Fase 4. Para cuando el agente llega a la validación, está comprobando su trabajo frente a su propio modelo defectuoso, no frente a la realidad.
2.1.2 Segunda capa: Refactoring
Un refactoring completo es un conjunto de tareas, donde una «tarea» es un único ticket Jira o pull request, un cambio/funcionalidad/corrección específico (p. ej., «extraer la lógica de validación de pagos en un servicio separado», «refactorizar el manejo de errores en el flujo de pago», etc.)
Estas tareas se dividen en varias categorías:
La estimación de 1.000 tareas está en el extremo bajo del rango, especialmente considerando que cada una de ellas es un pull request discreto y revisable.
2.2 Estimación del número promedio de tokens por tarea
La documentación de Claude Code menciona que un desarrollador consume aproximadamente 300K-600K tokens por tarea básica (tareas de codificación en codebases familiares y de pequeño tamaño). SWE-bench por su parte muestra ~1M de tokens por tarea para repositorios Python pequeños (10K LoC) y bien estructurados. Para tareas de refactoring Java/SQL en entornos empresariales, el agente debe redescubrir el contexto cada vez, gestionar falsos inicios, recargas de contexto, etc. Una estimación mínima realista por tarea de refactoring debería situarse entre 1,5M y 2M de tokens. Esta cifra por tarea utilizada en este modelo también es deliberadamente conservadora. El baseline de SWE-bench de ~1M de tokens por tarea se midió en lo que son, sin duda, las condiciones más favorables que un agente de IA puede encontrar. Incluso bajo estas condiciones favorables, el agente consumió 693K tokens solo en operaciones de lectura (911K tokens en total a lo largo de aproximadamente 51 turnos de interacción, Sonnet 4.5) para intentar corregir un único bug.
El hallazgo del ICLR 2026 de una varianza de hasta 10× entre ejecuciones en tareas idénticas refuerza la idea de que una tarea con un promedio de 1,5M de tokens podría fácilmente alcanzar 5-10M en una ejecución desfavorable. En términos generales, los informes del sector indican que los workflows agentic han multiplicado el consumo de tokens por tarea entre 10 y 100× desde finales de 2023 (Adaline Labs, 2025). Por tanto, la estimación de 1,5-2M es una cifra que los profesionales empresariales pueden encontrar optimista.
3. Traducir los tokens en dólares (y en valor de negocio)
La modernización de nivel empresarial justifica el uso de modelos frontier; aplicando las estimaciones anteriores y la tarificación de Opus 4.6 (15 $/75 $ por millón de tokens de input/output) y un costo mixto de I/O de tokens (80/20 Input/Output), un programa de modernización de 1.000 tareas sobre una aplicación Java/SQL de 500K LOC costaría aproximadamente 43.000 $ en consumo de tokens solo, sin grounding arquitectónico. Con grounding determinista, el mismo programa consumiría aproximadamente 125 millones de tokens a un costo de unos 3.300 $, con un ahorro de unos 40.000 $ y más del 90 % de los tokens.
| Actividad | Sin grounding (# tokens) |
Sin grounding (Costo @ $27/M*) |
Con grounding (# tokens) |
Con grounding (Costo @ $27/M*) |
Ahorros |
|---|---|---|---|---|---|
| Ingeniería inversa (30 módulos × estimación por módulo) | 85,5M | 2309 | 4,5M | 122 | 2187 |
| Refactoring (1.000 tareas × estimación por tarea) | 1,5B | 40500 | 120M | 3240 | 37260 |
| Programa total % de reducción de tokens |
1,59B | 42809 | 124,5M | 3362 | 39447 0.921 |
| Precisión | 0.3 | 85 %+ |
(*) Costo mixto (80/20 Input/Output), en línea con los hallazgos de SWE-bench sobre el balance Input/Output.
Vale la pena destacar que, sin grounding, la ingeniería inversa y el refactoring no están claramente separados en la práctica. Lo que ocurre es que el agente recibe una tarea (p. ej., «extraer la validación de pagos en un servicio separado») y comienza a explorar el codebase para entender el área relevante, luego intenta realizar los cambios en el código, luego explora más para validar dependencias, etc. Económicamente, esto significa que por cada dólar gastado en cambios de código reales, se gastan tres dólares en redescubrir el contexto arquitectónico. Con grounding, la ingeniería inversa se realiza una sola vez, fuera del agente, mediante CAST Imaging u otro motor de análisis determinista. La arquitectura precalculada se convierte en el input de cada tarea de refactoring.
4. El problema de los agentes desbocados. Y empeora.
Los escenarios anteriores asumen supervisión humana. Cuando las organizaciones despliegan agentes de IA autónomos sin grounding determinista, la economía puede volverse peligrosa:
Cada uno de estos modos de fallo no solo quema tokens. Produce código construido sobre errores acumulados, amplificando la crisis de precisión descrita en la Parte III más adelante.
Los frameworks agentic modernos incluyen ahora guardrails —presupuestos de tokens, límites de iteraciones, detección de bucles y cortacircuitos de costos— que previenen los escenarios más extremos de descontrol. Los mecanismos de guardrails y control de costos han surgido desde 2025 para prevenir costos desbocados. Los frameworks agentic (LangChain/LangGraph, CrewAI, etc.) permiten ahora establecer un número máximo de «pasos de pensamiento» por ejecución de agente... y Anthropic u OpenAI aplican cuotas de solicitudes por minuto y diarias/semanales, precisamente porque los grandes usuarios de Claude Code estaban quemando tokens a tasas insostenibles. Estos mecanismos son necesarios y bienvenidos. Pero son limitadores de daños, no soluciones. Los guardrails limitan el techo del desperdicio; el grounding elimina la causa del desperdicio.
Los ahorros de costos importan, pero no son la razón por la que fracasan los proyectos de modernización. El argumento real a favor del grounding determinista es la precisión y la integridad estructural.
Sin grounding arquitectónico, los agentes de IA que operan sobre aplicaciones de nivel empresarial están, por diseño, «adivinando». Infieren dependencias en lugar de conocerlas. Asumen patrones estándar donde existen desvíos legacy. Alucinan límites de servicios que no coinciden con la realidad. Los propios LLMs, cuando se les pregunta directamente, lo reconocen: necesitan inteligencia arquitectónica determinista (mapas reales de componentes, grafos de dependencias verificados, rutas de ejecución factuales, acceso a datos preciso...) para razonar de forma fiable sobre sistemas complejos.
Gemini de Google, por ejemplo, menciona la necesidad de un «Architectural Cheat Sheet». En resumen, piden ser groundados, o ser «context-aware». Una vez que se proporciona ese contexto, la diferencia en precisión e integridad es medible. Sin grounding, la precisión de la IA en aplicaciones empresariales complejas ronda el 30 % según varios proyectos reales. Con contexto arquitectónico determinista inyectado en el proceso, esa cifra supera el 85 % según un gran integrador de sistemas global que ha probado esto en múltiples aplicaciones de nivel empresarial.
Esto importa porque en la modernización de software empresarial, la precisión no es un espectro. Es un umbral: un módulo refactorizado en un 85 % no es útil en un 85 %. Si el 15 % restante incluye dependencias omitidas, fronteras de transacción rotas o flujos de datos cortados, el módulo puede ser peor que lo que reemplazaba.
Un enfoque basado únicamente en IA también puede introducir vulnerabilidades, romper la lógica de negocio o corromper datos silenciosamente. En industrias reguladas —banca, seguros, sanidad, aeronáutica, etc.— un único defecto estructural no detectado puede desencadenar fallos de auditoría, incumplimientos normativos o incidentes operacionales cuyos costos superan con creces cualquier ahorro en tokens. La integridad estructural amplifica esta preocupación. Incluso cuando los cambios de código individuales parecen correctos de forma aislada, el efecto acumulado de cientos de modificaciones generadas por IA en un sistema complejo puede degradar las cualidades a nivel de sistema —resiliencia, seguridad, rendimiento— de formas que solo se hacen visibles bajo carga o en producción. El análisis determinista aplicado según estándares establecidos (CWE para vulnerabilidades de seguridad-resiliencia-eficiencia, ISO 5055 para la calidad estructural global a nivel de sistema) proporciona la capa de verificación que la IA probabilística simplemente no puede ofrecer por sí sola. Sin ella, cada cambio generado por IA es una apuesta no verificada sobre la solidez estructural, lo que significa que la carga de verificación humana crece de forma exponencial.
Los artículos del MIT ayudan a replantear el problema de las alucinaciones. Los LLMs son sistemas probabilísticos. Cuando se les pide que deduzcan relaciones arquitectónicas a partir del código, infieren en lugar de analizar. El artículo del MIT de 2026 muestra que las mejoras algorítmicas no han cambiado esto fundamentalmente. Lo que ha mejorado es que más compute hace que los outputs probabilísticos parezcan más plausibles. Pero mientras que «más plausible» o «muy plausible» es aceptable en numerosas áreas, en ingeniería de software «más plausible» no es «correcto».
Así, aunque un ahorro de aproximadamente 40.000 $ en un programa de modernización es bienvenido, la pregunta más fundamental es: ¿cuál es el costo de modernizar incorrectamente una aplicación mission-critical? Para la mayoría de las empresas, la respuesta es varios órdenes de magnitud por encima del presupuesto de tokens. El grounding determinista no solo hace la IA más barata: la hace suficientemente confiable para usarla en los sistemas que más importan.
Con una precisión del 30 %, un programa de modernización de 1.000 tareas no produce una aplicación modernizada —produce un pasivo. Cada dependencia rota no detectada, cada flujo de datos cortado, cada transacción silenciosamente corrompida es un defecto que se manifestará en una auditoría, en producción o en una brecha de seguridad.
Esto no es un problema de costos. Es una crisis de integridad.
Los números hablan por sí solos. Sin grounding, un programa de modernización de 1.000 tareas quema aproximadamente 43.000 $ en tokens —de los cuales el 92 % se gasta en que el agente intente entender lo que está mirando, no en cambiar código. Con grounding determinista, el mismo programa cuesta aproximadamente 3.300 $.
El grounding determinista cambia la ecuación por completo. No haciendo la IA más inteligente, sino dándole algo que ninguna cantidad de compute puede generar por sí sola: la verdad sobre cómo funciona realmente un sistema. Grafos de dependencias reales. Rutas de ejecución verificadas. Flujos de datos factuales. Cuando la IA sabe en lugar de adivinar, la precisión supera el 85 %, el consumo de tokens cae un orden de magnitud, y la modernización se convierte en un proceso de ingeniería controlado en lugar de un costoso experimento probabilístico.
La decisión para las empresas no es si deben usar la IA —esa pregunta está resuelta. La decisión es si dejar que la IA explore a ciegas, quemando el recurso más escaso de la economía tecnológica en alucinaciones y retrabajo, o groundarla con inteligencia determinista y dirigir cada token hacia trabajo productivo.
Un camino lleva al 40 % de proyectos de IA agentic que Gartner predice serán abandonados para 2027. El otro lleva a una modernización impulsada por IA que realmente entrega resultados —dentro del presupuesto, a tiempo y con la integridad estructural que los sistemas mission-critical exigen.

Escrito por: Vincent Delaroche, fundador de CAST
Empresario apasionado y líder de opinión del sector, Vincent ha llevado a CAST desde una startup francesa creada en un sótano hasta convertirse en líder mundial en su categoría de mercado.
Vincent es un firme creyente en que «no puedes gestionar lo que no ves». Inició un movimiento que llevó a la creación de la categoría de mercado Software Intelligence, para ayudar a los propietarios de aplicaciones a tomar decisiones basadas en hechos, controlar los riesgos del software, acelerar la modernización, el cloud y la adopción de la IA a lo largo del ciclo de desarrollo de software.
En CAST, está construyendo una empresa a largo plazo, con la misión de dotar a los humanos y a la IA de la inteligencia que necesitan para entender, mejorar y transformar su software.
Vincent estudió Ingeniería Mecánica e Informática. Ama a su familia, su negocio, y apoya organizaciones benéficas para la educación infantil en Estados Unidos y Francia. Pasa su tiempo libre navegando por el Atlántico.
Sources: