De las Cadenas de Markov a los LLM: cómo funciona la IA por dentro

Hace 19 años empecé mi Proyecto Final de Carrera junto a Chema Alonso en Informática 64, una de las cunas de la ciberseguridad de nuestro país. No sé si era el agua de Móstoles o el equipo que se juntó en esta empresa, pero se hicieron cosas chulas por aquella época. A mi PFC lo llamamos Prefetching Web Browsing, y la idea era sencilla de enunciar (aunque llevó unas cuantas líneas de C# y C++ implementarlo...), predecir la navegación de un usuario sobre un servidor IIS para precargarle, mediante AJAX, las páginas que con mayor probabilidad iba a visitar a continuación. Recordad que AJAX acababa prácticamente de salir, era algo novedoso aún. Para conseguirlo aplicábamos el teorema de las Cadenas de Markov, modelando la navegación como una secuencia de estados en la que la página siguiente dependía de la actual y de las probabilidades de transición que habíamos observado. Visto con la perspectiva de hoy puede sonar artesanal, pero para la época fue una pequeña innovación, y sobre todo fue mi primer contacto serio con algo que entonces no nos atrevíamos a llamar "IA" tan a la ligera, usar un modelo probabilístico para anticipar comportamiento. Aquello me enganchó tanto que después hice un postgrado de estadística, el postgrado de Ingeniería de Sistemas de Decisión de la URJC, el cual me dio paso a poder doctorarme después y donde profundicé muchísimo más en estadística y en sus primeras aplicaciones a la inteligencia artificial.

Cuento todo esto porque hace unos meses alguien del mundillo que trabajó conmigo me soltó en tono jocoso que aquello que aprendí ya no servía para nada, que estaba obsoleto, que la IA moderna había dejado atrás esos fundamentos (¿me vino a llamar viejales...? puede... aunque tiene alguna década mas yo...). Si habéis profundizado en este campo, estaréis conmigo en que esta persona lógicamente se equivocaba, no por nostalgia, sino porque confunde la herramienta con el fundamento. Cuando hoy hablamos de modelos de lenguaje, de redes neuronales o de sistemas generativos, estamos hablando, en el fondo, de estadística aplicada a una escala que entonces no podíamos ni imaginar. Han cambiado los nombres y la potencia de cálculo es incomparable, pero los cimientos son exactamente los que estudiábamos. Un modelo de IA, por debajo de toda la capa de marketing, no es más que vectores y matrices. Cada palabra, cada píxel, cada concepto se representa como un vector numérico, un embedding, y el conocimiento del modelo vive en gigantescas matrices de pesos sobre las que se encadenan multiplicaciones, una detrás de otra. Por ello la necesidad ingente de computo para hacerlos "correr".

Permitidme bajar un momento al detalle, porque entender cómo se construye, por ejemplo, un LLM por dentro es la mejor forma de ver que todo esto es, esencialmente, álgebra lineal y probabilidad. Salvando temas menores, podemos decir que lo primero que ocurre es la tokenización y el embedding. Es decir, el texto se trocea en unidades llamadas tokens (palabras, sub-palabras o caracteres), y cada token se transforma en un vector de números reales de dimensión fija, pongamos del orden de 768 o 4096 componentes según el modelo. Ese vector es la "coordenada" del token en un espacio semántico, y el conjunto de todos los embeddings posibles forma una gran matriz de tamaño V × d, donde V es el tamaño del vocabulario (decenas o cientos de miles de tokens) y d la dimensión del embedding. Cuando metemos una frase de n tokens en el modelo, en realidad estamos introduciendo una matriz X de tamaño n × d: una fila por token, una columna por dimensión semántica.

Sobre esa matriz X se aplica el mecanismo de atención, que es el corazón del transformer. El modelo proyecta X mediante tres matrices de pesos aprendidas, W_Q, W_K y W_V, obteniendo tres nuevas matrices. Las consultas (Q), las claves (K) y los valores (V). El cálculo central es simple, se multiplican las consultas por las claves traspuestas, Q·Kᵀ, lo que produce una matriz de puntuaciones donde cada celda mide cuánto "atiende" un token a otro. Esas puntuaciones se escalan, se pasan por una función softmax que las convierte en una distribución de probabilidad (todas suman 1), y se usan para ponderar los valores V. Dicho de otro modo, cada token se recalcula como una media ponderada de todos los demás, y los pesos de esa media son probabilidades. Aquí está, otra vez, la misma idea que Markov, pero generalizada a relaciones entre todos los elementos de la secuencia simultáneamente.

Tras la atención, cada capa del modelo pasa el resultado por una red neuronal feed-forward (más multiplicaciones de matrices con sus funciones de activación) y por normalizaciones, y este bloque se repite decenas de veces, apilando capas. Al final, el modelo produce, para cada posición, un vector de logits del tamaño del vocabulario, que un último softmax convierte en la probabilidad de cada posible token siguiente. Generar texto es, literalmente, muestrear de esa distribución una y otra vez. Y todo el "aprendizaje" no es más que ajustar los millones de números de todas esas matrices de pesos mediante descenso de gradiente. El modelo predice, se mide el error con una función de pérdida, se calcula la derivada de ese error respecto a cada peso y se corrige un poquito en la dirección que reduce el error. Repetido billones de veces sobre cantidades ingentes de texto. En el fondo, no hay magia, hay vectorización, multiplicación de matrices, distribuciones de probabilidad y optimización estadística. Exactamente la caja de herramientas que algunos daban por obsoleta. Quien entiende de matrices, de distribuciones, de inferencia y de optimización entiende lo que ocurre dentro de un modelo. Quien no, se queda en que la IA es usar un chatbot, un chatgpt... pero la idea que aplicábamos con Markov sigue ahí, solo que ahora le llamamos modelo autorregresivo.

De toda esta historia extraigo una lección que aplico a diario, y es que el CEO de una empresa tecnológica tiene que ser, también y en buena medida, su CTO. No basta con saber un poco del negocio y entender de números, hay que comprender la tecnología que lo sostiene lo suficiente como para determinar la estrategia tecnológica y no limitarse a comprar lo que el mercado quiera venderte, porque si alguien quiere engañarte, lo va a lograr. En un sector como la ciberseguridad, donde la IA está redefiniendo tanto las amenazas como las defensas, un directivo que no comprende qué hay debajo de un modelo está condenado a decidir a ciegas, y por eso aquellos fundamentos de hace 19 años no son para mí un recuerdo entrañable sino una ventaja competitiva. Es justamente esa convicción la que hemos plasmado en nuestro Plan Estratégico 2026-2030, que tenéis publicado en la web (zerolynx.com/pages/plan-estrategico) y que se articula en torno a un principio que lo vertebra todo, humanos al mando, IA como músculo. En este 2026 hemos orientado este plan hacia un modelo en el que la IA gestiona lo repetitivo para que el equipo entregue lo que de verdad importa, con la inteligencia artificial integrada en cada servicio y en cada proceso como palanca estratégica, no como adorno.

Y aquí es donde la teoría se vuelve producto, porque esa filosofía no se queda en una diapositiva. Hemos desarrollado CuatrIA, nuestra herramienta de gestión de procesos y gobierno unificado, que reúne en un mismo lugar lo que normalmente vive disperso entre un CRM, un ERP, los flujos de RRHH y el resto de la operativa de la compañía. CuatrIA está construida con IA de principio a fin, pero con una decisión de diseño que para nosotros es innegociable: corre sobre Ollama y una multitud de modelos locales, de modo que el dato sensible no sale de nuestra infraestructura. Para una empresa de ciberseguridad, gobernar la información con IA sin renunciar a la soberanía sobre ese dato no es un capricho, es coherencia. Y es también la prueba de que entender los fundamentos sirve para algo muy concreto, saber cuándo un modelo local bien orquestado resuelve tu problema sin necesidad de mandar tus datos a un tercero.

Y apostar por la IA sin gobernarla sería, además, una irresponsabilidad, más aún en nuestro oficio, así que dentro de esa misma estrategia ya contamos con nuestra propia Política de IA y nos estamos adecuando a la ISO/IEC 42001, el estándar internacional de sistemas de gestión de inteligencia artificial, porque queremos usarla de forma potente pero también trazable, ética y auditable. Ese horizonte de madurez que esperamos alcanzar de cara a 2030 no se construye solo con tecnología, sino con procesos sólidos y certificados, y por eso este semestre nos estamos certificando en alguna que otra "ISO" mas... En ISO 20000-1 de gestión de servicios TI, ISO 22301 de continuidad de negocio, ISO 9001 de calidad e ISO 14001 de gestión ambiental, alineándolas con las que ya mantenemos, ISO 27001 y ENS nivel ALTO. Es un esfuerzo enorme, pero profundamente coherente, si vamos a poner la IA en el centro de nuestros servicios, la base sobre la que se apoya tiene que ser impecable. De ello ya os hablaré en próximas publicaciones, pues ahora mismo estamos embarrados en mitad de este "gran cambio" :).

Así que no, lo que aprendí hace 19 años no está obsoleto (tranquilos, no hay resentimiento en este comentario, en el fondo me rio :P). Aquel Proyecto Final de Carrera con Cadenas de Markov, aquel postgrado de estadística, todo aquello sigue latiendo bajo cada modelo que usamos hoy, bajo cada respuesta que genera CuatrIA sobre nuestros modelos locales. La tecnología cambia de nombre cada pocos años, pero los fundamentos matemáticos y estadísticos, no. Y quien los domina no solo entiende mejor la IA, sino que está en mejor posición para liderar, para diseñar estrategia y para construir empresas que aprovechen la inteligencia artificial de verdad, sin humo, con criterio y con cabeza. Markov tenía razón. Y seguirá teniéndola.