IA Generativa y el dominio de los modelos implícitos
Los recientes modelos matemáticos capaces de generar tanto de texto, imágenes, vídeo, series de tiempo y sonido han cambiado la manera como la población no interesada en la Ciencia de Datos se acerca a los modelos entrenados con datos. Hoy en día es perfectamente razonable que un diseñador, una abogada o prácticamente cualquier profesional sienta la necesidad de utilizar modelos como ChatGPT, Midjourney, Canva o cualquiera de las versiones que usted prefiera.
Desde un punto de vista matemático, los modelos generativos son muy distintos a los modelos discriminativos, contrariamente a lo que se piensa la gran diferencia no es que uno de ellos sea probabilista y el otro no, por ejemplo la regresión logística es un modelo probabilista que no es generativo sino discriminativo.
Modelos generativos & modelos discriminativos
Para comprender la diferencia entre un modelo generativo y un modelo discriminativo debemos de elegir correctamente quiénes son nuestras variables Y a las que llamamos objetivo y quiénes son nuestras variables explicativas X. A continuación les ponemos algunos ejemplos famosos:
En el caso de un modelo para predecir fraude utilizando información X sobre transacciones, digamos horario, montos, etc. En este caso la variable objetivo sería el fraude o no fraude.
En el caso de ChatGPT tanto X como Y son iguales, corresponden con algún vocabulario que en el contexto de los LLM se llamarán Tokens.
En el caso de Midjourney X será algún texto e Y será una imagen.
Poniendo el ejemplo de la regresión logística modela a la distribución P(Y|X), donde X pertenece a algún espacio vectorial e Y pertenece al conjunto {-1, +1}. Esto es ára otros ejemplos como los árboles de decisión. A este tipo de modelos los llamaremos modelos discriminativos.
En contraposición a estos modelos están los modelos generativos, los cuales en su lugar buscan modelar la distribución de probabilidad P(X,Y). Esto es un cambio completamente radical, supongamos que para el caso del primer ejemplo tomamos en cuenta la variable explicativa X día de la semana o fin de semana. Las regresiones logísticas no son capaces de modelar el espacio de probabilidad de tamaño 4 definido por los siguientes eventos:
La de las transacciones fraudulentas se realizan entre semana.
La de las transacciones fraudulentas se realizan el fin de semana.
La de las transacciones no fraudulentas se realizan entre semana.
La de las transacciones no fraudulentas se realizan el fin de semana.
Es importante que este caso esconde una dificultad pues solo estamos tomando en cuenta una variable, ingenuamente podríamos simplemente observar la base de datos original con dos variables y calcular su estadística, ignorando por completo a la regresión logística.
Si en lugar de tener solo una variable (X= Día de la semana) tuviéramos por ejemplo 10 variables, la cantidad de datos que necesitamos para modelar un espacio calcular correctamente esta probabilidad podría ser gigantesca, solo con 20 variables X binarias ya estamos hablando de un espacio de probabilidad de tamaño 1,048,576. Si consideramos que lo normal en machine learning es tener mínimo cientos de variables explicativas (cientos de millones en Imágenes o Texto), modelar la distribución P(X,Y) parece casi imposible.
Modelos generativos: implícitos y explícitos
Dentro de la familia de los modelos generativos hay algunos que modelan la probabilidad de manera implícita y otros que modelan la función probabilidad de manera explícita. Nuevamente debido a la gran cantidad de variables que están en juego en un problema de Machine Learning, modelar la distribución de probabilidad de un vector aleatorio con decenas de coordenadas es una causa perdida.
Por ejemplo para calcular una distribución gaussiana con 20 coordenadas tendríamos que aprender 20 + 210 parámetros que corresponden a la media y a la covarianza de una distribución gaussiana. Si bien es cierto que entrenar una red neuronal para aprender 230 parámetros no parece tan complicado, esto nuevamente se vuelve imposible cuando hablamos de vectores aleatorios con cientos de millones de coordenadas. Otra gran desventaja es que no hay ninguna razón por la cual los registros de nuestra base de datos sean gaussianos como lo estamos suponiendo en este momento. Esta desventaja de los modelos generativos explícitos es un verdadero muro que prohibirá que este método funcione.
Un enfoque que ha cambiado radicalmente a la IA es construir una red neuronal que no aproxime los parámetros sino que por medio de una función cuyo input es únicamente ruido, la red neuronal entrenada generará registros dentro del espacio de probabilidad. Si deseamos calcular la función de distribución solo queda hacer inferencia sobre esta red neuronal un número lo suficientemente grande de veces.
¿Dónde aprender más sobre machine learning generativo y discriminativo?
En el Colegio de Matemáticas Bourbaki enseñamos con detalle las matemáticas y las bases para que nuestros estudiantes estén listos para aprender los modelos más avanzados de Inteligencia Artificial, Ciencia de Datos y Finanzas Cuantitativas. Estos son los dos cursos que están por comenzar y durarán todo el 2025.
Track de Ciencia de Finanzas Cuantitativas (05 de Mayo 2025, 49 semanas).
Les compartimos algunas notas, presentaciones y clases muestra del curso en el siguiente link.
Si están interesados en problemas relacionados con Finanzas bursátiles o corporativas podrán asistir virtualmente a la reunión con el director Gerardo Hernandez-del-Valle.
Track de Ciencia de Datos (06 de Mayo 2025, 49 semanas).
Les compartimos algunas notas, presentaciones y clases muestra del curso en el siguiente link.
Aquí pueden asistir virtualmente a la sesión informativa con el Director del Track de Ciencia de Datos. En esta sesión se tratan los conocimientos previos necesarios para inscribirse en nuestro curso, las dinámicas de las clases así como los objetivos finales a los que aspiran nuestros estudiantes al graduarse de este programa.