¿Por qué se llaman así las regresiones?
Esta es una pregunta que no muchas veces nos han hecho en los cursos del Colegio de Matemáticas Bourbaki pero que siempre me da mucho gusto contestar y por ello es una buena idea dejarlo escrito en nuestro Bourbakisme. Este texto será particularmente breve respecto a otros que hemos publicado y para compensar al lector voraz hemos incluido al final una lista bastante amplia de los trabajos originales de Galton donde se desarrollaron estas ideas.
La historia comienza en la segunda mitad del siglo XIX cuando Sir Francis Galton estudiaba de manera cuantitativa los fenómenos hereditarios. Desde este momento y más o menos durante un siglo entero él y otros genios desarrollarían las técnicas modernas de la estadística implementándola en problemas de las Ciencias Naturales.
Regresando a la pregunta original, Galton tomó una muestra tanto de padres como de hijos -no todos eran hombres sin embargo se les hizo una transformación a los datos para que todos los miembros del estudio tuvieran estaturas proporcionales- de la que nos gustaría estudiar alguna relación. Intuitivamente todos podríamos imaginar que los hijos de padres altos también lo serán y lo mismo con padres e hijos bajos de estatura.
Digamos que la columna que registra las estaturas de los padres se llamará X mientras que la columna que registra la de los hijos será Y. El objetivo de un buen modelo matemático sería poder utilizar poca información para explicar la relación que exista entre estas dos columnas. El modelo matemático más intuitivo para este problema sería el siguiente:
La estatura de los hijos es siempre igual a la de los padres.
Sin embargo sabemos que esto no necesariamente es cierto por lo que podríamos conformarnos con un modelo un poco más difícil que diga algo parecido a esto:
Existe un número β tal que al multiplicar la estatura de los padres, podemos aproximar correctamente la estatura de los hijos.
Evidentemente esto sería magnífico pues significa que únicamente utilizando ese número podemos aproximar el fenómeno entero. Supongamos por ejemplo que esta cantidad β fuera muy pequeña pero positiva. Intuitivamente significaría que la estatura de las personas está disminuyendo a medida que tienen descendencia.
Geométricamente significa que existe una recta que es más cercana a la horizontal (que a la vertical) que está aproximando a la representación de las variables X e Y en el plano cartesiano. Aquí es donde aparece la primera idea de la que nace la palabra regresión al señalar un decremento en la estatura de los hijos respecto a la estatura de sus padres: si β < 1 entonces Y = βX < X. Originalmente Galton utilizó la palabra "reversión".
Es importante mencionar que esto no es exactamente lo que Galton observó matemáticamente pues el coeficiente de regresión que él notó, afecta a la desviación respecto al promedio de las estaturas de los padres en fragmentos de la población, a este fenómeno se le llama la regresión a la media y es particularmente llamativo cuando el segmento de la población son los padres muy altos, en ese caso el coeficiente β < 1 obliga a la población a regresarse a un valor cercano a la media.
Los trabajos de Galton que hablan sobre este tema
Galton, F. (1865), “Hereditary Talent and Character,” Macmillan’s Magazine, 12, 157–166 (Part I), 318–327 (Part II). [227]
Galton, F. (1869), Hereditary Genius, London: Macmillan (Reprinted 1979, London: Friedmann). [227]
Galton, F.(1877), “Typical Laws of Heredity,” Nature 15, 492–495, 512–514, 532–533. (Also in Proceedings of the Royal Institution 8, 282–301). [227,228]
Galton, F. (1885a), “Presidential Address, Section H, Anthropology,” Nature, 32, 507–510 (Also published in (1885) British Association Reports 55, 1206–1214). [228,229]
Galton, F. (1885b), “Regression Towards Mediocrity in Hereditary Stature,” Journal of the Anthropological Institute, 15, 246–263. [229]
Galton, F. (1886), “Family Likeness in Stature,” Proceedings of the Royal Society of London, 40, 42–73. (Appendix by J. D. Hamilton Dickson, 63–66). [227,230]
Galton, F. (1889), Natural Inheritance, London: Macmillan
¿Dónde aprender más?
Les compartimos algunos de los cursos que ofrecemos sobre estos temas y otros de Ciencia de Datos e Inteligencia Artificial.
Track de Ciencia de Datos (Julio 2025, 49 semanas).
Les compartimos algunas notas, presentaciones y clases muestra del curso en el siguiente link. De igual manera los invitamos a conocer el Temario del curso de 49 semanas.
Aquí pueden asistir virtualmente a la sesión informativa con el Director del Track de Ciencia de Datos. En esta sesión se tratan los conocimientos previos necesarios para inscribirse en nuestro curso, las dinámicas de las clases así como los objetivos finales a los que aspiran nuestros estudiantes al graduarse de este programa.
Track de Ciencia de Finanzas Cuantitativas (Julio 2025, 49 semanas).
Les compartimos algunas notas, presentaciones y clases muestra del curso en el siguiente link. De igual manera los invitamos a conocer el Temario del curso de 49 semanas.
¿Dónde aprender sobre causalidad?
En el Colegio Bourbaki estamos por comenzar nuestro flamante curso sobre la Causalidad en Machine Learning, pueden conocer más detalles sobre el temario en esta liga. Si desean más información con gusto pueden escribirnos en Colegio de Matemáticas Bourbaki o al whatsapp de Bourbaki.