Ir al contenido

Teoría del aprendizaje estadístico

De Wikipedia, la enciclopedia libre

La teoría del aprendizaje estadístico es un marco para el aprendizaje automático basado en los campos de la estadística y el análisis funcional.[1][2][3]​ La teoría del aprendizaje estadístico aborda el problema de la inferencia estadística para encontrar una función predictiva basada en datos. La teoría del aprendizaje estadístico ha dado lugar a aplicaciones de éxito en campos como la visión por computadora, el reconocimiento del habla y la bioinformática.

Introducción[editar]

Los objetivos del aprendizaje son la comprensión y la predicción. El aprendizaje se divide en muchas categorías: aprendizaje supervisado, aprendizaje no supervisado, aprendizaje online y aprendizaje por refuerzo. Desde el punto de vista de la teoría del aprendizaje estadístico, el aprendizaje supervisado es el que mejor se entiende.[4]​ Cada punto del entrenamiento es un par de entrada-salida, en el que la entrada se asigna a una salida. El problema de aprendizaje consiste en inferir la función que relaciona la entrada y la salida, de forma que la función aprendida pueda utilizarse para predecir la salida a partir de entradas futuras.

Dependiendo del tipo de salida, los problemas de aprendizaje supervisado son problemas de regresión o problemas de clasificación. Si la salida toma un rango continuo de valores, se trata de un problema de regresión. Utilizando la ley de Ohm[5]​ como ejemplo, se podría realizar una regresión con el voltaje como entrada y la corriente como salida. La regresión encontraría que la relación funcional entre el voltaje y la corriente es . de forma que:

Los problemas de clasificación son aquellos para los que la salida será un elemento de un conjunto discreto de etiquetas. La clasificación es muy común en las aplicaciones de aprendizaje automático.[6]​ En el reconocimiento facial, por ejemplo, una imagen de la cara de una persona sería la entrada, y la etiqueta de salida sería el nombre de esa persona. La entrada estaría representada por un gran vector multidimensional cuyos elementos representan píxeles de la imagen.

Después de aprender una función basada en los datos del conjunto de entrenamiento, esa función se valida en un conjunto de datos de prueba, datos que no aparecían en el conjunto de entrenamiento.

Descripción formal[editar]

Tomemos como el espacio vectorial de todas las entradas posibles, e el espacio vectorial de todos los resultados posibles. La teoría del aprendizaje estadístico adopta la perspectiva de que existe una distribución de probabilidad desconocida sobre el espacio producto , es decir, existe algún desconocido. El conjunto de entrenamiento está formado por muestras de esta distribución de probabilidad, y se anota como sigue:

Cada es un vector de entrada de los datos de entrenamiento, y es la salida que le corresponde.

En este formalismo, el problema de inferencia consiste en encontrar una función de forma que . Dejemos que sea un espacio de funciones llamado espacio de hipótesis. El espacio de hipótesis es el espacio de funciones en el que buscará el algoritmo. Que sea la función de pérdida, una métrica de la diferencia entre el valor previsto y el valor real de . El riesgo esperado se define como:

La función objetivo, la mejor función posible de que se puede elegir, viene dada por que cumple con:

Dado que la distribución de probabilidad es desconocida, debe utilizarse una medida aproximada del riesgo esperado. Esta medida se basa en el conjunto de entrenamiento, una muestra de esta distribución de probabilidad desconocida. Riesgo empírico se denomina de la siguiente forma:

Un algoritmo de aprendizaje que elige la función que minimiza el riesgo empírico se denomina minimización empírica del riesgo.

Funciones de pérdida[editar]

La elección de la función de pérdida es un factor determinante de la función que elegirá el algoritmo de aprendizaje. La función de pérdida también afecta a la tasa de convergencia de un algoritmo. Es importante que la función de pérdida sea convexa.[7]

Se utilizan diferentes funciones de pérdida según se trate de un problema de regresión o de clasificación.

Regresión[editar]

La función de pérdida más común para la regresión es la función de pérdida cuadrada (también conocida como norma L2). Esta conocida función de pérdida se utiliza en la regresión por mínimos cuadrados ordinarios. La forma es:

A veces también se utiliza la pérdida de valor absoluto (también conocida como norma L1):

Clasificación[editar]

En cierto sentido, la función indicadora 0-1 es la función de pérdida más natural para la clasificación. Toma el valor 0 si la salida predicha es la misma que la salida real, y toma el valor 1 si la salida predicha es diferente de la salida real. Para la clasificación binaria con , se usa la siguiente fórmula:

Donde es la función escalón de Heaviside.

Regularización[editar]

Esta imagen representa un ejemplo de sobreajuste en el aprendizaje automático. Los puntos rojos representan los datos del conjunto de entrenamiento. La línea verde representa la verdadera relación funcional, mientras que la línea azul muestra la función aprendida, que se ha sobreajustado a los datos del conjunto de entrenamiento.

En los problemas de aprendizaje automático, uno de los principales problemas que surgen es el del sobreajuste. Dado que el aprendizaje es un problema de predicción, el objetivo no es encontrar una función que se ajuste lo más posible a los datos (previamente observados), sino encontrar una que prediga con la mayor exactitud la salida a partir de la entrada futura. La minimización empírica del riesgo corre este riesgo de sobreajuste: encontrar una función que se ajuste exactamente a los datos pero que no prediga bien el resultado futuro.

El sobreajuste es síntoma de soluciones inestables; una pequeña perturbación en los datos del conjunto de entrenamiento provocaría una gran variación en la función aprendida. Se puede demostrar que si se puede garantizar la estabilidad de la solución, también se garantizan la generalización y la coherencia.[8][9]​ La regularización puede resolver el problema del sobreajuste y dar estabilidad al problema.

La regularización puede lograrse restringiendo el espacio de hipótesis . Un ejemplo común sería restringir a funciones lineales: esto puede verse como una reducción al problema estándar de la regresión lineal. también podría restringirse a polinomios de grado , exponenciales o funciones acotadas en L1. La restricción del espacio de hipótesis evita el sobreajuste porque la forma de las funciones potenciales es limitada y, por tanto, no permite elegir una función que dé un riesgo empírico arbitrariamente cercano a cero.

Un ejemplo de regularización es la regularización de Tíjonov. Consiste en minimizar:

Donde es un parámetro fijo y positivo, el parámetro de regularización. La regularización de Tíjonov garantiza la existencia, unicidad y estabilidad de la solución.[10]

Limitación del riesgo empírico[editar]

Si consideramos un clasificador binario , podemos aplicar la desigualdad de Hoeffding para limitar la probabilidad de que el riesgo empírico se desvíe del riesgo real a una distribución subgaussiana.

Pero, por lo general, cuando hacemos minimización empírica del riesgo, no se nos da un clasificador; debemos elegirlo. Por lo tanto, un resultado más útil es acotar la probabilidad del sumo de la diferencia sobre toda la clase.

Donde es el número de fragmentación y es el número de muestras del conjunto de datos. El término exponencial procede de Hoeffding, pero hay un coste adicional por tomar el supremo sobre toda la clase, que es el número de fragmentación.

Véase también[editar]

Referencias[editar]

  1. Vapnik, Vladimir N. (1995). «The Nature of Statistical Learning Theory». New York: Springer. ISBN 978-1-475-72440-0. 
  2. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). «The Elements of Statistical Learning: Data Mining, Inference, and Prediction.». Springer Series in Statistics. New York, NY: Springer. ISBN 978-0-387-84857-0. 
  3. Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). «Foundations of Machine Learning». US, Massachusetts: MIT Press. ISBN 9780262018258. 
  4. Tomaso Poggio, Lorenzo Rosasco, et al. (2012). «Statistical Learning Theory and Applications». Class 1. 
  5. «Ley de Ohm (GIE)». Universidad de Sevilla. 2018. 
  6. «Clasificación en machine learning: Introducción». DataCamp. 
  7. «"Are Loss Functions All the Same?». direct.mit.edu. Consultado el 5 de junio de 2024. 
  8. Vapnik, V.N. and Chervonenkis, A.Y. (1971). «On the uniform convergence of relative frequencies of events to their probabilities». Theory of Probability and Its Applications Vol 16. 
  9. Mukherjee, Sayan; Niyogi, Partha; Poggio, Tomaso; Rifkin, Ryan (1 de julio de 2006). «Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization». Advances in Computational Mathematics (en inglés) 25 (1): 161-193. ISSN 1572-9044. doi:10.1007/s10444-004-7634-z. Consultado el 5 de junio de 2024. 
  10. Tomaso Poggio, Lorenzo Rosasco, et al. (2012). «Statistical Learning Theory and Applications». Class 2.