Ir al contenido

Biblioteca de la Universidad Complutense de Madrid

Jueves, 12 de septiembre de 2024

Inicio

Predicción o interpretación, he ahí el dilema de la estadística actual

La Facultad de Matemáticas ha acogido, este 29 de mayo, la conferencia "De la estadística tradicional al machine learning", impartida por Daniel Vélez Serrano, profesor de la Facultad y experto en Ciencia de Datos, que ha supuesto la segunda actividad organizada por el IMI Data Science Club. Explica el conferenciante que "el dilema que se plantea actualmente, en los diferentes modelos, es la capacidad de interpretar los datos frente a la de predecir los resultados". Explica que hay modelos capaces de interpretar cómo influye una variable u otra y eso es un aprendizaje más artesanal, manual, donde se toca el modelo constantemente, y luego hay un ámbito en el que el aprendizaje es automático y busca la predicción. Para el profesor "es importante poder interpretar dichas predicciones, sobre todo en los contextos en los que hay que tomar decisiones justificadas".

 

Pongámonos en un futuro cercano en el que una persona va a un banco a solicitar un crédito y se lo deniegan porque una inteligencia artificial, utilizando enormes cantidades de big data, no le encuentra capacitado para recibirlo, y que el empleado del banco no sabe darle ninguna explicación más allá de que el modelo le ha denegado su crédito. Ese es un caso que podría darse si en ese futuro prevalecieran métodos predictivos en los que no se pudieran interpretar los datos intermedios. Para poner en contexto esto, que a priori puede sonar a futurista, Daniel Vélez Serrano ha utilizado varios ejemplos reales a lo largo de su conferencia.

 

El primero de ellos tiene que ver con un trabajo que le encargaron en una empresa para establecer los mejores precios que maximicen tanto el margen de beneficios como el de unidades vendidas. Al usar uno de los modelos, el resultado fue que cuanto más subían los precios más subían también las ventas, algo que no se corresponde con una experiencia real, así que el profesor tuvo que añadir un conocimiento a priori de la relación entre las variables para ajustar el modelo a unos resultados creíbles. El caso es que tuvo que "hacer algún tipo de artificio para conseguir unos resultados realistas con el modelo".

 

Otro ejemplo puede ser el de intentar predecir qué personas tardarán menos en correr los 100 metros lisos, de acuerdo con su peso, lo que puede hacer pensar en principio que será aquel que menos pese. Vélez Serrano señala que esa intuición no es real, porque hay que añadir otras variables, como por ejemplo la edad, ya no es lo mismo un niño que un adulto corriendo, es decir que "una cosa es tener un modelo y otra que la explicación tenga sentido. Y no siempre es tan fácil como el caso de la carrera, porque a veces no sólo hay una variable, sino cientos de ellas".

 

Para solucionar esos conflictos hay posibles soluciones, como los árboles de decisión, que son fácilmente interpretables e identifican posibles interacciones, aunque son modelos con baja capacidad predictiva, conocidos como clasificadores débiles, porque son un estimador con alta varianza, que es "la medida de dispersión que representa la variabilidad de una serie de datos respecto a su media". El conferenciante asegura que este modelo es el conocido como "modelo de los directores, porque con un simple flash se puede ver, por ejemplo, a quién dirigir una campaña".

 

Para mejorar la varianza se puede utilizar un modelo con muchos árboles, cada uno da una predicción, se toman todas ellas y se promedian para obtener una predicción más idónea, haciendo además que cada árbol se ajuste a una muestra, y que a cada una de ellas sólo se le permitan sólo una serie de variables.

 

Método boosting

Asegura Vélez Serrano que hora mismo el modelo que está de moda en la modelización automática es el tipo boosting, por su alto nivel de predictibilidad, ya que reduce tanto la varianza como el sesgo, es decir, un error que depende del tratamiento de los datos. La idea del boosting es que a partir de un modelo se van creando otros que van ajustándose de tal manera que lo peor aprendido en los modelos previos entra en los siguientes con más peso.

 

Otra de las estrategias de modelización más competitivas dentro del machine learning son las redes neuronales. Este modelo tiene muchos pesos combinados para hacer las predicciones, pero el problema es que no hay una forma clara de interpretar esos pesos. Es así porque normalmente "según aumenta la capacidad predictiva aquello es más como una caja negra, ya que no se entiende por qué el modelo llega a decir algo, hay que fiarse. La duda, por tanto, es hasta qué punto sacrificar la interpretación en nombre de la predicción". Esto, llevado al extremo, sería el caso del banco que deniega un crédito sin que sepamos muy bien por qué.

 

En relación con los diferentes modelos y su eficacia, el conferenciante expone el caso de una entidad bancaria que mandó a la UCM, y a otros cinco países, un problema para una competición en la que se buscaba predecir si una persona se iba a ir o no del banco, y también qué nota le iba a poner al banco cada uno de los clientes. Él mismo planteó el problema a sus alumnos y gracias a la aplicación del método boosting quedaron los primeros a nivel nacional en el concurso y los segundos a nivel internacional.

 

Otro caso, planteado por una constructora, era idear un modelo para detectar fraudes en diferentes hogares con sus contadores eléctricos. El profesor ganó esa competición también mediante el uso de este método boosting.

 

Reconoce que cada vez tienen más presencia los métodos basados en aprendizaje automático y Deep learning, que permiten extraer conocimiento de grandes volúmenes de datos, creando redes neuronales que obtienen una visión muy completa de las posibles soluciones, pero también informa de que "en algunos ámbitos como las finanzas o la salud es preciso auditar el proceso de decisión y asegurar además que no es discriminatorio ni viola la ley, y por eso prolifera la utilización de métodos que intentan descifrar lo que hacen los sistemas automáticos de machine learning". Uno de esos modelos son las redes de convolución que se usan por ejemplo para saber si alguien está hablando por un móvil mientras conduce, a través del análisis de una imagen.

 

Concluye afirmando Vélez Serrano que "lo ideal sería la búsqueda de metodologías, globales y locales, que permitan interpretar los resultados de un modelo con independencia de la naturaleza de dicho modelo". Explica que las metodologías locales son las que intentan explicar individuo a individuo, registro a registro, cuál es la variable que tiene mayor contribución al valor predicho para él. Para ello se selecciona un registro, luego se generan registros que se parezcan a ese, se calcula la predicción asociada a los registros, y a partir de ahí se genera un modelo sencillo e interpretable para separar los registros predichos.

 

El objetivo final e ideal: conjugar predicción e interpretación, para que se puedan tomar decisiones justificadas a partir de modelos.

Daniel Vélez Serrano, durante su conferencia De la estadística tradicional al machine learningBegoña Vitoriano, coordinadora de las actividades del IMI Data Science Club, junto a Daniel Vélez SerranoDebate posterior a la segunda de las actividades organizadas por el IMI Data Science ClubDaniel Vélez SerranoBegoña Vitoriano escuchado la conferencia de Daniel Vélez Serrano
Bookmark and Share

Comentarios - 0

No hay comentarios aun.


Logotipo de la UCM, pulse para acceder a la página principal
Universidad Complutense de Madrid - Ciudad Universitaria - 28040 Madrid - Tel. +34 914520400
[Información]
ISSN: 1697-5685