Validación de modelos en el análisis de datos estadísticos

VALIDACIÓN DE MODELOS.

En el análisis de datos estadístico existen muchas aplicaciones y, por ello, hay muchas maneras de validar el modelo. La mayoría de las veces dependerá de lo que queramos medir para determinar la bondad del modelo. Comunmente, a este conjunto de criterios se le llama Bondad de Ajuste o en inglés Goodness of Fit (GoF). Además, estas medidas no sólo evalúan la potencia de predicción del modelo, sino que también permiten validar las hipótesis iniciales. Tener en cuenta las hipótesis iniciales del modelo es lo primero en lo que se fija un Data Scientist. La implicación lógica “Hipótesis –> Tesis” significa que para una hipótesis que no se cumple, la tesis puede o no cumplirse. Esto significa que podemos obtener un resultado absolutamente inesperado y, por tanto, no nos podemos fiar de las estimaciones del modelo en cuestión. A nivel industrial y empresarial esto se traduce en la robustez de las soluciones y riesgo de tomar decisiones basadas en estimaciones posiblemente erróneas.

CRITERIOS DE POTENCIA PREDICTIVA

Los siguientes métodos no están relacionados con ningún modelo en particular ni asunciones iniciales, como por ejemplo la familia de distribuciones exponencial o la homosedasticidad. Simplemente, nos fijamos en el tipo de la variable respuesta y aplicamos una función que mide la desviación entre la estimación y la realidad. En algunas ocasiones esta función coincidirá con la función error que naturalmente derivaría del modelo que se está utilizando y las restricciones aplicadas, pero no tiene por qué.

Por ejemplo, en el caso de respuesta continua existe NRMSE (Normalized Root Mean Square Error) donde el denominador puede ser la media, un intervalo, una cota superior, etc. A veces es conveniente usar el error absoluto en vez del cuadrático, cuando por ejemplo el objetivo es maximizar la distancia entre vectores de forma uniforme (en el espacio multi-dimensional). Incluso, dependiendo del problema, interesa usar el sumatorio absoluto en vez del promedio o ponderación. Otra medida muy fácil de interpretar es el error relativo (absoluto o con signo), aunque tiene varios inconvenientes. MAPE sería el promedio del error relativo absoluto. A menudo se usan percentiles del error, en vez del promedio, ya que dan una noción de estabilidad.

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *