El Grupo de investigación  Advanced Data Mining Research And Bioinformatics Learning (ADMIRABLE) presenta un meta-modelo que permite utilizar cualquier método de selección de instancias ideado para clasificación en regresión. A la hora de construir un sistema inteligente, una tarea clave es la selección del conjunto de datos (instancias) con el que será «el entrenamiento» del sistema. De su correcta selección dependerá en gran medida la capacidad del sistema para predecir comportamientos futuros de instancias nunca antes observadas.

Ejemplo de funcionamiento del algoritmo. Imagen superior: función a aproximar (puntos azules) con ruido añadido (puntos rojos). Imagen central: conjunto de datos discretizado. Imagen inferior: conjunto de datos resultante tras la eliminación de ruido en el conjunto discretizado y recuperada la variable numérica inicial.

Resumen:

Para la construcción de sistemas inteligentes es necesario disponer de un conjunto de datos con el que poder «entrenar» el sistema. Para ello, una etapa fundamental es el pre-procesamiento de los datos. Esta fase busca adecuar los conjuntos de datos para su posterior utilización: eliminando ruido, imprecisiones, datos redundantes, etc. Es en este ámbito donde encaja el artículo aquí presentado. La selección de instancias busca seleccionar un subconjunto del conjunto original de datos que sea capaz de mantener, o incluso mejorar, la capacidad predictiva del mismo. Esta reducción, aparte de facilitar su manejo por al hacer más manejable el tamaño del conjunto de datos, permite eliminar ejemplos/instancias repetidas, ruido, valores atípicos, redundancias… Aunque la selección de instancias para clasificación (cuando la variable a predecir es categórica) ha sido ampliamente estudiada desde hace varias décadas, no ha ocurrido lo mismo en regresión (cuando la variable a predecir es numérica). Muy pocos estudios se centran en esta tarea debido, principalmente, a su dificultad.1-s2.0-S0957417414X00151-cov150h

El artículo que nos ocupa, afronta el problema desde un punto de vista sencillo pero efectivo: si existen numerosos algoritmos de selección de instancias para clasificación, ¿por qué no utilizarlos en regresión? Para ello es necesario transformar la variable a predecir. Los valores numéricos deben ser categorizados en una serie de clases. El enfoque más intuitivo para ello es la discretización.

Pese a la simplicidad de la idea, se demuestra cómo este enfoque ofrece buenos resultados cuando se utiliza para eliminar ruido del conjunto original. La experimentación se realizó con diversos regresores y se comparó contra otras alternativas del estado del arte, siendo competitivo en detección y eliminación de anomalías.

En resumen, el artículo presenta un intuitivo meta-modelo fácil de aplicar y que abre la puerta a utilizar cualquier algoritmo de selección de instancias de los que existen para clasificación.

 Palabras clave: selección de instancias; regresión; minería de datos; Instance selection; Regression; Data mining.

Referencia bibliográfica del artículo:

Arnaiz-González, Á., Diez-Pastor, J. F., Rodriguez, J. J., & García-Osorio, C.I. (2016). Instance selection for regression by discretization. Expert Systems with Applications, 54, 340-350. doi: 10.1016/j.eswa.2015.12.046.

Dirección de contacto con el autor:

Cesar Ignacio García Osorio (cgosorio@ubu.es). Universidad de Burgos. Grupo de investigación  Advanced Data Mining Research And Business intelligence/Big data/Bioinformatics Learning (ADMIRABLE).

Datos de la revista:

Expert Systems with Applications (Elsevier). ISSN: 0957-4174,  e-ISSN: 1873-6793

  • Revista indexada en  Science Citation Index (WOS)
  • Factor de impacto (2014): 2,240  Q1 posición  29/123 en la categoría Computer Science. (Fuente consultada Journal Ctitation Report®)
  • SCImago Journal Rank (SJR): 1,839   Q1  21/665 en la categoría Computer Science, Artificial Intelligence.

Otra información relevante:

Para aquellos lectores interesados en selección de instancias para clasificación:

  • Garcia, S., Derrac, J., Cano, J. R., & Herrera, F. (2012). Prototype selection for nearest neighbor classification: Taxonomy and empirical study. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 34(3), 417-435. Doi: 10.1109/TPAMI.2011.142.
  • Arnaiz-González, Á., Díez-Pastor, J. F., Rodríguez, J. J., & García-Osorio, C. (2016). Instance selection of linear complexity for big data. Knowledge-Based Systems (In press).  Doi:10.1016/j.knosys.2016.05.056

Para aquellos lectores interesados en selección de instancias para regresión:

  • Arnaiz-González, Á., Blachnik, M., Kordos, M., & García-Osorio, C. (2016). Fusion of instance selection methods in regression tasks. Information Fusion, 30, 69-79. Doi: 10.1016/j.inffus.2015.12.002.
  • Arnaiz-González, Á., Díez-Pastor, J. F., Rodríguez, J. J., & García-Osorio, C. (2016). Instance selection for regression: Adapting DROP. Neurocomputing, (In press). Doi:10.1016/j.neucom.2016.04.003

Resumen redactado por Álvar Arnaiz González.