SMOTEMD: Un algoritmo de balanceo de datos mixtos para Big Data en R.
2020
Analizar muestras con datos desbalanceados es un desafio para quien debe utilizarlos en terminos de modelizacion. Un contexto en el que esto sucede es cuando la variable de respuesta es binaria y una de sus clases es muy pequena en proporcion respecto al total. Para la modelizacion de variables binarias se suele usar modelos de probabilidad como logit o probit. No obstante, estos modelos pre- sentan problemas cuando la muestra no es balanceada y se desea elaborar la matriz de confusion de donde se evalua el poder predictivo del modelo. Una tecnica que permite balancear los datos observados es el algoritmo SMOTE, el cual trabaja con datos numericos exclusivamente. Este trabajo es una extension de SMOTE tal que permite el uso de datos mixtos (numericos y categoricos). Al usar datos mixtos,la presente propuesta tambien permite superar la barrera de 65536 observaciones que tiene el software R cuando trabaja con distancias de
datos categoricos. Mediante un estudio de simulacion, se logra verificar las bondades del algoritmo propuesto: SMOTEMD para datos mixtos.
- Correction
- Source
- Cite
- Save
- Machine Reading By IdeaReader
16
References
0
Citations
NaN
KQI