Record Linkage with RELAIS: Experiences and Challenges

2012 
espanolEl uso combinado de datos provenientes de distintas fuentes se ha generalizado en gran medida para maximizar su respectiva utilidad: lamentablemente sucede que a menudo las distintas fuentes de informacion son dificiles de integrar debido a errores o a la falta de informacion. Las tecnicas de enlace de registros son un conjunto multidisciplinario de metodos y practicas que pretenden identificar la misma entidad del mundo real, diferentemente representada en las distintas fuentes de datos. El enlace de registros es un proceso complejo que puede descomponerse en fases separadas, en la que cada una de ellas requiere de una tecnica especifica. En este articulo se describe RELAIS (Record Linkage At IStat), un conjunto de herramientas de codigo abierto basado en la idea de seleccionar la tecnica mas adecuada para cada fase y combinarlas dinamicamente para construir el flujo de trabajo del enlace de registros. El codigo abierto resulto ser una opcion acertada para compatir tecnicas y software y contribuye fuertemente a hacer valer RELAIS entre los Institutos Nacionales de Estadistica. En el articulo se muestra la utilidad y los beneficios de RELAIS a la hora de enfrentar determinados desafios en el enlace de microdatos, alcanzando un alto nivel de calidad en el proceso de enlace y en los resultados asociados. EnglishThe combined use of data coming from different sources is largely widespread to maximize their respective usefulness: unfortunately data sources are often hard to integrate due to errors or lacking information. Record linkage techniques are a multidisciplinary set of methods and practices aiming to identify the same real world entity, differently represented in data sources. Record linkage is a complex process but it can be decomposed in separate phases, each of them requiring a specific technique. In this paper we describe RELAIS (REcord Linkage At IStat), an open source toolkit based on the idea of choosing the most appropriate technique for each phase and of dynamically combining them so as to build a record linkage workflow. The open source turned out to be a winning choice for sharing techniques and software and it strongly contributed to assert RELAIS in the National Statistical Institutes� community. In the paper we show the usefulness and the profitability of RELAIS in facing several challenges in linking data at micro-level, achieving a high quality of the linkage process and of the related results.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    7
    References
    0
    Citations
    NaN
    KQI
    []