Gestión de datos maestros y resolución de entidades
Cuando combina datos de muchas fuentes, la misma empresa, lugar o persona aparece en formas distintas. La gestión de datos maestros y la resolución de entidades los reconcilian. Esta guía explica ambas y por qué importan para los datos externos.
El problema de la fragmentación
Los conjuntos de datos externos describen las mismas entidades de forma distinta: una empresa nombrada de cinco maneras, una dirección formateada de tres. Sin reconciliación, combinar fuentes produce duplicados y contradicciones en lugar de conocimiento.
Qué es la gestión de datos maestros
La gestión de datos maestros (MDM) es la disciplina de mantener una versión única y fiable de las entidades clave —clientes, productos, proveedores, ubicaciones— a través de los sistemas. Proporciona la referencia con la que se alinean los datos entrantes.
Resolución de entidades
Resolución de entidades is the process of deciding whether two records refer to the same real-world entity, and merging them into a golden record. It combines deterministic rules (exact matches) and probabilistic matching (scored similarity) to handle messy, real data.
Por qué importa para los datos externos
Combinar fuentes externas es una de las actividades de mayor valor y mayor riesgo del sourcing de datos. Una buena resolución de entidades es lo que hace coherente un conjunto de datos multifuente; un emparejamiento deficiente lo corrompe en silencio.
Retos
El emparejamiento es difícil: variaciones de nombre, identificadores ausentes, y el riesgo de coincidencias falsas (fusionar entidades distintas) o no detectadas (dejar duplicados). Los umbrales intercambian precisión por exhaustividad, y el equilibrio adecuado depende del uso.
En un modelo gestionado
Un socio gestionado puede resolver entidades entre los conjuntos de datos adquiridos y entregar una vista unificada y deduplicada, con documentación del enfoque de emparejamiento y sus limitaciones.
Emparejamiento determinista y probabilístico
Resolución de entidades blends two approaches. Deterministic matching joins on exact agreement of chosen keys, precise but brittle when data is messy or identifiers are missing. Probabilistic matching scores similarity across multiple fields and accepts matches above a threshold, handling real-world variation at the cost of tuning and some uncertainty. Most production resolution uses both: deterministic where strong identifiers exist, probabilistic to catch the rest, with the threshold set by the cost of false versus missed matches.
Gobernar el registro maestro
Fusionar los registros coincidentes en un único registro maestro plantea cuestiones de supervivencia: qué fuente gana para cada campo, cómo se resuelven los conflictos y cómo se documenta la fusión para poder auditarla y deshacerla. Una buena MDM conserva la trazabilidad hacia las fuentes contribuyentes y es conservadora con las fusiones, porque una fusión errónea (dos entidades distintas combinadas) es más difícil de detectar y más dañina que una no detectada.
- Combinar fuentes crea registros de entidades duplicados y contradictorios.
- La MDM mantiene una versión única y fiable de las entidades clave.
- Resolución de entidades merges records into golden records via rules and probabilistic matching.
- El emparejamiento intercambia precisión por exhaustividad; documente el enfoque.
Fuentes y lecturas adicionales
- DAMA-DMBOK: gestión de datos maestros y de referencia.
- Literatura académica y del sector sobre resolución de entidades.
- ISO 8000: calidad de datos y datos maestros.
- Práctica interna: emparejamiento de DataSupplier.
Resolvemos entidades entre fuentes y entregamos una vista unificada y deduplicada. Obtenga un presupuesto sin compromiso.