Normalización y estandarización de datos
Los datos de distintas fuentes hablan dialectos distintos. La normalización hace que hablen uno solo. Esta guía cubre la normalización y la estandarización de datos externos.
Por qué importa la normalización
Combinar fuentes requiere unidades, formatos, esquemas y conjuntos de valores consistentes. Sin normalización, el mismo concepto aparece de formas incompatibles y el análisis se rompe.
Qué cubre
- Unidades: medidas consistentes.
- Formatos: fechas, números, texto.
- Esquema: mapeo a un modelo común.
- Valores: listas de códigos estándar.
Mapeo de esquema
Mapear cada fuente a un esquema común es la tarea central, y los datos de referencia anclan la estandarización de valores. Bien hecho, hace interoperables las fuentes heterogéneas.
Escollos
El mapeo con pérdida (colapsar valores distintos) y los supuestos silenciosos (sobre unidades o zonas horarias) son trampas comunes. Documentar el mapeo es esencial.
Consideraciones de sourcing
La normalización es donde se desbloquea la mayor parte del valor multifuente, y donde se esconden la mayoría de los errores. Un esquema de destino claro y datos de referencia son requisitos previos.
En un modelo gestionado
Un socio gestionado puede normalizar los datos adquiridos a su esquema de destino con mapeos documentados.
Mapeo de esquema and reference data
Normalisation maps each source to a common model and standardises values against reference data, so the same concept is represented the same way everywhere. Mapeo de esquema is the core task; reference data anchors value standardisation. Done well, heterogeneous sources become interoperable; done badly, the same concept appears in incompatible forms and analysis breaks.
Evitar el mapeo con pérdida
Las trampas comunes son el mapeo con pérdida (colapsar valores distintos en uno) y los supuestos silenciosos sobre unidades o zonas horarias. Documentar el mapeo, y un esquema de destino claro, previene ambos. La normalización es donde se desbloquea la mayor parte del valor multifuente, y donde se esconden la mayoría de los errores.
- Combinar fuentes necesita unidades, formatos, esquema y valores consistentes.
- Mapeo de esquema to a common model is the core task.
- Los datos de referencia anclan la estandarización de valores.
- Evite el mapeo con pérdida; documente los supuestos.
Fuentes y lecturas adicionales
- DAMA-DMBOK: integración y estandarización de datos.
- Datos de referencia y estándares de unidades (ISO).
- ISO/IEC 25012: calidad de datos.
- Práctica interna: normalización de DataSupplier.
Normalizamos los datos adquiridos a su esquema de destino con mapeos documentados. Obtenga un presupuesto sin compromiso.