Calidad de datos: dimensiones, validación y criterios de aceptación
Un conjunto de datos solo es tan útil como fiable es. Cuando localiza datos externos, la calidad no es una aspiración vaga; es algo que puede definir, medir y hacer contractualmente vinculante. Esta guía expone las dimensiones de la calidad de datos, cómo validar un conjunto de datos y cómo redactar criterios de aceptación que protejan su proyecto.
Cobertura en toda la UE. DataSupplier localiza y entrega estos datos en los 27 países de la Unión Europea —incluidos Alemania, Francia, España, Italia, Países Bajos y Polonia— y en el EEE, en el formato y la cadencia que necesite.
Por qué la calidad debe definirse, no darse por hecha
La mayoría de las disputas sobre datos son disputas de calidad: los datos llegaron, pero estaban incompletos, obsoletos, eran inconsistentes o no coincidían con el esquema acordado. La forma de evitarlo es definir la calidad por adelantado, en términos medibles, y vincularla a la aceptación. La calidad definida tarde es calidad que no puede exigir.
Las dimensiones clave de la calidad de datos
- Completitud: ¿están presentes todos los registros y campos esperados?
- Exactitud: ¿reflejan los valores correctamente el mundo real?
- Consistencia: ¿son los valores coherentes dentro de un conjunto de datos y entre conjuntos?
- Puntualidad: ¿son los datos lo bastante frescos para el caso de uso?
- Validez: ¿se ajustan los valores al formato y los rangos esperados?
- Unicidad: ¿hay duplicados no deseados?
Estas dimensiones se reflejan en estándares como ISO/IEC 25012, y proporcionan un vocabulario compartido para describir qué significa «bueno» para un conjunto de datos específico.
Cómo validar un conjunto de datos
La validación convierte las dimensiones en comprobaciones. El perfilado revela distribuciones, tasas de nulos, rangos y valores atípicos. La validación de esquema confirma la estructura y los tipos. Las comprobaciones referenciales confirman que las relaciones se mantienen. La reconciliación entre fuentes compara contra una referencia de confianza. El muestreo y la revisión manual detectan problemas que las comprobaciones automáticas pasan por alto. Para los feeds recurrentes, estas comprobaciones deben ejecutarse en cada entrega, no solo en la primera.
Fijar criterios de aceptación
Los criterios de aceptación son el umbral en el que los datos se consideran aptos para su uso, expresados como objetivos medibles: por ejemplo, completitud por encima de un porcentaje definido, frescura dentro de una ventana definida, cero violaciones de esquema, y tasas de duplicados por debajo de un umbral. Deben ser lo bastante específicos como para comprobarse objetivamente, y acordarse antes de la entrega para que ambas partes sepan qué significa «aceptado».
La calidad en el suministro recurrente
Para los feeds continuos, la calidad es un proceso, no una verificación puntual. Eso significa monitorizar frente a los criterios acordados, alertar ante incumplimientos, una vía de remediación definida y un proceso de cambios para cuando la propia fuente cambie. Los acuerdos de nivel de servicio y los contratos de datos hacen estas expectativas explícitas y exigibles.
El papel de un socio de suministro gestionado
Un enfoque gestionado incorpora la validación y la aceptación al proceso de suministro: perfila y comprueba los datos a la entrada, los transforma para cumplir el esquema acordado, y documenta la calidad para que el comprador pueda confiar en lo que recibe, y auditarlo. Esto es especialmente valioso al combinar múltiples fuentes, donde es más probable que aparezcan inconsistencias.
Las seis dimensiones, aplicadas
Las dimensiones solo son útiles cuando se convierten en comprobaciones concretas para un conjunto de datos específico. La completitud se convierte en un umbral de tasa de nulos por campo y un recuento de registros esperado; la exactitud en validación contra una referencia de confianza; la consistencia en reglas entre campos y entre fuentes; la puntualidad en una ventana de frescura; la validez en comprobaciones de formato y rango; la unicidad en un umbral de duplicados. Escrita así, la «buena calidad» deja de ser una opinión y se convierte en algo que puede comprobar en cada entrega.
Automatizar las comprobaciones de calidad
Para los feeds recurrentes, la calidad debe exigirse automáticamente, no inspeccionarse a mano. Un pipeline práctico perfila cada entrega, ejecuta las comprobaciones de las dimensiones, compara con los criterios de aceptación acordados y alerta ante incumplimientos antes de que los datos lleguen a los consumidores. Combine esto con una vía de remediación definida y un proceso de cambios para cuando la propia fuente cambie, y la calidad se convierte en un proceso controlado en lugar de una sorpresa recurrente.
- Defina la calidad en términos medibles antes de la entrega, no después.
- Use las dimensiones estándar: completitud, exactitud, consistencia, puntualidad, validez, unicidad.
- Convierta las dimensiones en comprobaciones automáticas que se ejecuten en cada entrega.
- Redacte criterios de aceptación que pueda comprobar objetivamente, y respáldelos con SLA.
Fuentes y lecturas adicionales
- ISO/IEC 25012: modelo de calidad de datos.
- ISO 8000: calidad de datos.
- DAMA-DMBOK: Data Management Body of Knowledge, dimensiones de calidad de datos.
- Comisión Europea: orientación sobre calidad de datos dentro de los espacios de datos europeos.
Validamos, transformamos y documentamos los datos externos frente a criterios de aceptación y SLA acordados. Obtenga un presupuesto sin compromiso.