Calidad de datos: dimensiones, validación y criterios de aceptación | DataSupplier
DataSupplier
Análisis EN · ES Acceder Solicitar presupuesto
Análisis / Entrega y técnica

Calidad de datos: dimensiones, validación y criterios de aceptación

DataSupplier·15 min de lectura

Un conjunto de datos solo es tan útil como fiable es. Cuando localiza datos externos, la calidad no es una aspiración vaga; es algo que puede definir, medir y hacer contractualmente vinculante. Esta guía expone las dimensiones de la calidad de datos, cómo validar un conjunto de datos y cómo redactar criterios de aceptación que protejan su proyecto.

Cobertura en toda la UE. DataSupplier localiza y entrega estos datos en los 27 países de la Unión Europea —incluidos Alemania, Francia, España, Italia, Países Bajos y Polonia— y en el EEE, en el formato y la cadencia que necesite.

Por qué la calidad debe definirse, no darse por hecha

La mayoría de las disputas sobre datos son disputas de calidad: los datos llegaron, pero estaban incompletos, obsoletos, eran inconsistentes o no coincidían con el esquema acordado. La forma de evitarlo es definir la calidad por adelantado, en términos medibles, y vincularla a la aceptación. La calidad definida tarde es calidad que no puede exigir.

Las dimensiones clave de la calidad de datos

  • Completitud: ¿están presentes todos los registros y campos esperados?
  • Exactitud: ¿reflejan los valores correctamente el mundo real?
  • Consistencia: ¿son los valores coherentes dentro de un conjunto de datos y entre conjuntos?
  • Puntualidad: ¿son los datos lo bastante frescos para el caso de uso?
  • Validez: ¿se ajustan los valores al formato y los rangos esperados?
  • Unicidad: ¿hay duplicados no deseados?

Estas dimensiones se reflejan en estándares como ISO/IEC 25012, y proporcionan un vocabulario compartido para describir qué significa «bueno» para un conjunto de datos específico.

Cómo validar un conjunto de datos

La validación convierte las dimensiones en comprobaciones. El perfilado revela distribuciones, tasas de nulos, rangos y valores atípicos. La validación de esquema confirma la estructura y los tipos. Las comprobaciones referenciales confirman que las relaciones se mantienen. La reconciliación entre fuentes compara contra una referencia de confianza. El muestreo y la revisión manual detectan problemas que las comprobaciones automáticas pasan por alto. Para los feeds recurrentes, estas comprobaciones deben ejecutarse en cada entrega, no solo en la primera.

Fijar criterios de aceptación

Los criterios de aceptación son el umbral en el que los datos se consideran aptos para su uso, expresados como objetivos medibles: por ejemplo, completitud por encima de un porcentaje definido, frescura dentro de una ventana definida, cero violaciones de esquema, y tasas de duplicados por debajo de un umbral. Deben ser lo bastante específicos como para comprobarse objetivamente, y acordarse antes de la entrega para que ambas partes sepan qué significa «aceptado».

La calidad en el suministro recurrente

Para los feeds continuos, la calidad es un proceso, no una verificación puntual. Eso significa monitorizar frente a los criterios acordados, alertar ante incumplimientos, una vía de remediación definida y un proceso de cambios para cuando la propia fuente cambie. Los acuerdos de nivel de servicio y los contratos de datos hacen estas expectativas explícitas y exigibles.

El papel de un socio de suministro gestionado

Un enfoque gestionado incorpora la validación y la aceptación al proceso de suministro: perfila y comprueba los datos a la entrada, los transforma para cumplir el esquema acordado, y documenta la calidad para que el comprador pueda confiar en lo que recibe, y auditarlo. Esto es especialmente valioso al combinar múltiples fuentes, donde es más probable que aparezcan inconsistencias.

Las seis dimensiones, aplicadas

Las dimensiones solo son útiles cuando se convierten en comprobaciones concretas para un conjunto de datos específico. La completitud se convierte en un umbral de tasa de nulos por campo y un recuento de registros esperado; la exactitud en validación contra una referencia de confianza; la consistencia en reglas entre campos y entre fuentes; la puntualidad en una ventana de frescura; la validez en comprobaciones de formato y rango; la unicidad en un umbral de duplicados. Escrita así, la «buena calidad» deja de ser una opinión y se convierte en algo que puede comprobar en cada entrega.

Automatizar las comprobaciones de calidad

Para los feeds recurrentes, la calidad debe exigirse automáticamente, no inspeccionarse a mano. Un pipeline práctico perfila cada entrega, ejecuta las comprobaciones de las dimensiones, compara con los criterios de aceptación acordados y alerta ante incumplimientos antes de que los datos lleguen a los consumidores. Combine esto con una vía de remediación definida y un proceso de cambios para cuando la propia fuente cambie, y la calidad se convierte en un proceso controlado en lugar de una sorpresa recurrente.

Puntos clave
  • Defina la calidad en términos medibles antes de la entrega, no después.
  • Use las dimensiones estándar: completitud, exactitud, consistencia, puntualidad, validez, unicidad.
  • Convierta las dimensiones en comprobaciones automáticas que se ejecuten en cada entrega.
  • Redacte criterios de aceptación que pueda comprobar objetivamente, y respáldelos con SLA.

Fuentes y lecturas adicionales

  • ISO/IEC 25012: modelo de calidad de datos.
  • ISO 8000: calidad de datos.
  • DAMA-DMBOK: Data Management Body of Knowledge, dimensiones de calidad de datos.
  • Comisión Europea: orientación sobre calidad de datos dentro de los espacios de datos europeos.
¿Quiere datos en los que pueda confiar?

Validamos, transformamos y documentamos los datos externos frente a criterios de aceptación y SLA acordados. Obtenga un presupuesto sin compromiso.

Solicitar presupuesto Reservar una llamada de 30 minutos
Relacionado
API, MQTT, Parquet, CSV o Excel: cómo elegir un modelo de entrega → La guía completa del sourcing de datos externos empresariales →