Datos de series temporales: sourcing y entrega
Gran parte de los datos externos valiosos son series temporales: precios, demanda, telemetría, clima. Tienen sus propios escollos en torno a las marcas temporales, las lagunas y las revisiones. Esta guía cubre cómo localizar y entregar bien los datos de series temporales.
Por qué las series temporales necesitan un cuidado especial
Los datos de series temporales se definen por su índice temporal, y pequeñas inconsistencias —zonas horarias, frecuencias, revisiones— causan grandes errores analíticos. Acertar con la estructura temporal es tan importante como los valores.
Marcas temporales y frecuencia
Confirme la zona horaria, si las marcas temporales señalan el inicio o el fin de un periodo, y la frecuencia (y si es regular). Mezclar convenciones entre fuentes es un error común y costoso.
Lagunas e irregularidad
Las series temporales reales tienen lagunas: lecturas ausentes, festivos, cortes. Cómo se representan y rellenan (o no) las lagunas afecta a cada cálculo posterior. El sourcing debe documentar el tratamiento de las lagunas.
Revisiones y point-in-time
Muchas series se revisan tras la primera publicación. Para el backtesting y la auditoría, los datos point-in-time (lo que se conocía en cada momento) importan; usar datos revisados como si hubieran estado disponibles antes crea sesgo de anticipación.
Almacenamiento y entrega
Los formatos columnares como Parquet y las bases de datos de series temporales encajan con grandes historiales; las API y los flujos encajan con las actualizaciones en directo. Una indexación y unos metadatos consistentes mantienen utilizables los historiales largos.
En un modelo gestionado
Un socio gestionado puede alinear las marcas temporales, documentar las lagunas y revisiones, y entregar series temporales históricas y en directo consistentes en su formato preferido.
Marcas temporales, zonas horarias y convenciones
La mayoría de los errores de series temporales son temporales, no numéricos. Confirme la zona horaria (y cómo se gestiona el horario de verano), si una marca temporal señala el inicio o el fin de su intervalo, y si la frecuencia es realmente regular. Dos fuentes que discrepen en cualquiera de estos puntos se desalinearán al unirse, produciendo errores sutiles y difíciles de rastrear. Convertir cada serie a una convención canónica de UTC e inicio de intervalo antes del análisis elimina toda una clase de errores.
Revisiones y point-in-time data
Muchas series, especialmente las económicas y operativas, se revisan tras la primera publicación. Para el backtesting, la previsión y la auditoría, necesita datos point-in-time: los valores tal como se conocían en una fecha dada, no las últimas cifras revisadas. Usar datos revisados como si hubieran estado disponibles antes crea un sesgo de anticipación que favorece a los modelos y falla en producción. Un feed consciente de las versiones registra lo que se conocía en cada momento, y vale la pena exigirlo.
- Los errores de series temporales suelen venir de las marcas temporales, las frecuencias y las revisiones.
- Confirme la zona horaria, la convención de periodo y la frecuencia entre fuentes.
- Documente cómo se representan y rellenan las lagunas.
- Use datos point-in-time para evitar el sesgo de anticipación en el backtesting.
Fuentes y lecturas adicionales
- Referencias del sector sobre gestión de datos de series temporales.
- Eurostat y las agencias estadísticas: políticas de revisión.
- Documentación de Apache Parquet y de bases de datos de series temporales.
- Práctica interna: entrega de series temporales de DataSupplier.
Alineamos las marcas temporales, documentamos las lagunas y revisiones, y entregamos series históricas y en directo limpias. Obtenga un presupuesto sin compromiso.