Datos de salud y ciencias de la vida: anonimizados, sintéticos y de mundo real
Los datos de salud y ciencias de la vida están entre los más valiosos y los más sensibles que existen. Solo pueden localizarse con sujeción a los requisitos legales, de privacidad, éticos y contractuales aplicables. Esta guía explica el panorama y la vía responsable para usarlos.
Un punto de partida prudente
Los datos de salud son datos de categorías especiales bajo el GDPR, y su uso está estrictamente limitado. Todo lo que sigue está sujeto a los requisitos legales, de privacidad, éticos y contractuales aplicables, y a las aprobaciones adecuadas. El valor por defecto correcto son los datos anonimizados, agregados o sintéticos siempre que sea posible.
El panorama de los datos de salud
- Conjuntos de datos de salud anonimizados y agregados y agregados de actividad hospitalaria.
- Población y salud pública: datos de salud poblacional y epidemiológicos y estadísticas de salud pública.
- Mundo real y ensayos: datos de mundo real y conjuntos de datos de ensayos clínicos, bajo condiciones estrictas.
- Mercado y capacidad: datos del mercado farmacéutico e indicadores de capacidad sanitaria.
- Sintéticos: datos de salud sintéticos para pruebas y desarrollo.
Por qué los datos sintéticos y anonimizados van por delante
Como los datos de salud en bruto son tan sensibles, los conjuntos de datos sintéticos que reflejan la estructura sin registros reales, y los datos robustamente anonimizados, suelen ser la única vía práctica para el desarrollo, las pruebas y gran parte de la analítica. Permiten iniciar el trabajo mientras las aprobaciones de cualquier dato real avanzan en paralelo.
Casos de uso habituales
Analítica de salud poblacional, planificación de la capacidad del sistema sanitario, análisis del mercado farmacéutico, y desarrollo y pruebas de software usando datos sintéticos.
Consideraciones de sourcing
La base legal, las aprobaciones éticas y las salvaguardas contractuales van primero. La anonimización debe ser robusta frente a la reidentificación, lo cual es especialmente difícil para los datos clínicos ricos. La procedencia y la documentación son esenciales.
Entrega y gobernanza
La entrega suele usar entornos seguros y acceso controlado. El GDPR y las normas nacionales de datos sanitarios se aplican en todo momento, y las prácticas alineadas con los principios de NIS2 e ISO/IEC 27001 respaldan la seguridad esperada para datos sensibles.
La gobernanza que va primero
En la salud, la gobernanza precede a los datos. Cualquier uso de datos a nivel de paciente depende de una base legal clara, una aprobación ética cuando se requiere, y salvaguardas contractuales, y aun así suele confinarse a entornos seguros y controlados. El emergente Espacio Europeo de Datos Sanitarios busca estandarizar el uso secundario de los datos de salud en la UE con salvaguardas sólidas. El valor por defecto para la mayoría del trabajo comercial y de desarrollo es, por tanto, datos anonimizados, agregados o sintéticos.
Por qué la anonimización es difícil aquí
Los datos clínicos son ricos y de alta dimensión, lo que hace que una anonimización robusta sea genuinamente difícil: los diagnósticos raros, las fechas y las ubicaciones pueden reidentificar a personas incluso sin identificadores directos. Por eso los datos de salud sintéticos y los agregados cuidadosamente diseñados se han vuelto centrales: permiten que el desarrollo, las pruebas y muchos análisis avancen sin exponer a pacientes reales, mientras el acceso a datos reales sigue su propia vía gobernada.
Una lista de comprobación de datos de salud
- ¿Existe una base legal y, cuando se requiere, una aprobación ética antes de cualquier acceso?
- ¿Puede cumplirse la finalidad con datos anonimizados, agregados o sintéticos?
- Si se necesitan datos reales, ¿se tratan en un entorno seguro y controlado?
- ¿Se ha comprobado la anonimización frente a la reidentificación, no solo dado por hecho?
- ¿Están la procedencia y las aprobaciones plenamente documentadas?
- Los datos de salud son de categoría especial: su uso está sujeto a requisitos legales, de privacidad, éticos y contractuales.
- Use por defecto datos anonimizados, agregados o sintéticos siempre que sea posible.
- La anonimización robusta es difícil para los datos clínicos ricos: diséñela y evidénciela.
- Use entornos seguros y documente las aprobaciones y la procedencia.
Fuentes y lecturas adicionales
- EUR-Lex: Reglamento (UE) 2016/679 (GDPR), categorías especiales de datos.
- Espacio Europeo de Datos Sanitarios (EHDS): propuestas y orientación.
- EMA y ECDC: marcos de datos de mundo real y epidemiológicos.
- Comité Europeo de Protección de Datos: orientación sobre datos de salud.
Datos de salud anonimizados, agregados y sintéticos, localizados de forma responsable con sujeción a los requisitos legales y éticos. Obtenga un presupuesto sin compromiso.