
Anonimización y RGPD. ¿Tú qué sabes?
Indice
Anonimización y RGPD
ADVERTENCIA (julio 2023): toda la primera parte de este post en la que se explica la diferencia entre «dato personal», «seudonimizado» «anonimizado» etc… ha sido laminada por el CJUE (por el TJUE coming soon). Ver aquí.
Hoy comparto con vosotros el ejemplo que utilizo en mis charletas para explicar el concepto de la anonimización y lo fácil que es meter la gamba.
¡Uuuuuuuuuuuuh! el INE está accediendo a nuestros datos anonimizados de ubicación y movimientos, en virtud de un contrato firmado con varias empresas de telecomunicaciones.
La polémica está en la calle desde que se conoció la noticia: ¡Gran Hermano! ¡Quieren saber hasta dónde tenemos los empastes! Etc…
Lo cierto es que no es mala idea que las administraciones tengan acceso a nuestros datos anonimizados, ni que el sector privado tenga acceso a los datos personales gestionados por las administraciones, que igualmente son nuestros, siempre que hayan sido previamente anonimizados.
Los beneficios para toda la ciudadanía son evidentes, siempre que las cosas se hagan bien.
El concepto clave aquí, claro, es el de “anonimización”.
Nada de disociados, per favore: o datos anonimizados o seudonimizados
La LOPD de 1999 decía que los datos disociados ya no eran datos personales, y que por tanto la normativa no les aplicaba.
Datos “disociados”
Dado el confusionismo que todavía rodea los conceptos de anonimización y seudonimización, aconsejo no utilizar el de “disociación”, que se parece demasiado al segundo, y que de acuerdo con el “antiguo régimen” de protección de datos dispensaba de la aplicación de la normativa.
Las cosas se han puesto un poco más complicadas desde la entrada en vigor del Reglamento.
Anonimización vs seudonimización
De acuerdo con el Considerando 26 del Reglamento General de Protección de Datos:
… , los principios de protección de datos no deben aplicarse a la información anónima, es decir información que no guarda relación con (ning)una persona física identificada o identificable, ni a los datos convertidos en anónimos de forma que el interesado no sea identificable, o deje de serlo.”
Por tanto, la anonimización es un tratamiento sobre datos personales que debe arrojar como resultado un set de datos no personales (porque ya no permite reidentificar a los titulares de los datos originales).
La seudonimización, por su parte, consiste en reemplazar un atributo de un set de datos: -normalmente uno que funcione como identificador único-, por otro atributo que no sea público, o directamente por un código aleatorio generado para la ocasión de modo que no permita reconstruir el identificador original.
Hablando en plata: si existe -cerca o lejos, al alcance del responsable o en algún otro sitio-, una tabla de correlación que permita des-seudonimizar los datos, éstos son personales a todos los efectos.
Y lo que tienes es una medida de seguridad privilegiada, no una patente de corso que te dispense del cumplimiento de la normativa de protección de datos personales.
Si no hay tabla de correlación y se han empleado técnicas como las de la guía de la AEPD de K-anonimidad, los datos serán o no anónimos dependiendo de la diligencia y eficacia aplicada en el proceso… o no sólo de eso, como veremos de inmediato.
Hay quien dice que la anonimización es una falacia, por inalcanzable: si se tiene acceso a dos o tres identificadores básicos, se podrá reidentificar a un porcentaje significativo de los individuos incluidos en el set de datos. Y si no se puede hoy, se podrá mañana: es un tema de “cuándo”, no de “si” se podrán reidentificar.
Hay quien dice que hay datos que, por naturaleza, no se pueden anonimizar. Esto puede llegar a ser especialmente cierto respecto la mayor parte de las imágenes y resultados de pruebas médicas con un mínimo detalle: es una cuestión de tiempo que el incremento de información biométrica disponible de cada ciudadano, unida al incremento de la capacidad para relacionar distintas bases de datos médicas entre sí, permitan reidentificar a cualquier paciente, con base en cualquier radiografía o scanner.
Lo que es indiscutible es que la anonimización, como la privacidad en general, es un concepto contextual. Los datos pueden ser personales para unas personas u organizaciones o anónimos para otras, dependiendo de la información adicional a que unas u otras, tengan acceso en cada caso.
Pero esto se explica mejor con el ejemplito.
Los datos de voto en las Elecciones Generales
Los datos de las votaciones efectivas de cada proceso electoral se ponen a disposición de cualquiera. Es open data. Es transparencia.
Pero cuidado con meter la patusca aquí: si conseguimos reidentificar a algún votante a partir de los datos anonimizados publicados, estaríamos revelando datos de categoría especial. Hasta de varias categorías, como veremos.
Y como decía, hay que tener cuidado. Veamos:
Estos son datos anonimizados: los datos de participación y voto en la provincia de Toledo en las elecciones del pasado 29-O.
Veamos.
Parece imposible reidentificar a los votantes con estos datos.
Ahora bien. En Toledo hay una población que es, ejem, famosa entre los frikis de esto, por ser la que menos votantes censados tiene en España: Illán de Vacas.
Tres votantes. Aquí la cosa cambia.
Veamos.
De los tres votantes del pueblo, hace una semana dos votaron al PP y uno al PSOE.
Pero no olvidemos la importancia de la acumulación longitudinal de datos. No se trata de la información que haces disponible hoy, sino toda la que puedes recuperar del ayer.
Veamos los resultados de las Generales del 28-A.
De los tres votantes del pueblo, dos votaron al PP y uno a Unidas Podemos.
Alguien ha rotado hacia el centro.
¿Qué sabemos?
En general, yo que escribo esto y tú que me lees, seguimos en las mismas: no podemos saber quién es quién entre los tres votantes censados en ese pueblo.
Sin embargo, si tú vivieras en Illán de Vacas, o por otra razón tuvieras suficiente “información adicional” sobre esos tres votantes, me juego el pescuezo a que tendrías una buena idea sobre de qué pie político cojea cada uno.
Con estos datos en la mano, ya no sólo tendrías una idea: tendrías la certeza de su voto concreto. Y no sólo eso: sabes de dónde viene y a dónde va.
Entre los datos de categoría especial, una novedad menos cacareada que la de la biometría es la de las “convicciones filosóficas”. Pues bien, en estos días que vivimos, no me negareis que dentro de cada bloque ideológico podemos inferir filosofías muy distintas del hecho de votar al PP, a Ciudadanos o a Vox; o votar al PSOE o a Podemos.
O a lo mejor no, pero se me entiende, creo.
Así que la pregunta es: los datos de voto publicados de Illán de Vacas, … ¿son anónimos?.
Pues depende… O sea: no.
Jorge García Herrero
Abogado y Delegado de Protección de Datos.