data scraping

Data scraping vs RGPD

 

Data scraping: ¿Qué es?

Data scraping: descargarse datos (personales o no) a cascoporro de internet con herramientas dedicadas, o tuneando el navegador. Valoración: fácil, útil, muchos lo hacen, relativamente sencillo… pero ilegal.

Y de aquí este grasioso post.

Hoy explicaremos con casos prácticos (léase: sanciones, microinfartos) los problemas que presentan estas cosas del «data scraping», «web scraping» y/o «OSINT» cuando lo que se capturan son datos personales.

Este post tiene una segunda parte: qué hay que tener en cuenta para hacerlo, pero cumpliendo la normativa: el caso del «social media listening«.

Porque hay que cumplir la normativa, como veremos de inmediato.

Por cierto, este mismo post en inglés, aquí.

 

1.-Los Agentes de la Propiedad Industrial

Vayamos de menos a más: primer microinfarto: Recién publicado el RGPD, en septiembre de 2018, la AEPD informó al Colegio de Agentes de la Propiedad Industrial (Informe 136/2018) de que el RGPD les impedía reutilizar los datos identificativos de personas publicados en el Boletín Oficial de la Propiedad Industrial (cuando, pej. se pretende la inscripción de una marca) para ofrecerles sus servicios profesionales.

Tal y como expuso la AEPD, la normativa del BOPI impone la publicación obligatoria de estos datos (que no son, por tanto, voluntariamente publicados por el interesado) para que, por ejemplo, quienes se sientan perjudicados por el derecho que se pretende registrar, puedan oponerse.

El tratamiento secundario de estos agentes (en este caso, recogida de los datos del BOPI y envío de comunicaciones comerciales) no podría ampararse ni en el interés legítimo de promover sus servicios profesionales (falta de expectativas razonables del interesado…), ni en una pretendida relación de compatibilidad entre el tratamiento inicial (el del BOPI) y el secundario (el «comercial» del Agente listillo).

 

data scraping

El drama

 

“Pero es que todo el mundo lo hace” “siempre lo hemos hecho y nunca ha pasado nada”

Ah, estos argumentos jurídicos tan ejpañoles no son muy útiles cuando te inspeccionan…

Pero no pasa nada ¿no? Hasta que pasa…

La protección de datos es odiada porque gracias a ella te enteras, normalmente en el peor momento, de que eso que llevas haciendo toda la vida, estaba prohibido.

Yo sólo cojo los datos que la gente pone ahí porque quiere, hoygan”. Tsk, tsk.

Es que Google lo hace”. Nop, pésimo ejemplo.

«Esa API está ahí para algo«. Correcto. Igual que todas esas leyes orgánicas y reglamentos europeos.

Pero si son fuentes de acceso público”. Buen intento, pero insuficiente.

 

OSINT, lo SIeNTO

O mi favorita: “Mis ingenieros dicen que es que son OSINT”. Yikes!

: Hay un régimen jurídico para la reutilización de “datos abiertos”. Pero ese régimen no te ampara si lo que haces es descargar datos personales “porque están ahí” para ya veremos qué.

NO: no encontrarás la expresión “OSINT” (Open SOurce INTelligence) en el Reglamento de protección de datos. Así que siéntate y agárrate a algo que vienen sorpresitas. Y curvas.

Ingenieros sorprendidos, salten directamente al apartado «la ICO«.

 

28 millones de razones para andarse con ojo

Según dónde mires, a junio de 2022 tienes veinte millones de razones o leuros (sanción del Garante a ClearView: marzo de 22); siete millones (sanción del ICO a ClearView, mayo del 22); un millón de euros (AEPD a Equifax, abril del 21).

Y la propuesta inicial para Equifax fueron nueve millones.

Me reservo para la próxima semana una modalidad de data scraping especialmente problemática jurídicamente: el “social media listening”: la descarga masiva de datos personales de redes sociales para su análisis masivo y automatizado con datos de categoría especial y toda la pesca.

 

¿Qué dicen las autoridades del tratamiento de datos procedentes de “fuentes accesibles al público”?

No, no se me ha ido completamente la olla, o no todavía.

No soy una asustaviejas ni la agorera de Cassandra. Paso palabra a las autoridades de cumplimiento:

 

2.- La AEPD

Hablemos del informe (negativo) 2020-0089 de la AEPD sobre el código de conducta ASEDIE:

ASEDIE (el lobby del sector infomedia) pretendía que el hecho de captar los datos de fuentes accesibles al público se reconociera como, prácticamente, una séptima base de legitimación.

Sin embargo la AEPD les mandó a septiembre con razones como esta:

La circunstancia de que los datos obren en fuentes públicas puede ser considerada como uno de los elementos a valorar al realizar la correspondiente ponderación” (de interés legítimo), pero que deberá ponderarse con el resto de circunstancias concurrentes y que “en ningún caso exime del cumplimiento del resto de principios de la normativa de protección de datos de carácter personal”.

 

Data Breach

 

3.- Procedimiento Nº: PS/00240/2019 (Equifax)

Equifax hacía data scraping de datos personales en todo tipo de registros, boletines y publicaciones (cada uno de ellos con sus propias finalidades (ejemplo: la publicación de la plaza ganada por un funcionario, sanciones, etc) y las utilizaba como criterios para determinar la capacidad crediticia de los interesados. La propuesta inicial de sanción fue de 9 millones de euros, pero la sanción principal no fue la multa, sino la obligación de borrar todos los datos indebidamente obtenidos y tratados.

Miedo me daría preguntar si Equifax comunicó a todas las entidades que consultaron su ilegal fichero la necesidad de, igualmente, borrar dichos datos e inferencias obtenidas de los mismos, tal y como exige el art 19 RGPD, para que hicieran lo propio. Mucho miedo.

La AEPD:

“La circunstancia de que los datos personales se hubieran obtenido de una fuente de acceso público definida en el artículo 3. j) LOPD[99] no puede ya, por ese mero hecho, constituir el fundamento jurídico de un tratamiento de datos personales (…) sino simplemente, como un elemento más de ponderación en la evaluación de interés legítimo”.

 

4.- La CNIL francesa

La recogida masiva de datos personales de las redes sociales, como cualquier tratamiento de datos, debe cumplir con la Ley nacional francesa de Protección de Datos y el Reglamento General de Protección de Datos (RGPD).

Se trata de un fragmento de este post en el que la CNIL suministra pautas a los partidos políticos para que no hagan de su capa un sayo con los datos de ideología política que los ciudadanos publican en sus redes sociales.

Me quiere sonar de algo este tema…

Hubo quien no tuvo en cuenta estas advertencias: en los últimos minutos de la campaña electoral francesa de hace unas semanas, Eric Zemmour remitió un SMS a miles de ciudadanos con un enlace a una web en la que resaltaba el problema del antisemitismo en Francia, apuntando a «la «escoria» que «pudre la vida» a los judíos y al “terrorismo islamista».

Très joli.

Como es habitual en estos casos, Zemmour (responsable o corresponsable de tratamiento, aunque él no quiera saberlo) se encogió de hombros alegando haber contratado una base de datos comercial que «tenía el consentimiento del interesado para (ja) perfilarle ideológicamente (jaja) sin inducir que eran judíos, y con (JAJAJA) fines de comunicación política».

Las palomitas, en paquete grande, s’il vous plaît.

Esto también ha pasado (y ha sido denunciado) en España, sin consecuencia alguna. Pero apuesto a que en Francia se está gestando una sanción ejemplar.

 

data scraping

 

5.- El Garante Italiano

ClearView ha hecho data scraping de todas las imágenes que buenamente ha podido de redes sociales e internet a nivel mundial, las ha transformado en plantillas biométricas, y ahora te devuelve las imágenes disponibles sobre cualquier individuo de tu elección, sólo con que suministres una imagen de su cara con una mínima calidad.

La empresa teóricamente sólo ofrece sus servicios a fuerzas del orden. Ese argumento blanqueador también me suena, ¿eh, NSO, comercializadores de Pegasus?

Pues bien, el Garante impuso una sanción de 20 millones de euros en febrero a Clearview, con la orden adicional de suspender el tratamiento y suprimir todas las imágenes correspondientes a interesados residentes en Italia.

Me dirás que esto es harina de otro costal porque aquí estamos hablando de datos biométricos con la finalidad de identificar univocamente a personas, y es verdad.

Pero, aparte de la parte de datos de categoría especial, las sanciones siempre, siempre hacen hincapié en la falta de base general para el tratamiento, como se lee a continuación:

 “También las denominadas técnicas OSINT (open-source intelligence), que consisten en la recopilación y el tratamiento de información, incluidos los datos personales, a partir de fuentes de libre acceso, como Internet y los datos públicos, sólo pueden llevarse a cabo con una base jurídica adecuada”. (Apartado 3.4 de la resolución).

Repitan conmigo, juguetones ingenieros: “las técnicas OSINT (…) sólo pueden llevarse a cabo con una base jurídica adecuada”.

 

6.- La ICO

En su sanción (7 millones, aunque la propuesta fue de 17) a ClearView, empresa ya comentada, la ICO reproduce las mismas ideas, que se pueden ver en esta captura, y que les ahorro, para no “agurrir”.

data scraping

Captura de @MontezumaChavez

El TJUE

Lo bueno de publicar estas cosas es que las buenas gentes de la protección de datos, te ayudan: como el bueno de Joost Gerritsen, que me ha apuntado que la famosa sentencia «Google Spain» (C‑131/12) contiene un interesantísimo párrafo, muy en línea con todo lo que estamos viendo por aquí:

«Por último, el que los editores de sitios de Internet tengan la facultad de indicar a los gestores de los motores de búsqueda, con la ayuda, concretamente, de protocolos de exclusión como «robot.txt», o de códigos como «noindex» o «noarchive», que desean que una información determinada, publicada en su sitio, sea excluida total o parcialmente de los índices automáticos de los motores, no significa que la falta de tal indicación por parte de estos editores libere al gestor de un motor de búsqueda de su responsabilidad por el tratamiento de datos personales que lleva a cabo en el marco de la actividad de dicho motor.«

 

«Bases de datos para marketing directo»

En esta vida se pueden hacer muchas cosas, y puedes hacerlas y salir indemne. O no. O hasta que no.

Por supuesto que hay tratamientos unilaterales que se pueden justificar por interés legítimo. A Noé le vas a hablar de la lluvia. Pero hay que currárselo.

No como los servicios que se señalan en este artículo de anteayer de El Diario: todas esas listas de correos electrónicos escrapeadas de internet para hacer spam que se contratan y utilizan cotidianamente.

Estos servicios entrañan tres infracciones distintas: (i) Captura: data scraping al capturar los datos de contacto de personas que, muy probablemente no las han puesto “ahí” para que un jeta las recopile y venda; después, (ii) la comunicación de datos: esa “venta” o “alquiler”, que tampoco tiene base legal ni información al interesado) y ya luego (iii) el envío de comunicaciones promocionales, en infracción de la LSSI.

El artículo hace hincapié en el envío de “spam” (LSSI), pero la responsabilidad gorda está antes, en el RGPD, si así se denuncia y castiga por la AEPD.

 

 

data scraping

Bonus track: PimEyes

El New York Times ha denunciado últimamente PimEyes: un servicio parecido al de ClearView, (subes una foto de la cara de alguien y te devuelve los “matches” de esa persona en imágenes y vídeos accesibles en webs, foros, portales, etc… pero no en redes sociales, como hace ClearView).

Lo que hace especialmente execrable a PimEyes es que lleva su “business model” rollo “si no está prohibido está permitido” hasta el infinito y más allá: si subes tu foto y encuentras contenidos que nunca debieron estar ahí (estoy hablando de videos con sexo inconsentido que encuentra online la víctima) te cobran por desindexarlo una cuota mensual.

Y no pequeña, precisamente.

¿Quién da más?

 

Conclusión

En la calle te puedes encontrar una farola, una papelera, un coche con la ventanilla abierta o a una persona dormida. Y eso no te da derechos omnímodos para hacer lo que quieras con ellos.

Lo mismo ocurre con los datos personales. Siempre hay vías de utilización lícita, pero muchas veces no son nada evidentes. Como ocurre con el Social Media Listening.

Pero eso lo veremos la próxima semana.

 

Jorge García Herrero

Abogado y Delegado de Protección de Datos

Vector de pulpo creado por freepik – www.freepik.es