
Legitimando el entrenamiento de modelos de IA: tres opciones
[Suena la voz de Sofía Petrillo, la hierática abuela de “Las chicas de oro”]:
“Imaginad: Europa, 18 de diciembre de 2024”
Los DPDs de toda Europa (y parte del extranjero) tienen un ojo puesto en las vacaciones de Navidad y otro en la web del EDPB que tiene que publicar su Opinión 28/2024 sobre los tratamientos de datos personales en el contexto de modelos de Inteligencia Artificial.
Muchas esperanzas depositadas en ese texto, aunque las perspectivas no son nada halagüeñas.
Y se confirma: el documento, una vez leído, no desata ninguno de los nudos gordianos que “HATENASAN LA HINNOBASIÓ” en la Unión Europea.
No hay nada útil en ellas para facilitar la legitimación de cosas como:
(i) la formación de esos enormes data sets para entrenar tooodos esos modelos multimodales hegemónicos, ni
(ii) el propio entrenamiento de los mismos.
¿O quizá sí? Veamos:
Indice
- 1.- La vía contractual
- 2.- Tratamientos ulteriores con finalidades compatibles
- 3.- Las enseñanzas del “Social Media Listening” (que es una modalidad de “data scraping”)
- ¿Qué tiene que ver el Social Media Listening con ChatGPT?
- La doble cadena de ADN del Social Media Listening desde el punto de vista de protección de datos
- Explicación con fotitos
- Caso 1: Zapatero
- Caso 2: esta chica siniestra random
- Caso 3: Las hijas de Zapatero
- Caso 4: Alba, la hija de Zapatero again
- Hay más cositas, claro
1.- La vía contractual
Empecemos por lo más agrio, que es tragarse uno sus propios sapos.
Tres cosas quedaron claras a partir de la hostiaca propinada por la DPC irlandesa a Meta en 2024 (está bien, fue la mano de la DPC la que gozó del glorioso contacto lateral con la desde entonces maltrecha mejilla de Meta, pero fue el EDPB el corresponsable del movimiento, bien que sin contacto carrillil).
- No se debe confundir contrato y consentimiento
- El contrato sólo puede legitimar la parte de tratamiento estrictamente necesaria para er… el cumplimiento del contrato.
- El contrato debe vincular a interesado y responsable.
O así lo había interpretado yo durante mucho tiempo.
Demonios, de hecho, así se dice explícitamente en documentos como las guidelines de la DPC sobre bases legales de tratamiento (pg 11), o por ejemplo en muchas resoluciones de la AEPD.
Una reciente: ésta de hace unas semanas.
Esta interpretación es garantista y la intención de las autoridades de control es buena: obvio.
No en vano, Meta, por ejemplo, apelaba al cumplimiento de sus contratos firmados con las empresas a las que vende su publicidad personalizada…. para legitimar su tratamiento de datos de sus usuarios…
Y sin embargo, se puede tener buenas intenciones y no escapar a la alargada sombre del #CuñaoDelulu.
Y estoy hablando por mí.
Porque es fácil pensar en situaciones en las que el tratamiento está legitimado y sin embargo, no media una relación contractual directa, sino indirecta entre responsable e interesado.
Por ejemplo, un actor de cine o un cantante, firma un contrato con una productora, en la que le ceden todos los derechos relacionados con una grabación (de su imagen y voz: datos personales) y autorizando su difusión y uso a la productora y a distribuidoras y, a su través, a todos los terceros que sea posible.
Porque cuantos más terceros publiquen, difundan, proyecten, vean (traten en definitiva) esos datos personales, más dinero ganarán tooodos los eslabones de la cadena.
Y obviamente, ni el actor ni el cantante firmarán contratos directamente con cada discoteca que pinche la canción o cine que proyecte la película. No hay contrato directo, hay un contrato master que permite una cesión de derechos, universal o con las limitaciones que procedan.
Visto así, parece que, si tenemos contratos con cuyo objeto sea una cesión universal de derechos (que permiten el uso para cualquier finalidad y/o en favor de cualquier tercero de determinados datos personales), por ejemplo: la imagen, o la voz, esta base contractual será válida para muchas cosas, y entre ellas, para el entrenamiento de modelos de IA.
Aunque el interesado no sea parte.
2.- Tratamientos ulteriores con finalidades compatibles
Estamos acostumbrados a la versión dura del principio de limitación de finalidad: uno de los viejos rockeros regulados en el art. 5 RGPD.
Sin embargo, el art. 5 lo que dice en realidad es que
- se deben captar los datos para fines determinados, explícitos y legítimos y que
- esos datos no se pueden utilizar ulteriormente para fines incompatibles con aquellos.
No que no se puedan utilizar para nada más.
Ni por nadie más.
Sino para nada incompatible.
Que es muy distinto.
Que la vía de los tratamientos compatibles es una vía tan prometedora como poco explorada –por decir algo- en temas de inteligencia artificial, lo llevo diciendo todo el 2024 en mis formaciones.
Desde diciembre pasado, lo dice también el EDPB, en la comentada Opinion 28/2024:
3.- Las enseñanzas del “Social Media Listening” (que es una modalidad de “data scraping”)
Las plataformas de social media (“redes sociales” pero también las versiones digitales de los legacy media) han democratizado la libertad de expresión e información, proporcionando altavoz al ciudadano anónimo, quien puede adquirir en ellas tracción y popularidad para convertirse en “ciudadano periodista” o “cabeza visible de una determinada opinión compartida” por sí mismo, sin contar con los medios de comunicación tradicionales.
Este fenómeno trae consigo un incremento significativo de exposición pública (con todo lo que ello conlleva) en especial de quienes alcanzan el status de Influencer o Key Opinion Leader en la terminología especializada.
El Social Media Listening nace como una hibridación entre los tradicionales sondeos o métricas representativas de opinión pública del siglo XX y la posibilidad actual, de capturar la opinión de la totalidad de una comunidad presente en una determinada red social, pero ponderándola en función de la diversa influencia de sus componentes.
¿Cómo se justifica legalmente el tratamiento masivo de datos en que consiste el Social Media Listening?
En pocas palabras: el ciudadano anónimo que se convierte en influencer pierde proporcionalmente su protección de la normativa de privacidad.
De acuerdo con mi costumbre de que los ejemplos extremos son los más ilustrativos, y reservándome algo más compensado y visual para la próxima semana: lean, lean este artículo sobre la cantante Aitana.
Pero de esto hablaremos el próximo martes.
¿Qué tiene que ver el Social Media Listening con ChatGPT?
La mayor parte de denuncias sufridas por OpenAI en Europa se reducen a dos:
1.- “He preguntado por mí mismo y el cabrón de ChatGPT ha contestado con información inexacta: DENUNCIO.”
O simplemente:
2.- “He preguntado por mí mismo y el cabrón de ChatGPT sabía quién era yo: se ha entrenado con mis datos personales sin mi consentimiento: DENUNCIO.”
No digo que haya muchos más problemas en protección de datos. Hablo de las más sonadas.
La doble cadena de ADN del Social Media Listening desde el punto de vista de protección de datos
La legitimación de tratamientos de datos personales en social media listening se basa en una doble regla inversamente proporcional:
- Cuantos más seguidores (más influencia) tiene una persona en redes sociales, más peso tiene su opinión (y más interesa identificarle o distinguirle de la masa), porque cataliza la de muchos otros. En sentido inverso, la identidad de cada uno de los influidos / no influidos no es más que un punto estadístico que no interesa a nadie por sí.
- Cuanto más pública o interesante para el público es una persona, cuanto más grande es la esfera de su vida expuesta voluntariamente o por circunstancias de interés público, más pequeña es la protección de sus datos personales.
Explicación con fotitos
El segundo punto merece un poco de explicación. Creo que se entiende bien con el ejemplo de la familia Rodríguez Zapatero:
Caso 1: Zapatero
Mientras Jose Luis Rodríguez Zapatero era Presidente del Gobierno español, todo lo que hacía era de interés general. Era una persona pública.
Todo un corpus jurisprudencial y de doctrina de las autoridades de cumplimiento reconocen que las personas públicas tienen su derecho de protección de datos reducido a su esfera personal y familiar. Y diría que ni esa, porque si a una persona pública se le ocurre acercarse más de la cuenta a una persona no tan pública distinta de su cónyuge, ningún informador, profesional o aficionado será castigado por hacerlo público.
Porque conductas privadas incoherentes con las públicas son cuestiones de interés general.
Este mismo principio leído en sentido contrario explica por qué a los votantes de Donald Trump les afecte entre mucho y la hostia (para los de fuera de Valladolid: nada) que su paladín fuera condenado por sentencia firme por violación.
Nadie apreció inconsistencia entre la conducta pública y la privada.
Ni sus votantes, ni sus detractores.
Caso 2: esta chica siniestra random
Es una persona no pública. No sabemos quién es ni cómo se llama. Su derecho de protección de datos personales le cubre en todo su esplendor.
Pero llegamos ahora a lo interesante: los casos intermedios.
Caso 3: Las hijas de Zapatero
Cuando los Obama visitaron España, se hicieron esta foto, con la familia Rodríguez Zapatero al completo. Hijas incluidas.
Ni un solo cuñao se privó de hacer su gratuito y no solicitado comentario sobre las pintas de las dos chicas, menores de edad en ese momento.
Era un caso en plena tierra de nadie, porque las chicas posaron para una foto oficial que se hizo pública.
En mi opinión deberían haber sido más protegidas. De hecho, hoy puedes encontrar en internet muchas de las copias de esa imagen con el rostro de las hijas pixelado. Y así la reproduzco aquí.
Caso 4: Alba, la hija de Zapatero again
¿Pero qué pasa cuando Alba, una de las hijas de Zapatero da el paso de “convertirse en influencer”, esto es, exponer públicamente sus opiniones y criterios sobre determinados temas sobre los que aspira a crear opinión?
Sin profundizar, porque no es este el tema del post, desde el punto de vista de protección de datos el doble criterio básico para ponderar debidamente estas situaciones es el de “legítimas expectativas del interesado / consecuencias del tratamiento para el interesado”.
Ahora se entiende mejor cómo no somos todos iguales ante el RGPD (y ante los Social Media Listeners):
El perímetro de la protección de datos personales se va reduciendo sensiblemente a medida que una persona transita desde la condición de (i) “siniestra random anónima”, a la de (ii) “hija de persona pública”, a la de (iii) “influencer” (y estos los hay de muuuchos colores y tamaños), y por último a la de (iv) “persona pública” como Zapatero.
Por eso, al emplumarle el data set a un modelo multimodal que va a aprender todos los datos y obras publicadas, parece una buena idea subrayar que la importancia estadística de apariciones de una persona es un criterio a tener en cuenta al establecer umbrales por encima o debajo de los cuales, el modelo (preferentemente el modelo, en vez del sistema) sencillamente no responda, por mucho que se le pregunte.
Hay más cositas, claro
Esto por supuesto, no es una solución total: es un punto de partida.
Mi punto aquí es el que busco siempre: empezar por la parte que ya tenemos jurídicamente resuelta y construir desde ahí.
.- Es obvio que, por ejemplo, OpenAI ha tratado y puede seguir tratando los datos de las “personas no públicas” aunque se lo impida a sus usuarios.
La aplicación de este filtrado o umbral debería realizarse al recabar los datos que van a integrar el training dataset, antes del entrenamiento del modelo, o bien durante el entrenamiento para que el modelo ignore la información de las personas “de estadística baja” so to speak.
.- En cuanto a otros derechos como el de supresión me temo que tendremos que esperar a que el TJUE haga su magia con una de sus míticas sentencias, como la de Google Spain, compaginando las limitaciones de la técnica con la aplicación de los principios del Estado de Derecho y garantías de derechos individuales.
Esos principios y garantías que, cada día que pasa, estamos más cerca de denominar principios y garantías “europeos” con propiedad, sin condescendencia.
Muy buena semana.
Jorge García Herrero
Abogado y Delegado de Protección de Datos