¿Los LLMs tratan datos personales?
¿Los LLMs tratan datos personales?
En este blog nos gusta responder cuestiones complejas con chistes malos. Lo hicimos con Fraga, protección de datos e intimidad y ¡qué diablos! volvemos a ello la inteligencia artificial y loros. Veamos:
Un chiste de loros
Una señora compró un loro. En la tienda le advirtieron que era un malhablado, porque antes le habían tenido en un burdel.
Pero lo compró.
Al llegar a casa y destapar la jaula, el loro dijo: «Nueva casa, nueva governanta«.
La señora se echó a reír y se quedó esperando a que sus hijas volvieran del instituto.
El loro: «Nueva casa, nueva governanta, nuevas putas«
Todas se ríen mucho hasta que entra por la puerta el padre, y dice el loro:
“¡¡PEPE, PEEEEPEEE!!”.
El loro del chiste sólo repite los sonidos que le resultan familiares sin entender lo que dice, y sin intención específica.
Pero, de pronto, el loro repite un sonido (“Pepe”, que para el loro no es un nombre ni nada, son sólo los sonidos que escuchaba en presencia del padre) que es un dato personal y que, junto con el contexto, desvela nuevos atributos de Pepe a los presentes.
Y no de los buenos, precisamente.
Pero aquí habíamos venido a hablar de protección de datos.
El discussion paper de la Autoridad Hamburguesa
Hace unas semanas se publicó un “discussion paper” bastante discutible de la DPA de Hamburgo, y una interesante (pero IMHO igualmente equivocada) respuesta de David Rosenthal.
El “discussion paper” de Hamburgo se pregunta sobre si un Large Language Model (LLM) como ChatGPT trata o no datos personales, y concluye que, como los LLMs no son capaces de almacenar datos, cualquier tratamiento de datos relacionado con el funcionamiento de un sistema basado en un LLM empieza con el input del usuario -no antes-y termina con el output del sistema.
Efectivamente, estoy saltándome olímpicamente la diferencia entre modelo y sistema: este post va a tener 700 palabras namás.
¿Sueñan los LLMs con loros eléctricos?
Imaginemos que sale al mercado un robot-loro (parrobot) que imita las voces de sus dueños, y les responde -como el loro del chiste- concatenando las palabras que más frecuentemente les escucha decir.
El lorobot no entiende lo que dice. Imaginemos (qué demonios, juremos ante la Biblia, como hacen los abogados de esas cuatro empresas que ustedes están pensando) que nunca jamás las almacena en memoria: “es imposible”.
A veces dirá cosas inteligibles y a veces no, a veces dirá cosas erróneas y otras ciertas, pero siempre las genera de acuerdo con la, ejem, “distribución estadística” de esas palabras en su training data set.
Mi punto es: si cambiáramos el loro del chiste por el lorobot, y este dijera las mismas palabras del final… la respuesta “Pepe” ¿sería dato personal?
Dicho de otro modo, la pregunta clave es:
¿Es suficientemente relevante el hecho de que el lorobot no “almacene” o “memorice” en sentido tradicional los datos? (esta es la tesis que subyace al Discussion paper de la DPA de Hamburgo).
En realidad, si formulamos de otro modo la pregunta, se resuelve sola:
¿Es suficientemente relevante el hecho de que el lorobot no “almacene” o “memorice” en sentido tradicional los datos personales si después es capaz de regurgitar información coherente (aunque no sea su finalidad, ni siempre lo consiga) de forma indistinguible a como si los hubiera almacenado o memorizado en sentido tradicional?
En el caso de la generación de imágenes es mucho más claro que las imágenes se generan cada vez “on the fly” y que la IA no almacena ni escupe réplicas exactas de las imágenes del training data set…
Dicho esto, si la imagen de una persona estaba en el training data set y el modelo genera (de forma recurrente, como hace un LLM, el loro del chiste o el parrobot del ejemplo) imágenes sintéticas identificables con el interesado… cosas como el sentido común, la vergüenza torera o el principio de accountability me impedirían interpretar ese resultado de forma diferente a un tratamiento de datos.
Pero por favor… PO FAVÓ!!! Convénzanme de lo contrario… aquí hemos venido a jugal.
Este blog se despide por esta temporada: disfruten el verano y caminen por la sombra.
Jorge García Herrero
Abogado y Delegado de Protección de Datos