Inteligencia Artificial vs RGPD (IV): Casos prácticos
Inteligencia artificial vs RGPD. Último asalto.
Indice
- Post publicados de esta serie:
- MITO 3.- Vale, un modelo de IA se ha entrenado con fotos de mi cara ¿El modelo generará imágenes random mías? ¿Imágenes de una persona haciendo cualquier cosa… pero con mi cara?
- ¿Podemos articular la inteligencia artificial con el RGPD en la práctica?
- Primero: Accedemos a un modelo de IA generativa comercial multimodal y le pedimos una imagen fotorrealista de un Donald Trump gigante pegándose con Godzilla en mitad de Manhattan.
- Segundo: Alice se levanta por la mañana y escribe en su ordenador “Hey Dall-E/Grok/Stability/ChatGPT genérame una imagen fotorrealista de un policía local dirigiendo la circulación” (o un bombero o un médico, da igual). Y BANG, el modelo genera una imagen de un tipo que se parece muchísimo a su marido, Bob.
- ¿Qué hace que la generación de ese output se califique o no como tratamiento de datos personales de una persona concreta o identificada?
- Opción “A”.- Si el modelo ha sido entrenado para identificar a las personas, y se le solicita una imagen de Bob, y la suministra, obviamente no hay nada que valorar.
- Opción “B”.- Pero… ¿ Y si el training dataset no incluía imágenes de Bob?
- ¿Puede controlar el responsable si una determinada persona se encuentra o no en el training data set?
Post publicados de esta serie:
1.- IA generativa vs RGPD (I): protegiendo la gallina de los huevos de oro
2.- IA Generativa de texto vs RGPD (II) Es el ¿qué? no el ¿cómo?
3.- IA generativa de imágenes vs RGPD (III): Mitos y preguntas frecuentes
4.- Inteligencia artificial vs RGPD (IV): Casos prácticos (el que estás leyendo ahora)
Formación sobre RGPD aplicada a IA, Machine learning y decisiones automatizadas del 22…
Te recuerdo que ofrecemos una formación en doble formato: (i) RGPD puro aplicado a casos prácticos y reales de IA con El Chachi, y (ii) presentación y desmenuzamiento del horroroso Reglamento de Inteligencia Artificial con Sara Domingo de Trillateral Research. Esta edición empieza el 9 de octubre: toda la info aquí. Inscripciones en formacion@jorgegarciaherrero.com.
La semana pasada terminamos con una especie de cliffhanger (la verdad es que para nada). Con esta pregunta:
MITO 3.- Vale, un modelo de IA se ha entrenado con fotos de mi cara ¿El modelo generará imágenes random mías? ¿Imágenes de una persona haciendo cualquier cosa… pero con mi cara?
Recordemos de “episodios anteriores”: los modelos no almacenan copias exactas de las imágenes utilizadas en su entrenamiento, sino representaciones matemáticas, patrones abstractos de las mismas.
Recordemos: cualquier imagen generada por una IA va a ser nueva, no una copia de ninguna imagen con la que se ha entrenado (salvo que el modelo se entrene específicamente para hacer eso).
Del mismo modo que tu recuerdo de una foto es un conjunto de datos y aspectos que te llamaron la atención de la foto, pero si pudiéramos imprimir tu memoria y compararla con la original, sería distinta. Salvo que seas “Funés el memorioso”.
Recordemos: un modelo de IA puede generar imágenes muy parecidas a una persona o a una imagen previa, pero sólo si la ha encontrado repetidamente en el training dataset y esa persona tiene características faciales distintivas.
Y esto ocurre hoy con personas famosas porque sus imágenes aparecen por todo internet y han sido engullidas junto con su contexto como parte del training data set de los modelos de IA generativa hegemónicos actuales.
Y precisamente el caso de los personajes públicos tiene su particularidad -léase “trato flexible”- que permite su tratamiento desde el punto de vista de la protección de datos personales.
Entonces (lo prometo, es la última vez que insisto) un modelo sólo puede generar imágenes convincentes (y nuevas, siempre nuevas) de personas “anónimas” (no famosas) pero identificadas en una prompt, si:
(i).- El modelo ha sido alimentado, no sólo con imágenes de su rostro sino también con la información necesaria para identificarlos, para saber quiénes son.
(ii).- Y el modelo ha sido entrenado para satisfacer prompts del tipo (“quiero una imagen de Donald Trump volando”).
El punto: Para personas “anónimas” (poco presentes en el training dataset) el modelo de IA sólo será capaz de generar consistentemente imágenes convincentes (o que parezcan, p. ej. fotografías captadas en el mismo lugar que la original) si ha sido entrenado para saber quién es quién y generar “a la carta” imágenes de la persona así identificada.
Creo que esto resume casi todo el anterior post, y responde a esta pregunta.
Entonces:
¿Podemos articular la inteligencia artificial con el RGPD en la práctica?
Veamos dos casos prácticos, pero ya desde el punto de la protección de datos personales:
Primero: Accedemos a un modelo de IA generativa comercial multimodal y le pedimos una imagen fotorrealista de un Donald Trump gigante pegándose con Godzilla en mitad de Manhattan.
La IA reconoce a ambos personajes y genera una imagen en la que los incluye, pero como venimos diciendo, no son copias idénticas de las imágenes con las que se entrenó, sino recreaciones parecidas que ha generado porque ha aprendido a hacerlo durante su entrenamiento o en el fine-tuning.
Este ejemplo no es demasiado interesante porque Donald Trump es un personaje público ampliamente conocido y Godzilla también.
Además los “retriles” no gozan de protección de sus datos personales.
El caso interesante (por lo menos para mí) es el siguiente:
Segundo: Alice se levanta por la mañana y escribe en su ordenador “Hey Dall-E/Grok/Stability/ChatGPT genérame una imagen fotorrealista de un policía local dirigiendo la circulación” (o un bombero o un médico, da igual). Y BANG, el modelo genera una imagen de un tipo que se parece muchísimo a su marido, Bob.
No es que sea una imagen igual a una foto preexistente de su marido, es una imagen nueva en la que se representa a alguien con la cara de su marido.
Como la de Trump: no es exactamente una foto de Trump, sino una creación en la que se le reconoce perfectamente.
Todas las explicaciones en los posts previos nos permiten enfrentarnos hoy a la pregunta del millón de dólares:
¿El modelo ha realizado un tratamiento de los datos de Bob para generar esa imagen?
¿Cuáles son los criterios de valoración que determinan si eso ha ocurrido o no?
¿Qué hace que la generación de ese output se califique o no como tratamiento de datos personales de una persona concreta o identificada?
En mi opinión, esa calificación depende de un juicio ex post que debe valorar factores como los siguientes:
- Que el interesado (confundible o identificable con la imagen del output) estuviera incluido en el training data set, como adelantaba antes.
- Que el modelo tenga la capacidad de vincular la imagen de Bob con la persona llamada Bob.
- Que la prompt consista precisamente en la solicitud de una imagen de una persona que el modelo pueda identificar.
Opción “A”.- Si el modelo ha sido entrenado para identificar a las personas, y se le solicita una imagen de Bob, y la suministra, obviamente no hay nada que valorar.
Hay tratamiento de datos.
Es el supuesto de Trump del principio.
Pero si el interesado no está en el training data set, si el modelo no tiene información adicional sobre la identidad de los modelos de las imágenes incluidas en el mismo, ni capacidad para vincular caras a identificadores y después regurgitarlos…
Opción “B”.- Pero… ¿ Y si el training dataset no incluía imágenes de Bob?
En mi humilde opinión, aquí no ha habido tratamiento de datos de Bob. ¿Por qué? Pues porque humanos hay muchos, pero caras no tantas.
Es perfectamente posible que el modelo haya obtenido información suficiente de caras de personas más o menos parecidas a Bob, como para generar la imagen de una persona intermedia que se les parezca más o menos.
Me parece incluso alta la posibilidad de que cada vez que un modelo de IA genera un careto al azar, el output se parezca a alguien. O a muchos alguienes.
Así que todo quedaría reducido a una cuestión de accountability, de capacidad de prueba.
¿Estaba Bob in or out?
¿Puede controlar el responsable si una determinada persona se encuentra o no en el training data set?
Respondo con otra pregunta: ¿Han oído hablar de los “modelos veganos de IA”?
Son los que se entrenan únicamente con imágenes de personas que así lo han autorizado documentalmente. Esos documentos se conservan y gestionan.
Y sirven para acreditar la accountability del responsable del tratamiento, del developer y del provider en la nomenclatura del Reglamento de Inteligencia Artificial.
Y permiten responder con certeza y accountability si Bob estaba o no en el training dataset.
Me temo que la IA seguirá siendo carnívora un tiempo, pero que nadie les haga creer que las cosas no pueden hacerse mejor.
Jorge García Herrero
Abogado y Delegado de Protección de datos