IA generativa vs RGPD (I): protegiendo la gallina de los huevos de oro
IA generativa vs RGPD
Los problemas son interminables en la confluencia entre la Inteligencia Artificial generativa y la protección de datos personales porque la primera no es una sola cosa sino muchas y la segunda es transversal y se aplica en cada caso –en cada contexto- de manera distinta.
Por eso, vamos a dedicar una serie de posts a la protección de datos aplicada a la IA generativa.
Es decir, a alguno(s) tipo(s) de IA(s) generativa(s).
Que no pocos hay.
Post publicados de esta serie:
1.- IA generativa vs RGPD (I): protegiendo la gallina de los huevos de oro
2.- IA Generativa de texto vs RGPD (II) Es el ¿qué? no el ¿cómo?
3.- IA generativa de imágenes vs RGPD (III): Mitos y preguntas frecuentes
4.- Inteligencia artificial vs RGPD (IV): Casos prácticos
Formación sobre RGPD aplicada a IA, Machine learning y decisiones automatizadas del 22…
Te recuerdo que ofrecemos una formación en doble formato: (i) RGPD puro aplicado a casos prácticos y reales de IA con El Chachi, y (ii) presentación y desmenuzamiento del horroroso Reglamento de Inteligencia Artificial con Sara Domingo de Trillateral Research. Esto empieza el 9 de octubre: toda la info aquí. Inscripciones en formacion@jorgegarciaherrero.com.
El pecado original: engullir datos y obras ajenas
La protección de datos es suficientemente compleja y transversal como para meterse en más charcos.
La primera regla de este blog es que sólo se habla de protección de datos. Y bueno, sin pretensión de rigor alguno, y con el cartel de cuñao en alto, de lo que se le ponga en las narices al autor.
Faltaría más.
Maese Borja Adsuara, en una genial distinción -tan elemental como elocuente-, dice que “dato” es aquello que nos viene “dado” para que terceros puedan identificarnos, distinguirnos de los demás.
Y todo lo que no es “dato” es “obra”, es creación, más o menos original, de alguien.
La situación actual se puede resumir en el meme de OpenAI (o Microsoft, o Meta, o Google) cabalgando o parasitando todo el corpus publicado en internet, integrado por “datos” y “obras”.
“Y la parte legal, ya luego”
- Siguiendo las reglas del blog, no se dirá aquí ni una sola palabra sobre todas esas demandas por infracción de derechos de propiedad intelectual al entrenar los artífices de los modelos de IA generativa con, básicamente, todo lo que se ha podido escrapear de internet.
En este sentido, recomendar el approach pragmático y nada populachero del siempre solvente Frank Pasquale en su paper “Consent and Compensation resolving generative AI copyright crisis”.
- Desde el punto de vista de la protección de datos personales, tampoco tengo ahora meshmo nada que añadir: ya escribí un par de posts hace años, sobre cómo no se hace y un par de pinceladas sobre cómo se hace eso del data scraping que aquí hemos asesorado ya varias veces. Ambos posts siguen estando entre los más leídos cada año.
El punto: Inevitablemente, porque el ser humano es como es, sólo cuando lleguen las sentencias y los borbotones de sangre, y por supuesto, la aplicación del Reglamento de Inteligencia Artificial, el péndulo virará desde el actual extremo de “estamos creando un nuevo paradigma y nadie nos puede tocar un pelo” a “va a tocar asegurar y poder acreditar -“accountability”- que el modelo de IA que he creado, y/o que utilizo comercialmente, no presente manchas indelebles de previos incumplimientos sanguinolentos».
Sobre este punto sí volveremos más pronto que tarde, porque de lo que se trata aquí es de apuntar rutas de cumplimiento viable, como siempre.
Protegiendo la gallina de los huevos de oro
Llevamos más de un año asistiendo a diversos intentos de separar nítidamente:
- por un lado, las responsabilidades (o lo que es lo mismo, los incumplimientos sustancialmente en materia de Propiedad intelectual y privacidad) vinculados al entrenamiento de los modelos de IA generativa, y
- por otro, el uso de estos mismos modelos ya entrenados por parte de terceros.
El indisimulado objetivo es que los usuarios del modelo entrenado no se vean “contaminados” por los pecados cometidos durante el entrenamiento.
Lo novedoso de este verano azul de 2024 es que estos planteamientos fueron asumidos por una autoridad de control: la de Hamburgo.
Sustancialmente los argumentos de su discussion paper -enlazado más abajo-, hablando de la generación de texto, fueron:
1.- Que un LLM no almacena en el sentido ortodoxo información ni datos personales, ergo “no hay tratamiento”.
2.- A renglón seguido, que un LLM por separado no es lo mismo que un sistema de IA. Sólo éste permite la interacción con el usuario. Y el tratamiento de datos, si es que se produce, se produce sólo entre el input del usuario y el output del modelo.
Y entonces, que un modelo en solitario -no insertado en un «sistema»- y en estado estático, ¿adivinan? no está sujeto al RGPD.
Nice.
Entiéndanme: no me meto con el objetivo de los compañeros del metal, porque las lentejas hay que ganárselas.
Digo que los argumentos son manifiestamente mejorables.
«Chanquete ha muerto»: El “discussion paper” y la respuesta de Rosenthal
El doc de la DPA de Hamburgo se publicó a finales de julio, con veranicidad y alevosía. También se publicó una muy interesante respuesta de David Rosenthal.
Esta última, en mi humilde opinión, es altamente pedagógica en su desarrollo, pero igualmente sesgada en sus conclusiones.
El “discussion paper” de Berlín se pregunta sobre si un Large Language Model (LLM) como el utilizado por ChatGPT trata o no datos personales, y concluye que, como los LLMs no son capaces de almacenar datos, cualquier tratamiento de datos relacionado con el funcionamiento de un sistema basado en un LLM empieza con el input del usuario -no antes-y termina con el output del sistema.
De este modo, la satisfacción de derechos y en general todo el “Enojoso Cumplimiento de Ese Coñazo Yamado RGPD» (en adelante, “ECECYR”) correspondería al deployer, a la empresa que utiliza o comercializa la capa comercial de, digamos, ChatGPT.
Nunca a su desarrollador.
Es decir (ver imagen), en esa separación de conceptos dejaríamos a la izquierda el sanguinolento y judicializado entrenamiento de data sets (esto se da por muerto, como a Chanquete)… y a la derecha un maravilloso mundo sin abogados (como en el meme de los Simpson): el modelo por separado no sujeto al RGPD ni al ECECYR, y/od un sistema en el que el tratamiento de datos es iniciado y y el ECECYR asumido por el deployer, no por el provider (en la nomenclatura del RIA).
Nice.
(Las imágenes son slides de mi formación)
Ya digo que lo más valioso de ambos documentos es la asequible descripción del entrenamiento y funcionamiento de un LLM. Otra cosa son las conclusiones jurídicas a las que llegan.
En suma, parece publicidad de OpenAI. O de Microsoft.
Y no lo digo a la ligera. Veamos cómo el planteamiento coincide palabra por palabra.
Prestidigitadores en acción
Vean este vídeo: Julie Brill (exFTC y ahora en el “otro” lado de la fuerza: Microsoft) dijo esto en la CPDP. En este minuto podría estar resumiendo el “discussion paper” de la DPA de Hamburgo.
No me malinterpreten: soy muy fan de los buenos magos, esos que dirigen la atención del fascinado espectador a la derecha, mientras te roban la cartera con la mano izquierda.
No fortalece la posición de Microsoft el hecho de que ofrezcan gratis total a sus clientes un seguro contra responsabilidad en materia de copyright en el uso de Copilot. Ni mucho menos que, de facto, las condiciones establecidas para beneficiarse del mismo sean impracticables.
Por hoy terminaré diciendo que “es muy complicado todo esto” pero que la complejidad hay que afrontarla con respuestas sólidas y viables.
No con trucos de trilero.
Continuará.
Jorge García Herrero
Abogado y Delegado de Protección de Datos