ChatGPT interes legítimo

Laboratorio del Interés Legítimo : ChatGPT

 

 

El próximo 30 de abril termina el plazo otorgado por el Garante italiano para que OpenAI adopte medidas materiales de protección sobre los derechos de (i) sus usuarios y (ii) los no usuarios: es decir, los interesados cuyos datos personales se han tratado para el entrenamiento de los algoritmos utilizados para prestar el servicio ChatGPT.

El requerimiento conocido el pasado 11 de abril reclama sustancialmente, los siguientes puntos: una política de privacidad como Dios manda, la información mínima preceptiva antes del uso del servicio, una herramienta para que los interesados –los residentes italianos, cuando menos- puedan ejercer su derecho de oposición al tratamiento de sus datos para el entrenamiento de algoritmos, la rectificación de sus datos personales, una base legal de tratamiento que no sea (prego!!) la del contrato con el usuario y un “age gate” o procedimiento de verificación de edad.

En otras palabras: la prueba del cuatro, como decía la semana pasada.

Las probabilidades de que OpenAI cumpla el requerimiento del Garante son, tirando por lo alto, del 0%. Luego ya veremos qué pasa.

 

¿Por qué?

El entrenamiento de ChatGPT se desarrolló sin ningún interés en cumplir el RGPD.

Así lo reconoce la empresa en su respuesta al derecho de acceso que Alexander Hanff recibió y publicó en Linkedin.

Eso sí, con la típica retórica cuqui-tech©.

ChatGPT is powered by models trained on a vast corpus of text, including text from the public Internet. The models learn to predict the next word in billions of sentences. A percentage of this training data contains data the qualifies as “personal data” under applicable data protection and privacy laws.

(Hey man! Minipunto para OpenAI!)

However, any identifying personal data of a specific person is not directly relevant to model training – the model does not need to know, and OpenAI does not want to know, information about any private individual.

(Para esas cosas hay algo llamado “principio de minimización”, zangolotini: captar sólo lo que necesitas, o borrar a la primera oportunidad aquello que no te interesa para alcanzar tu finalidad).

Instead, the model uses personal information such as names to learn how names work, how names fit within language and sentences, how names are different from other words, and so on.

Any inclusion of personal data within these datasets is entirely incidental to the collection process and will only occur in relation to personal data which has already been made public on the Internet.”

 

“Entirely incidental” dice. AND illegal, añadiría.

No se trata de lo que pretendías, fratello, sino de lo que hiciste. Además, lo de “personal data already been made public” te queda para septiembre.

Te chapas en Ferragosto la reiterada y sólida doctrina del EDPB sobre lo que se puede y no se puede considerar como “datos públicos”. Y lo que se puede y no se puede hacer con ellos.

Por aquí hablamos en su día del data scraping. En inglés también.

Si quieres ir directo al grano, creo que la parte del texto de la sanción de la ICO a ClearView (enlace directo aquí) encaja casi palabra por palabra con este caso.

 

¿Consentimiento?

Salvo que GPT4 invente el Delorean para regresar al pasado, OpenAI difícilmente podrá alegar (y probar) el consentimiento de todos los interesados cuyos datos ha engullido para el entrenamiento de sus modelos.

No es imposible que mis datos y tus datos, querido lector, estén ahí: simplemente pregúntale.

 

¿Compatibilidad de finalidades?

Tampoco parece probable que pongan encima de la mesa una argumentación triunfal de compatibilidad de finalidades del 6.4 RGPD.

Recordemos que “OpenAI Inc”, como entidad sin ánimo de lucro, se benefició del acceso a importantes datasets cuyo tratamiento era jurídicamente muy flexible, porque la finalidad de su tratamiento de datos era la de investigación.

No hace falta ser un máquina para ver fisuras en esa transición ya tan cacareada:

OpenAI Inc rápidamente acabó constituyendo un instrumento societario mucho más conveniente -Open IA LP: una sociedad mercantil pura y dura con -por lo que sea- ánimo de lucro. Y de saltarse las reglas.

De Jeckyll a Hyde en una visita al notario, como quien dice.

Porsiaca: no se juzga aquí el modelo de negocio, amiguis, sólo la legitimación del tratamiento de datos personales. O su ausencia.

 

ChatGPT interes legítimo

¡Interés legítimo!

Y llegamos al interés legítimo. No digo nada nuevo, ya es un lustro dando la turra con estos temas.

El interés legítimo no te lo puedes inventar sobre la marcha, porque se te ve el plumero.

Y una cosa es que tengas interés legítimo para tratar los datos para una determinada finalidad, y otra muy diferente es que tu interés legítimo cubra todo lo que quieres hacer. Y esto es algo que se ve claro a toro pasado. Como en el caso de ChatGPT.

Tienes que empezar identificando bien tu finalidad, alinearla con tus intereses legítimos, y -desde ese eje- depurar tus tratamientos. Y documentarlo.

Tip: la documentación resultante no debe parecerse a la respuesta a Alexander:

“As mentioned above, some of the pretraining datasets we use to train our models may contain publicly accessible data that incidentally includes personal data of individuals. As such, we rely on legitimate interests as the lawful basis for collecting and processing this personal data, as we have a legitimate interest in building, training, and offering large language models at scale…”

Lo siento, Sam Altman: eso no son intereses legítimos. Eso es la finalidad de tu tratamiento.

“… due to the wide ranging positive benefits they can contribute to the world, which is the purpose for which the pre-training datasets were processed.”

Eso, Sam, podrían ser intereses legítimos, si fueran concretos y determinados, no la vacía palabrería sin sentido a la que nos tienes tristemente acostumbrados.

Y, cuando tus legítimos intereses alineados tengas, trata de minimizar todo aquello que no sean datos valiosos, sino ruido desde el punto de vista de tu finalidad.

De otro modo se cumplirá el famoso mantra “garbage in, garbage out” propio del Big Data.

Pero eso exige más, mucho más que los “esfuerzos” que se alegan a continuación:

“OpenAI has built several safeguards in relation to this, including by removing websites that aggregate large volumes of personal data from our training datasets, removing duplicate copies of data, and fine-tuning models to reject requests for private or sensitive information about individuals”.

 

Cesiones a terceros

Hay otras dos acongojantes afirmaciones más en el “Hanff paper”:

“OpenAI does not share their pre-training datasets with any third parties, so to the extent that any of your personal data is incidentally included in those datasets, this is not shared with third parties by OpenAI”

Parece que 100 millones de usuarios no califican como “third parties” para estos muchachos.

Y lo digo porque la mayoría de las denuncias en la materia contra la herramienta se explican porque “terceros” han accedido a datos de un interesado a través de ChatGPT que han resultado ser inexactos, o directamente falsos.

 

Decisiones del art. 22 RGPD

Amigos, he dejado las risas más grandes para el final.

Alexander pregunta que qué pasa con el artículo 22 RGPD, por lo de las decisiones completamente automatizadas y tal.

Contexto: ChatGPT decía que el bueno de Alexander… había muerto en 2019. Y lo reconfirmaba con enlaces inventados.

Esta es la respuesta.

“The processing of data undertaken by ChatGPT does not include any decision-making with legal or similarly significant effect, whether solely automated or otherwise. ChatGPT is designed to provide a response to a prompt provided by a human user. The scenario described above includes the involvement of a human user and decisions made by them.“

Wow.

OpenAI está interpretando que la intervención humana dirimente que puede excluir la aplicación estricta del art 22… es la del usuario que pregunta (!!!).

Está bien claro que el autor de la respuesta no tiene todos los patitos en fila.

La noria gira pero el hámster está muerto.

Ya no hay duda posible: ¡la respuesta es del propio ChatGPT!

“We do not believe, from the information provided, that Article 22 would be engaged by this scenario.”

Sólo le ha faltado iniciar la conclusión con un “As a large lenguage model…”.

 

ChatGPT interes legítimo

 

Habría tela para rato…

Es harto dudoso, siendo optimistas, que esté en la mano de OpenAI, suprimir los datos personales de quienes ejerciten este derecho de sus modelos de IA. De hecho, en el documento de respuesta a Hanff, y en las novedades dadas a conocer esta semana, sólo se comprometen, genéricamente, a impedir que sus datos personales sean tratados por la herramienta.

Pues bien, ya sabemos desde la sentencia Google Spain, que eso no es suficiente: no regulariza ni legitima el tratamiento anterior.

Y no hemos empezado a hablar de la limitación de la finalidad, minimización y retención de datos, exactitud y sobre todo, de accountability.

 

Conclusión

La pregunta no es si OpenAI cumplirá el RGPD: cumplir esta norma requiere esfuerzos que, sencillamente, no se han hecho.

La pregunta es si nuestros amados líderes (europeos, nacionales) se atreverán a aplicar la normativa contra esta enésima personificación del pogreso, o no.

En un momento en que medio mundo aprueba normativas a imagen y semejanza del RGPD -muchos de los EEUU de Norteamérica incluidos-, toca mojarse.

La BigTech, el mundo y los pobresicos ciudadanos cuyos datos han servido para alimentar a la máquina, observan con atención.

O como cantaba Peter Gabriel:

“And the eyes of the world
Are watching now
Watching now”

 

Jorge García Herrero

Abogado y Delegado de Protección de Datos