aialgorithmartificial intelligenceGeneralInvertiamachine learningtraining

¿Con qué entrenamos a los algoritmos?

IMAGE: Alexandra Koch - Pixabay

Mi columna en Invertia de esta semana se titula «Entrenando al algoritmo» (pdf), y es un intento de explicar los diferentes factores implicados en el complejo proceso de obtención de datos para el entrenamiento de algoritmos de machine learning.

En el primer momento, antes de que este tipo de cosas comenzaran a llamar la atención (antes de que, en enero de 2021, se lanzase en abierto por primera vez Dall·E, el primer algoritmo generativo de imágenes), las compañías dedicadas a su desarrollo hacían, básicamente, lo que querían.

Amparados por el principio jurídico que afirma que el web scraping es legal, es decir, que cualquiera puede entrar en páginas públicamente accesibles y copiar todo su contenido, se hicieron con enormes colecciones de imágenes etiquetadas y textos que consideraban razonablemente correctos, y alimentaron con ello las bases de datos que necesitaban para entrenar sus productos. Los precedentes del tema eran confusos: LinkedIn había perdido varios casos en los que trataba de impedir que otras compañías hiciesen web scraping de los datos de su red, pero Facebook lo había ganado contra Power Ventures, y Clearview había abusado del web scraping hasta tal punto, que nadie dudaba que debía ser condenada. La idea, aunque sometida a la relatividad de la interpretación de los jueces, parecía clara: el web scraping era una herramienta, no un crimen, y como en el caso de toda herramienta, existían usos razonables y no razonables.

Así, compañías como OpenAI y otras entraron a saco en bases de datos como las de Getty Images, y se hicieron con millones de imágenes etiquetadas. Todas ellas tenían una marca de agua que decía «Getty Images» que solo se podía eliminar si se pagaba por el uso de la foto, pero daba igual: la imagen era suficientemente visible, y sus etiquetas permitían que el algoritmo la interpretase.

La cuestión comenzó a llamar la atención cuando los usuarios de Dall·E y de otros algoritmos, como Stable Diffusion o Midjourney, empezaron a hacer diabluras pidiendo imágenes «en el estilo de». La cosa parecía magia: si tu prompt pedía el estilo de un autor determinado, el algoritmo acudía a las imágenes que tuviese de ese autor, y el resultado era en muchos casos tan bueno, que parecía realmente hecho por el artista. Además, algunos algoritmos llegaban en muchos casos al punto de reproducir las marcas de agua de Getty Images: el algoritmo había sido entrenado con tantas imágenes que la llevaban, que interpretaba que esa marca de agua era un elemento que debía aparecer en sus creaciones. La cosa se agravó con los textos: los algoritmos más modernos, como Claude, pueden ingerir libros enteros en segundos, lo que permite que pasen inmediatamente a escribir como lo haría el autor de los mismos.

Para terminar de complicar el tema, surgió una cuestión que siempre lo complica todo: los derechos de autor. En principio, la doctrina dice que solo las creaciones humanas son susceptibles de estar protegidas por los derechos de autor y de devengar los correspondientes derechos. El famoso caso del selfie del mono, en el que el juez decretó que no había lugar a protección por derechos de autor dado que el autor de la foto era el propio mono, parecía dejar claras las cosas, y era susceptible de ser extendido a los algoritmos: un algoritmo no es humano, y por tanto, sus creaciones deben estar exentas de derechos de autor.

Sin embargo, la cosa tampoco es tan sencilla: después de todo, interpretar al algoritmo como creador de una imagen es muy discutible, porque podríamos también interpretar que es la herramienta que un autor utiliza para obtenerla. En realidad, si una persona sin experiencia trata de obtener mediante Dall·E, Midjourney o Stable Diffusion una imagen como muchas de las que se ven en la web, lo habitual es que lo que obtenga sea un resultado con una calidad muy inferior: manejar el algoritmo, escribir un prompt adecuado y gestionar todas las interpretaciones que el algoritmo hace de él no es una tarea en absoluto sencilla. Visto así, del mismo modo que no puede interpretarse que el autor de este artículo es el ordenador en el que lo he escrito, tampoco podría interpretarse que el autor de un dibujo creado por un algoritmo es el algoritmo, sino la persona que estaba manejándolo.

La cuestión es compleja, pero dista mucho de ser una mera curiosidad jurídica: está en la base de lo que podremos hacer o no hacer con los algoritmos, y sobre todo, de la industria que se genere a su alrededor. Si las únicas compañías capaces de entrenar algoritmos son aquellas que puedan cerrar acuerdos con grandes repositorios de imágenes o de noticias que suplementen al ya famoso LAION, estaremos pronto ante un escenario de concentración similar al de las redes sociales, con muy pocos actores dominando el panorama y ejerciendo todo tipo de abusos. Si, por el contrario, hacemos fácil que las creaciones puedan ser utilizadas para el entrenamiento de algoritmos, estaremos abriendo la puerta a que cualquiera pueda entrenarlos y, potencialmente, a un entorno menos concentrado, más diverso… pero seguramente, tendremos problemas con los propietarios de esas imágenes y textos, o con las agencias que los representan.

En el medio, la solución de que cada uno entrene sus algoritmos con lo que buenamente pueda: cada compañía, con los datos que generan su actividad y sus transacciones. Limitados, verticales, pero potencialmente muy buenos, y sin comprometer la seguridad de esos datos. Las compañías que sepan convertir su actividad en una manguera que genera datos constantemente, podrán optar a entrenar sus propios algoritmos y a depender menos de las big tech de turno. Pero para hacer algo, tienes que saber que quieres hacerlo, las alternativas y las consecuencias de no hacerlo. Veremos si lo entendemos a tiempo, o si nos vemos abocado al dominio implacable de unas pocas big tech.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button