aialgorithmartificial intelligenceChatGPTcustomGeneralmachine learningOpenAI

¿Qué datos de tu empresa compartes y cuáles prefieres guardar y manejar tú solito?

IMAGE: Mohamed Hassan - Pixabay

Es, sin duda, uno de los temas que más me intriga sobre el proceso de adopción del machine learning y la inteligencia artificial en general: dado que un algoritmo tiene las capacidades que sea capaz de adquirir a través de su entrenamiento, y ese entrenamiento se lleva a cabo con datos, ¿qué parte de ese entrenamiento vamos a obtener ya pre-ejecutado cuando pagamos por la capacidad de utilizar un algoritmo comercializado por un tercero, y qué parte querremos educar nosotros mismos y, además, asegurarnos de que esos datos con los que lo educamos se mantienen bajo nuestro total control?

Es un tema con el que me he encontrado en múltiples ocasiones: cuando pido a mis alumnos en determinados cursos que planteen un algoritmo sencillo con sus datos, la gran mayoría no opta por utilizar datos de su compañía o de repositorios reales, sino que prefiere recurrir a Kaggle o a repositorios similares para utilizar datos ajenos, ya convenientemente anonimizados,y con los que no corre ningún riesgo.

Ahora, la situación vuelve a ponerse de manifiesto, pero en un contexto más amplio: a partir del momento, hace pocas semanas, que OpenAI comenzó a ofrecer a las empresas la posibilidad de entrenar sus propios asistentes a partir de la base de ChatGPT, y que fue capaz, además, de poner en marcha un proceso sencillo al alcance de prácticamente cualquiera para poner la idea en práctica, hemos podido ver cómo el mercado empezaba a hacer sus experimentos y se dedicaba a entrenar a ChatGPT con todo tipo de datos procedentes de múltiples industrias… hasta que nos hemos encontrado con que esos chatbots están dejando a la vista de prácticamente cualquiera suficientemente interesado muchos de los datos con los que fueron entrenados.

En efecto, todo indica que mediante una simple prompt injection al alcance de cualquiera, esos chatbots revelan fácilmente datos que no estaban pensados para ser revelados, con todos los problemas que pueden llegar a surgir de ello. Y lógicamente, la preocupación no se reduce a lo que puede ocurrir si los datos son revelados al primero que pase e intente acceder a ellos (que ya de por sí supone un riesgo muy importante y potenciales reclamaciones legales por violaciones a la privacidad), sino que va un poco más allá: ¿y la propia OpenAI, o la compañía que gestione el algoritmo generativo original? ¿Consigue OpenAI acceso a los datos adicionales, no públicos, con los que sus clientes entrenan a sus algoritmos?

Related Articles

Conociendo cómo ha funcionado la industria desde casi sus orígenes, la respuesta es obviamente afirmativa, y nos indica que estamos en uno de esos momentos en los que se decide la forma que va a tener una industria en el futuro: unos pocos proveedores convertidos en imperios enormes que controlan todo y que comercializan sus algoritmos para que sus clientes, simplemente, les den los últimos toques de personalización y adaptación a su industria añadiendo sus datos al proceso de entrenamiento; o una amplia diversidad de algoritmos de todo tipo de orígenes, correspondientes a una caída en las barreras de entrada a su desarrollo y al hecho de que cualquiera es capaz de concebir y educar su propio algoritmo a su antojo.

El primer escenario, obviamente, paraleliza lo ocurrido con la web cuando, a partir de lo que se dio en llamar Web 2.0, surgieron compañías que prometían una «democratización» de la creaciónd e contenidos gracias a herramientas sencillas en las que, para acceder, únicamente necesitábamos una cuenta abierta con ellos. Esas compañías, gracias al acceso que obtuvieron a nuestra información, se convirtieron en algunas de las más grandes y valiosas del mundo, y han dado lugar al panorama de concentración y cuasi-monopolios que hoy conocemos.

¿Realmente nos sentiríamos cómodos alimentando a un ChatGPT con los datos de nuestra compañía, para posteriormente saber que no solo pueden ser revelados a terceros, sino que, además, la propia OpenAI – o el proveedor que sea – puede acceder a ellos y reutilizarlos a su antojo? ¿Cuánto hay a ganar para una compañía tecnológica en el hecho de controlar todos los datos utilizados para alimentar y entrenar todos los algoritmos, a lo largo de muchas industrias? ¿No representa eso un potencial de alcanzar un poder casi omnímodo? ¿Vamos a repetir el error que supuso no proteger nuestros datos personales y compartirlos alegremente, pero ahora un paso más allá, con los datos corporativos?

Sinceramente, me parece peligroso. Y sobre todo, creo que el desarrollar algoritmos, por mucho que miremos hacia OpenAI y compañías similares y percibamos una complejidad enorme e inabarcable, no es tan complejo, y es más, puede hacerse razonablemente bien con herramientas low code o no code. Parece difícil imaginar a una compañía distinta de los OpenAI, Anthropic o una big tech cualquiera creando un algoritmo conversacional como ChatGPT, Claude, Bard y similares: simplemente, el lenguaje humano es muy complejo, necesitamos muchísimos parámetros para abarcar esa complejidad, y no parece razonable lanzarnos a semejante tarea si no vamos a rentabilizarla entre una base muy amplia de usuarios. Pero entre un futuro en el que todos dependemos de unos pocos algoritmos creados por un puñado de compañías y otro en el que cada uno desarrolla los suyos y los va mejorando a medida que aporta más datos, francamente, prefiero el segundo.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button