algorithmGeneralimage recognitionmachine learningracismracisttrainingTwitter

Sobre algoritmos y sus sesgos: el insólito caso del racismo de Twitter

IMAGE: Gerd Altmann - Pixabay (CC0)

El episodio en torno al algoritmo que Twitter utiliza para centrar las imágenes en los tweets ha dado mucho, mucho que hablar estos días, y más en un escenario como los Estados Unidos, en el que el racismo se ha convertido últimamente en protagonista de una gran cantidad de noticias y en una fuente enorme de polarización.

El propósito del algoritmo creado por Twitter es, en principio, muy sencillo: que cuando una persona utiliza una imagen en un tweet y esta no tiene el ratio de dimensiones adecuado como para mostrarla en su integridad, el fragmento que se muestre de la misma cuando el tweet aparece en el timeline del usuario trate de recoger lo mejor posible su significado o de resumir de la mejor manera posible su esencia. Para ello, el algoritmo tiende a seleccionar las partes de la imagen, por ejemplo, en las que reconoce un texto, o si detecta una cara, tiende, con cierta lógica, a centrarse en ella. Hasta aquí, todo bien.

El problema surge cuando una serie de usuarios empiezan a darse cuenta primero, y a hacer experimentos después, porque se dan cuenta, por ejemplo, que entre una persona de raza blanca y una de raza negra, el algoritmo escoge siempre la primera. La prueba es muy sencilla: pon una cara de una persona de raza blanca y otra de una persona de raza negra separadas lo suficiente como para que no puedan ser mostradas a la vez, y fíjate en cuál de las dos aparece. E invariablemente, en todos los casos, la escogida era la persona de raza blanca.

No solo eso: entre un perro blanco y uno negro, lo mismo. O con personajes de cómics. No importa en qué lado esté la fotografía de la persona de raza negra o blanca: a la izquierda, a la derecha, arriba, abajo… el algoritmo siempre escoge la imagen de la persona de raza blanca. ¿El fondo? No parece influir mucho. ¿Que sean adultos o niños? Tampoco. Todo indica que el algoritmo de Twitter, por alguna razón, es terriblemente racista.

Publicaciones relacionadas

Obviamente, esa primera conclusión, como tantas otras que se hacen a la ligera, es completamente errónea. Para cualquiera que conozca mínimamente Twitter o haya tenido algún contacto con sus directivos, la hipótesis de un comportamiento intencionado es ya no improbable, sino directamente absurda. Además, los algoritmos carecen de ideología: solo reflejan lo que los datos con los que han sido entrenados reflejaban a su vez, en patrones que no siempre son fácilmente identificables. La compañía, horrorizada, entra en la discusión, trata de ser completamente transparente, y hasta algunos de sus directivos contestan en Twitter según lo que ellos creen que puede ser la explicación, completa y genuinamente sorprendidos por el hecho. El algoritmo había sido probado, ensayado en numerosas ocasiones, puesto a prueba con muchísimas imágenes… simplemente, a nadie se le había ocurrido probar si podía resultar que fuese racista, no se consideraba un resultado esperable o plausible como tal.

Aparentemente, alguna de las variables latentes en los datos con los que fue entrenado daba como resultado eso, y en el complejo conjunto de pesas y composiciones de variables que terminaban generando el resultado final, eso era lo que pasaba. Y analizar qué variable, qué peso o qué diablos hacía que el algoritmo se comportase de esa manera es de todo menos obvio. Los algoritmos de este tipo tienden por lo general a agrupar combinaciones de variables con correlación elevada y a considerarlas indicadores que son utilizados como variables latentes en procedimientos matemáticos a veces muy complejos, lo que conlleva, en ocasiones, una cierta dificultad a la hora de entender de dónde proviene un sesgo determinado. Posiblemente, las colecciones de imágenes con las que se entrenó el algoritmo contuviesen un número mayor de imágenes de personas de raza blanca que de raza negra, y ese efecto, simplemente, no fue detectado en las pruebas que se hicieron con el algoritmo antes de ponerlo en producción.

¿Cómo actuar ante un problema de este tipo? Lo fundamental, claro está, es ser enormemente transparente: ese resultado no es intencionado, ha surgido por algún tipo de problema en el desarrollo del algoritmo, y será solucionado lo antes posible. Si puedes abrirlo al público para que sea examinado por un número mayor de ojos, tendrás seguramente más posibilidades de entender antes lo que ha sucedido, y de arreglarlo antes. Es fundamental entender que estamos ante un problema que puede suceder, en prácticamente cualquier contexto, en prácticamente cualquier momento, generalmente al inicio de la puesta en producción de cualquier algoritmo, y que no cuestiona el machine learning como tal, sino el tiempo de entrenamiento que precisa un algoritmo para obtener resultados fiables.

La otra parte de la respuesta de la compañía consiste en ofrecer a los usuarios más control sobre cómo van a aparecer sus imágenes en el tweet, y probarán diversas opciones para hacerlo con un adecuado nivel de usabilidad. Que el usuario decida en lugar del algoritmo, al menos mientras el algoritmo no esté suficientemente bien adiestrado y no comprobemos que no hace tonterías que puedan generar problemas.

La mejor forma de entender un problema de un algoritmo de machine learning es entender cómo funciona el machine learning y sus algoritmos. Un potencial enorme e indudable, por supuesto, pero también una cierta necesidad de supervisión, en relación con prácticamente cualquier aspecto. El ejemplo de Twitter es perfecto para entenderlo. Pero estemos preparados, porque seguro que nos encontraremos con bastantes más.


Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Mira también
Cerrar
Botón volver arriba