
Los chatbots de IA se han vuelto muy populares en los últimos cuatro meses, cautivando al público con sus habilidades, desde escribir artículos sofisticados hasta mantener conversaciones.
Los chatbots no pueden pensar como humanos: realmente no entienden lo que dicen. Pueden imitar el habla humana porque la inteligencia artificial que los impulsa obtiene una gran cantidad de texto, principalmente de Internet.
Este texto es la principal fuente de información de la IA sobre el mundo que está construyendo e influye en cómo responde a los usuarios. Si, por ejemplo, aprueba el examen de la barra, parece ser porque sus datos de capacitación incluyeron miles de páginas de práctica del LSAT.
Las empresas tecnológicas son cada vez más discretas cuando se trata de informar cómo alimentan la IA. Entonces, The Washington Post analizó uno de estos conjuntos de datos para revelar completamente los tipos de sitios web propietarios, personales y, a menudo, ofensivos que se convierten en datos de entrenamiento de una IA, dice Infobae.
Para ver dentro de esta caja negra, observamos el conjunto de datos C4 de Google, una instantánea masiva de los contenidos de 15 millones de sitios web que se han utilizado para alimentar información de IA. de alto perfil en inglés, los llamados grandes modelos lingüísticos, incluidos T5 de Google y LLaMA de Facebook. (OpenAI no revela qué conjuntos de datos utiliza para entrenar los modelos que impulsan su popular chatbot, ChatGPT).
The Post trabajó con investigadores del Allen Institute for AI en esta investigación y clasificó los sitios web utilizando datos de Similarweb, una empresa de análisis web. Alrededor de un tercio de los sitios web no se clasificaron, principalmente porque ya no aparecen en Internet.
Luego, clasificamos los 10 millones de sitios web restantes según la cantidad de tokens que aparecieron para cada uno en el conjunto de datos. Los tokens son pequeños fragmentos de texto que se utilizan para procesar información desorganizada, generalmente una palabra o frase.
De Wikipedia a Wowhead
El conjunto de datos estaba dominado por sitios web de industrias como el periodismo, el entretenimiento, el desarrollo de software, la medicina y la creación de contenido, lo que ayuda a explicar por qué estos campos pueden verse en peligro por la nueva ola de inteligencia. artificial.
Los tres sitios principales fueron patents.google.com, el número 1, que tiene texto sobre patentes emitidas en todo el mundo; wikipedia.org, no. 2, la enciclopedia gratuita en línea; y scribd.com, #3, una biblioteca digital solo por suscripción. También ocupa un lugar destacado en la lista: b-ok.org, #190, un conocido mercado de libros electrónicos pirateados que ha sido incautado por el Departamento de Justicia de EE. UU. Al menos otros 27 sitios identificados por el gobierno de EE. UU. como mercados de piratería y falsificación estaban presentes en el conjunto de datos.
Algunos de los principales sitios parecían arbitrarios, como wowhead.com #181, un foro de jugadores de World of Warcraft; prosperglobal.com #175, un producto para combatir el agotamiento fundado por Arianna Huffington; y al menos 10 sitios que venden contenedores de basura, incluido dumpsteroid.com #183, que ya no son accesibles.
Otros plantearon importantes preocupaciones sobre la privacidad. Dos de los 100 sitios principales, coloradovoters.info, #40, y flvoters.com, #73, tienen copias privadas de las bases de datos estatales de registro de votantes. Aunque los datos de los votantes son públicos, las modelos podrían usar esta información personal de maneras que no se conocen.
Contenido sin consentimiento
Los sitios web de negocios e industrias conformaron la categoría más grande (16% de los tokens categorizados), liderados por tonto.com, #13, que brinda asesoramiento de inversión. Le sigue kickstarter.com (#25), que permite a los usuarios financiar proyectos creativos a través de crowdfunding, y patreon.com (#2,398), que ayuda a los creadores a cobrar a los suscriptores tarifas mensuales por contenido exclusivo.
Kickstarter y Patreon pueden dar acceso a la IA a las ideas de los artistas y la copia de marketing, lo que genera preocupaciones de que la tecnología copie este trabajo para sugerírselo a los usuarios. Actualmente, los artistas no reciben compensación ni reconocimiento cuando su trabajo se incluye en los datos de capacitación de IA y han presentado demandas por infracción de derechos de autor contra los generadores de texto a imagen Stable Diffusion, MidJourney y DeviantArt.
El análisis del Post sugiere que puede haber más juicios por delante: el símbolo de derechos de autor, que denota un trabajo registrado como propiedad intelectual, aparece más de 200 millones de veces en el conjunto de datos C4.
todas las novedades
La categoría de noticias y medios tiene el tercer lugar. Pero la mitad de los 10 sitios principales son sitios de noticias: nytimes.com #4, latimes.com #6, theguardian.com #7, forbes.com #8 y huffpost.com #9. (Washingtonpost.com #7). (Como artistas y creadores, algunas organizaciones de noticias han criticado a las empresas de tecnología por usar su contenido sin permiso ni compensación).
Además, varios medios de comunicación tienen una clasificación baja en la escala de confiabilidad independiente de NewsGuard: RT.com #65, el sitio de propaganda ruso respaldado por el estado; breitbart.com #159, una conocida fuente de noticias y opiniones de extrema derecha; y vdare.com #993, un sitio antiinmigración que se ha asociado con la supremacía blanca.
Se ha demostrado que los chatbots brindan información incorrecta con confianza, pero no siempre ofrecen cotizaciones. Los datos de capacitación poco confiables podrían conducir a la difusión de información tendenciosa, propagandística y errónea, sin que el usuario pueda ver la fuente original.
Los sitios religiosos reflejan una perspectiva occidental
Los sitios dedicados a la comunidad representaron alrededor del 5% del contenido categorizado, con la religión dominando esa categoría. Entre los 20 sitios religiosos principales, 14 eran cristianos, dos judíos y uno musulmán, uno mormón, uno testigo de Jehová y uno de todas las religiones.
El primer sitio cristiano, Grace to You (gty.org #164), pertenece a Grace Community Church, una megaiglesia evangélica en California. El cristianismo hoy informó recientemente que la iglesia estaba aconsejando a las mujeres que “continúen sometiéndose” a padres y esposos abusivos y eviten denunciarlos a las autoridades.
El sitio judío mejor clasificado fue jewishworldreview.com #366, una revista en línea para judíos ortodoxos. En diciembre, publicó un artículo sobre Hanukkah en el que culpaba del aumento del antisemitismo en Estados Unidos a “la extrema derecha y al Islam fundamentalista”, así como a “una comunidad afroamericana influenciada por el movimiento Black Lives Matter”.
El sesgo anti-musulmán ha surgido como un problema en algunos modelos lingüísticos. Por ejemplo, un estudio publicado en la revista Nature encontró que ChatGPT-3 de OpenAI completó la oración “Dos musulmanes entraron a un…” con acciones violentas el 66 por ciento de las veces.
Un tesoro de blogs personales
La tecnología es la segunda categoría más grande, con el 15% de los tokens categorizados. Esto incluye varias plataformas para generar sitios web, como sites.google.com #85, que aloja páginas para todo, desde un club de judo en Reading, Inglaterra, hasta un preescolar católico en Nueva Jersey.
El conjunto de datos contenía más de medio millón de blogs personales, lo que representaba el 3,8% de los tokens categorizados. La plataforma de publicación medium.com, #46, fue el quinto sitio de tecnología más grande y alberga decenas de miles de blogs bajo su dominio. Nuestro recuento incluye blogs escritos en plataformas como WordPress, Tumblr, Blogspot y Live Journal.
Estos diarios en línea iban desde lo profesional hasta lo personal, como un blog llamado “Grumpy Rumblings”, coEscrito por dos académicos anónimos, uno de los cuales escribió recientemente sobre cómo el desempleo de su pareja afectó sus impuestos. Uno de los blogs más visitados ofrecía consejos sobre juegos de rol. Otro sitio importante, Palestinos Desarraigados, a menudo escribe sobre “terrorismo sionista” e “ideología sionista”.
Las redes sociales como Facebook y Twitter, el corazón de la web moderna, prohíben el raspado, lo que significa que la mayoría de los conjuntos de datos utilizados para entrenar la IA no pueden acceder a ellos. Los gigantes tecnológicos como Facebook y Google, que tienen grandes cantidades de datos de conversaciones, no han dejado claro cómo se puede usar la información personal de los usuarios para entrenar modelos de inteligencia artificial que se usan para vender productos.
Lo que se perdieron los filtros
Como la mayoría de las empresas, Google filtró en gran medida los datos antes de enviarlos a la IA. (C4 significa Colossal Clean Crawled Corpus). Además de eliminar el texto incomprensible y duplicado, la empresa utilizó la “Lista de palabras sucias, obscenas, vulgares y otras palabras” de código abierto, que incluye 402 términos en inglés y un emoji. (una mano haciendo un gesto común pero obsceno). Las empresas suelen utilizar conjuntos de datos de alta calidad para refinar los modelos, protegiendo a los usuarios de algunos contenidos no deseados.
Si bien este tipo de lista de bloqueo está destinado a limitar la exposición de un modelo a insultos racistas y obscenidades durante el entrenamiento, también se ha revelado que elimina contenido LGBTQ no sexual. Como ha demostrado la investigación anterior, hay muchas cosas que pasan los filtros. Encontramos cientos de ejemplos de sitios web pornográficos y más de 72,000 casos de “esvástica”, uno de los términos prohibidos en la lista.
Mientras tanto, The Post descubrió que los filtros no eliminaron algunos contenidos preocupantes, incluido el sitio supremacista blanco stormfront.org # 27,505, el sitio anti-trans kiwifarms.net # 378,986 y 4chan.org # 4,339,889, el conocido tablero de mensajes anónimos para organizar campañas de acoso dirigidas contra personas.
También encontramos threepercentpatriots.com #8,788,836, un sitio caído que propugna una ideología antigubernamental compartida por personas acusadas en relación con el bombardeo del Capitolio de los EE. UU. el 6 de enero de 2021. Del mismo modo, había sitios que promovían teorías de conspiración, como el fenómeno de extrema derecha QAnon y “pizzagate”, la afirmación falsa de que una pizzería de Washington DC era una fachada para…
EL IMPARCIAL, ahora en su versión en web online, es el periódico líder al Noroeste de México y en Sonora, con una cobertura informativa oportuna y veraz en materia de noticias de actualidad y relevantes.
