Mostrando entradas con la etiqueta Wayback Machine. Mostrar todas las entradas
Mostrando entradas con la etiqueta Wayback Machine. Mostrar todas las entradas

Archivos históricos de la Wayback Machine en disputa por su uso para entrenar IA sin consentimiento del autor

>>  lunes, 4 de mayo de 2026

Crece la guerra entre medios e inteligencia artificial por el uso de archivos históricos

https://mnews.com.ar/tecno


Más de 240 organizaciones periodísticas comenzaron a restringir el acceso de la Wayback Machine ante el uso de contenidos archivados para entrenar modelos de inteligencia artificial.

Unas 245 organizaciones informativas de distintos países comenzaron a bloquear los rastreadores de Internet Archive para impedir que sus artículos archivados sean utilizados en el entrenamiento de modelos de inteligencia artificial sin autorización ni compensación económica.

La medida afecta directamente a la Wayback Machine, la plataforma que conserva versiones históricas de sitios web desde 1996 y que se convirtió en uno de los mayores repositorios públicos de internet. El conflicto se produce en medio de las crecientes demandas contra compañías de IA por presuntas violaciones de derechos de autor.

Según un análisis de la firma Originality AI, más de 20 grandes medios ya bloquearon a "ia_archiverbot", el principal sistema automatizado utilizado por Internet Archive para indexar y almacenar páginas web. Además, al menos uno de los rastreadores de la organización fue restringido por 241 sitios de noticias en todo el mundo.



La Wayback Machine es un archivo digital de la World Wide Web, creado por Internet Archive, que permite visualizar versiones anteriores de sitios web a lo largo del tiempo.

Entre los grupos afectados aparece Gannett, propietario de "USA Today" y de cientos de diarios locales en Estados Unidos. Como consecuencia, una gran cantidad de publicaciones regionales comenzaron a quedar fuera de los registros históricos accesibles desde la Wayback Machine.

El eje de la disputa pasa por el uso de archivos periodísticos para entrenar grandes modelos de lenguaje. Las empresas de inteligencia artificial utilizan estos contenidos porque ofrecen textos extensos, fechados y redactados profesionalmente, una combinación especialmente valiosa para desarrollar sistemas generativos más precisos.

La preocupación de los medios aumentó luego de que distintos conjuntos de datos vinculados al entrenamiento de IA incluyeran material extraído desde Internet Archive. Organizaciones periodísticas sostienen que sus contenidos están siendo reutilizados sin consentimiento para construir herramientas que luego compiten directamente con ellas.

Desde "The New York Times" señalaron que sus artículos archivados estarían siendo utilizados por empresas de IA en violación de la legislación sobre derechos de autor. En paralelo, el diario británico "The Guardian" optó por limitar parcialmente el acceso de los rastreadores en lugar de aplicar un bloqueo total.

Desde Internet Archive aseguran que la organización se convirtió en "daño colateral" dentro de una disputa más amplia entre medios y compañías de inteligencia artificial. Mientras tanto, el archivo comenzó a aplicar restricciones sobre las descargas automatizadas y busca acuerdos con organizaciones periodísticas para mantener la preservación histórica de contenidos sin facilitar el entrenamiento indiscriminado de modelos de IA.




Read more...

Archiveros web (Wayback Machine) y detectives digitales rastrearon capturas de pantalla sobre derribo del MH17

>>  lunes, 4 de agosto de 2014

Cómo Wayback Machine y otros detectives digitales están descubriendo el misterio de MH17 
http://www.smh.com.au/ 04/08/2014


El primer ministro autoproclamado de la separatista pro rusa "de Donetsk República Popular Alexander Borodai llega al sitio de la aerolínea de Malasia se estrelló. 

En la búsqueda agónica de precisar exactamente lo que sucedió cuando Malaysia Airlines Vuelo 17 fue derribado sobre Ucrania la semana pasada, los archiveros web y otros detectives digitales desempeñan un inusual - potencialmente decisivo - papel. 
Wayback Machine, el rastreador web sin fines de lucro que archiva las versiones anteriores de las páginas de Internet, pruebas capturado el viernes pasado que un grupo pro-ruso estaba detrás de los ataques. Mientras tanto, @ RuGovEdits - un bot Twitter que monitorea ediciones de Wikipedia hechas de computadoras del gobierno ruso - registran evidencia que refleje el interés de Rusia en desviar la narrativa MH17 otros lugares. 

Ambos pedazos de evidencia podrían ser importantes para comprender el accidente y sus consecuencias políticas, especialmente en lo que los investigadores ponen en duda la integridad del lugar del accidente. Pero también son ejemplos convincentes de la capacidad de la Internet para promover la transparencia y mantener a los poderosos responsables de sus palabras - incluso, o sobre todo, cuando los elimine. 

Igor Girkin, líder separatista rusa, se atribuyó la responsabilidad de los medios de comunicación social para el rodaje de un avión de transporte militar de Ucrania poco antes de informa MH17 se había estrellado. 

Tal vez nadie lo sabe mejor que Igor Girkin, líder separatista pro rusa cuya hiperactivo perfil en Vkontakte, el ruso Facebook clon, se guarda con regularidad por la Wayback Machine. Los administradores de la página enviar actualizaciones de Girkin sobre el conflicto de Ucrania a partir de fuentes de noticias, conferencias de prensa y de Girkin mismo. De hecho, si revisas la página ahora, verás no menos de una docena de actualizaciones en el accidente, todo echándole la culpa de lleno en la fuerza aérea ucraniana. 

Pero había una actualización anterior, ahora eliminado, realizado poco antes del accidente se hizo pública:
"En las inmediaciones de Torez, sólo bebió un avión, un AN-26. Está mintiendo en algún lugar de la mina de Progreso. Hemos emitido advertencias de no volar en nuestro espacio aéreo. Tenemos un video que confirma. El ave cayó sobre un montón de residuos . zonas residenciales no se vieron afectados. Los civiles no resultaron heridos ".

Administradores Página posteriormente trataron de fregar ese mensaje, eliminarla, la publicación de un aviso legal distanciar la página desde Girkin y citando una serie de noticias que implicaban a los ucranianos. Ellos no podían, sin embargo, quitar la captura de pantalla de Internet Archive, donde ahora vive con otras 45 versiones de la página de Girkin. 

"Esta es la razón de nuestra existencia", el Wayback Machine escribió en Facebook, con enlaces a las versiones anteriores de la página de Girkin. "Un separatista ucraniano se jactó de su grupo pro-ruso derribó un avión ucraniano en su página web. Cuando resultó ser # # MH17 MalaysiaAirlines borró, pero nuestra Máquina Wayback capturó la página para la historia." 

Mientras tanto, en el otro lado del mundo, el bot Twitter @ RuGovEdits estaba haciendo sus propios descubrimientos MH17. El robot, que está a sólo una semana de vida, registra ediciones de Wikipedia realizados desde direcciones IP de Rusia - números únicos que identifican cada ordenador de la red. (Es posible que ya esté familiarizado con el equivalente americano del bot, @ congressedits.) 

El 18 de julio, el día después del accidente de avión, una dirección IP asociada con la compañía de radiodifusión estatal de Rusia, VGTRK, edita la página "Lista de accidentes de aeronaves en la aviación civil" para atribuir el accidente a los "militares de Ucrania". Una dirección asociada con la oficina de Vladimir Putin también ha hecho varias modificaciones en la página para el mismo accidente, aunque ninguno fue tan abiertamente político. 

Ninguno de estos cambios necesariamente prueba nada, por supuesto - y ha habido un montón de gritos de la moderación y la deliberación en la página de Facebook de Internet Archive, donde los comentaristas señalan que incluso las armas humeantes del Internet puede resultar engañoso. 

Pero en general, los esfuerzos de Archivo de Internet y otros como él son testimonios de gran alcance para una nueva oleada de robots y herramientas pro-transparencia, todos ellos dedicados a aprovechar la tecnología para exponer cómo los gobiernos, los políticos y otras figuras políticas poderosas manipulan el panorama digital. Las herramientas no son un medio inadecuado para abordar la profunda disparidad entre los usuarios de Internet ordinarias y de las fuerzas tecnológicas y políticas que les afectan. Pero son sin duda un comienzo. 

"Importante labor", escribió un comentarista en la página de Internet Archive. "Sin ella, estamos en el 1984 de Orwell."
Washington Post

Noticia del 22/07/2014
Autor: Caitlin Dewey

Read more...

Snap Shots

Get Free Shots from Snap.com

  © Free Blogger Templates Autumn Leaves by Ourblogtemplates.com 2008

Back to TOP