Mostrando entradas con la etiqueta indexación probabilística. Mostrar todas las entradas
Mostrando entradas con la etiqueta indexación probabilística. Mostrar todas las entradas

Proyecto Carabela: Indexación probabilística de colecciones de manuscritos

>>  martes, 21 de octubre de 2025

“Carabela: Indexación probabilística de colecciones de manuscritos para protección del patrimonio histórico subacuático”
https://www.fbbva.es/




INVESTIGADOR PRINCIPAL
Enrique Vidal Ruiz, Universidad Politécnica de Valencia

EQUIPO DE INVESTIGACIÓN
Francisco Casacuberta Nolla, José Miguel Benedí Ruiz y Moisés Pastor Gadea, Universidad Politécnica de Valencia; Carmen García Rivera, Carlos Alonso Villalobos y Lourdes Márquez Carmona, Instituto Andaluz del Patrimonio Histórico.

ENTIDAD ASOCIADA
Universidad Politécnica de Valencia

DESCRIPCIÓN

El objetivo es aplicar técnicas que permitan búsquedas textuales y masivas en manuscritos de los siglos XV-XVI que contienen información clave para localizar pecios de miles de naufragios ocurridos durante ese periodo.

El proyecto se centrará en 150.000 imágenes de colecciones de interés para la arqueología subacuática pertenecientes al Archivo General de Indias y al Archivo Histórico Provincial de Cádiz. Se trata de manuscritos relacionados con viajes y comercio naval español durante los siglos XV-XIX en los que no funcionan las técnicas de OCR -pensadas para texto impreso- ni técnicas específicas para materiales manuscritos que, sin embargo, arrojan resultados imprecisos cuando se aplican a textos históricos.

El equipo ha desarrollado metodologías de aprendizaje automático que permiten indexar probabilísticamente imágenes de texto manuscrito aptas para búsquedas contextuales aproximadas -pero eficaces- en colecciones masivas de documentos históricos.

De esta manera, se podrá extraer de forma eficaz información valiosa sobre pecios que constituyen un patrimonio arqueológico de primera magnitud, debido a la gran riqueza histórica y cultural de su contenido. Esta información se clasificará según su ‘nivel de riesgo’ para evitar el expolio del patrimonio sumergido.

Proyecto Carabela: una herramienta de inteligencia artificial al servicio de la investigación histórica
https://www.fbbva.es/

Gracias al apoyo de una de las Ayudas a Equipos de Investigación Científica de la Fundación BBVA 2017 en Humanidades Digitales, científicos de la Universitat Politècnica de València y el Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico (IAPH) han desarrollado el Proyecto Carabela, una herramienta capaz de localizar con gran efectividad documentos manuscritos en fondos de Archivos Históricos. Los directores del proyecto presentarán sus resultados el jueves, 24 de octubre, en una jornada organizada por el IAPH.

Inteligencia Artificial y Aprendizaje Automático (Machine Learning) al servicio de los historiadores; algoritmos que localizan documentos de gran interés para la historia de España. Detrás de todo ello está el Proyecto Carabela, desarrollado a lo largo de los últimos dos años por investigadores de la Universitat Politècnica de València (UPV) y el Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico, con el apoyo de la Fundación BBVA. Los investigadores responsables de proyecto han desarrollado y aplicado nuevas técnicas de IA/ML que permiten el acceso a los contenidos de más de 130.000 imágenes del Archivo General de Indias y el Archivo Histórico Provincial de Cádiz.

“Con estas técnicas podemos rastrear cualquier documento gráfico con la misma rapidez que un buscador web, identificando palabras concretas, combinaciones de palabras, frases, etc…. Todo ello gracias a modelos estadísticos que hemos entrenado a partir de ejemplos y que ahora son los grandes aliados para el estudio de estos fondos de la historia de España. Y los mismos métodos pueden aplicarse también a otros muchos documentos históricos”, destaca Enrique Vidal, investigador del centro Pattern Recognition and Human Language Technologies (PHRLT) de la Universitat Politècnica de València.

Archivo General de Indias

Los fondos del Archivo General de Indias son de un interés excepcional para el estudio de la historia de España en América –desde el sur de Estados Unidos hasta Tierra de Fuego- y Filipinas durante los siglos XV al XIX. Se trata de manuscritos relacionados con viajes y comercio naval español, cuyo análisis no se puede hacer con las técnicas tradicionales de transcripción OCR -ya que están pensadas para texto impreso- ni tampoco con técnicas específicas para materiales manuscritos, pues los resultados que ofrecen cuando se aplican a estos textos históricos son demasiado imprecisos.

“Carabela ha permitido ir más allá, con técnicas de aprendizaje automático que permiten indexar imágenes de texto manuscrito en grandes colecciones de documentos históricos cuyo estado de conservación y enrevesados estilos de escritura hacen casi imposible la lectura de sus documentos por humanos,”, apunta Joan Andreu Sánchez, investigador también del PHRLT-UPV. Estas técnicas son capaces de identificar y discernir los distintos tipos de letras utilizados en cada una de las épocas en las que están datados los documentos e incluso analizar imágenes cuya calidad es muy baja.

La clave está en la capacidad de sus algoritmos para obtener modelos que se “aprenden” automáticamente a partir de ejemplos. “Dichos modelos necesitan una cantidad de datos de aprendizaje relativamente pequeña para obtener resultados muy satisfactorios. Estos métodos permiten responder satisfactoriamente a desafíos que los propios documentos plantean, como las diferencias de grafías, borrones, o calidad de la imagen.”, añade Enrique Vidal. En este caso, el aprendizaje se hizo con unas 500 páginas del Archivo de Indias, que fueron seleccionadas y transcritas por Carlos Alonso y su equipo de especialistas del Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico.

Pecios y Australia


Carabela ha sacado a la luz información de los manuscritos acerca de pecios que constituyen un patrimonio arqueológico de primera magnitud, debido a la gran riqueza histórica y cultural de su contenido. “Carabela contribuye así también a evitar el expolio del patrimonio sumergido”, explica Joan Andreu Sánchez.

Pero, sin duda, uno de los hallazgos más sorprendentes en estos fondos se produjo cuando, buscando términos relacionados con Australia (tales como “Tierra Austral Incógnita”), se encontró una carta de principios del siglo XVIII dirigida al rey Felipe V. “En esta misiva, escrita por el jesuita Andrés Serrano, hemos descubierto referencias muy precisas al continente austral datadas de 1705, mucho antes de que el capitán James Cook llegara hasta sus costas. Datos poco conocidos sobre la historia de Australia y que ahora descubrimos aplicando las técnicas de indexación y búsqueda probabilística desarrolladas en nuestro centro”, explica Enrique Vidal.






Read more...

Diputación de Albacete: Inteligencia Artificial para mejorar la legibilidad de documentos históricos

La Diputación utiliza Inteligencia Artificial para mejorar la legibilidad de documentos históricos

https://masquealba.com/

La Diputación de Albacete, a través de su Servicio de Gestión Documental y Archivo, ha puesto en marcha un nuevo proyecto para indizar los libros de actas, así como otros documentos históricos haciendo uso de algoritmos de Inteligencia Artificial.



Un importante paso adelante en el marco del trabajo que desde la institución se está realizando para avanzar en la modernización de los archivos municipales, garantizar su conservación y accesibilidad, y contribuir a que la provincia se posicione a la vanguardia en la gestión del patrimonio documental.

En una primera fase, un total de doce localidades se van a beneficiar de esta innovadora iniciativa. Se trata de aquellas que han suscrito convenios de colaboración con la Diputación para la organización de su archivo administrativo y para la digitalización de la documentación con valor social o cultural que albergan. En concreto, son Almansa, Ayna, Bienservida, Elche de la Sierra, Jorquera, Lezuza, Munera, Nerpio, Paterna del Madera, Tarazona de La Mancha, Valdeganga y Villamalea.

Así, esta etapa del proyecto se ejecutará durante dos años, con posibilidad de extenderlo dos más, y también hay opción de ampliar el número de municipios en fases posteriores.

Durante este periodo se indizarán unos 120.000 ficheros de imagen, procedentes de los trabajos de digitalización que el Archivo de la Diputación viene realizando los dos últimos años, con documentos fuente que abarcan desde el año 1453 hasta 1924.

Esta indización no va a estar basada en técnicas de OCR (Reconocimiento Óptico de Caracteres) convencional, sino en la llamada indexación probabilística, una tecnología que permite tener por cada palabra un listado de posibles términos o secuencias de caracteres plausibles, minimizando el error que el HTR (Reconocimiento de Texto Manuscrito) pueda generar cuando se hace la búsqueda de una palabra.

Se trata de un proyecto que permite búsquedas más exactas a la hora de recuperar la información contenida en documentos antiguos, a veces de difícil lectura debido a la complejidad de la caligrafía o a la propia calidad (hojas desgastadas, humedecidas o sucias) de los documentos originales.

Además, y en línea con el compromiso de la institución para favorecer el acceso y el conocimiento de este patrimonio documental municipal, una vez realizada la indización, los resultados se publicarán en el portal on-line del propio Archivo, poniéndose a disposición de la ciudadanía y de la investigación.

Esta tecnología se lleva aplicando con éxito desde hace unos 15 años en diferentes instituciones públicas, como el Ministerio de Cultura, las Diputaciones de A Coruña y Gipuzkoa o la Generalitat de Catalunya, y ahora la implementa la Diputación de Albacete para transformar la realidad de los archivos municipales de la provincia.

Read more...

Snap Shots

Get Free Shots from Snap.com

  © Free Blogger Templates Autumn Leaves by Ourblogtemplates.com 2008

Back to TOP