Horizontes de la inteligencia artificial en la archivística: retos para América Latina

>>  martes, 21 de octubre de 2025

Horizontes de la inteligencia artificial en la archivística: retos para América Latina
https://www.ica.org/app/uploads/2024/08/Conferencia__compressed.pdf
Magister Carlos Alberto Zapata (colombia)




TRANSFORMANDO EL TORNO ACTUAL

La función archivística en América Latina, incluyendo la gestión documental, sigue basándose en gran medida en actividades manuales que requieren todavía una alta intervención humana para el desarrollo de los procesos archivísticos

ESTANDARIZACIÓN DE LAS PRÁCTICAS ARCHIVÍSTICAS

Los diferentes procesos de la función archivística se caracterizan por un alto nivel de estandarización (normalización y parametrización), debido a la naturaleza de las operaciones que se llevan a cabo para desarrollarlos.

ENTORNO ACTUAL 

La gestión documental se encuentra aún en un proceso de transición hacia la completa digitalización -entendida en su sentido más amplio- lo cual facilita planificar adecuadamente el proceso de transformación digital.

A TENER EN CUENTA

  • El nivel de desarrollo de la función archivística requiere atender de manera simultánea tres frentes:
  • La organización de archivos físicos con el predominio del papel, para lo cual se necesitan las competencias tradicionales por parte de los archivistas.
  • La transición hacia un modelo basado en la gestión de los documentos electrónico con una preocupación por la preservación digital, combina operaciones manuales y automatizadas
  • El aumento del volumen de datos, estructurados y no estructurados, que supera las capacidades de intervención humana en varios de los procesos de la función archivística.
  • El volumen de información histórica acumulada, que no ha podido ser procesada por falta de recurso humano, se puede atender mediante procesos de IA.
  • La IA reemplazará tanto operaciones manuales como intelectuales que hoy son realizadas por los archivistas, por lo cual es necesario abordar nuevos campos de trabajo profesional.
  • La IA permitirá procesar altos volúmenes de información en corto tiempo, mejorando no solo la eficiencia sino la calidad de la operaciones llevadas a cabo.

LIMITACIONES PARA EL USO DE LA IA EN AMÉRICA LATINA

  • No hay esquemas de metadatos estandarizados
  • Dificultad para integrar diferentes sistemas de gestión documental
  • Deficiente marco normativo y regulatorio
  • Restricciones económicas y de capacidades profesionales

GESTIÓN DOCUMENTAL INTELIGENTE
  • Parametrización de los tipos documentales para asociarlos a las series y subseries documentales Automatización
  • La IA posibilitará que los documentos se clasifiquen de forma automática dentro de la categoría del esquema de clasificación correspondiente y se asocien a un expediente previamente creado. Clasificación automática
  • La IA podrá llevar a cabo el proceso de archivado de los documentos en el expediente, sin necesidad de intervención humana.
  • Protección de datos personales
  • Mejoras en os proceso de anonimización y seudonimización de datos personales
  • Organización de documentos electrónicos
  • La IA posibilitará que los documentos electrónicos dispersos se puedan reunir a partir de las agrupaciones documentales previamente definidas en los cuadros de clasificación
  • Aplicación de políticas de retención
  • La IA llevará a cabo el proceso de archivado de los documentos en el expediente, sin necesidad de intervención humana.
  • La automatización inteligente (IA) está revolucionando el campo de los archivos al ofrecer tecnologías y herramientas avanzadas para optimizar los procesos de gestión de documentos.
  • La IA puede mejorar significativamente la eficiencia, la precisión y el cumplimiento en el manejo de documentos de archivo. 
  • Con algoritmos impulsados por IA y capacidades de aprendizaje automático, los archivos podrán administrar y preservar documentos de manera efectiva al tiempo que garantizan el acceso y la recuperación adecuados 

Algunas aplicaciones de la IA
  • La IA se puede utilizar para clasificar, archivar y organizar documentos, facilitando su conservación (archivado) así como la búsqueda y recuperación de información. 
  • Al utilizar IA, los sistemas de gestión de documentos pueden identificar y extraer automáticamente datos de los documentos, reduciendo el esfuerzo manual y aumentando la eficiencia. 
  • La IA también puede ayudar a detectar y prevenir el fraude y el acceso no autorizado a documentos clasificados o reservados 
  • La IA puede facilitar el trabajo previo a la elaboración de cuadros de clasificación documental
CÓMO PREPARARNOS?
  • COMPETENCIAS Para llevar a cabo procesos de innovación con IA en el ámbito de la gestión documental se requieren nuevas competencias de los archivistas . 
  • PROCESOS Se requieren llevar a cabo procesos previos en materia de gestión documental que faciliten el uso de la IA. 
  • PERFILES Será necesario adecuar los perfiles de formación y de los cargos en las empresas para que se pueda potenciar el uso de la IA en gestión documental.
HORIZONTES PARA AMÉRICA LATINA

Es imperativo trabajar con los archivos nacionales en la regulación de la IA, en particular para evitar los posibles abusos de esta tecnología en diferentes campos. En el campo archivístico se propone: 
  • Iniciar proyectos pilotos de IA que permitan evaluar su potencial § Adelantar procesos de capacitación al personal del archivo.
  • Implementar procesos archivísticos para archivar los algoritmos usados por la IA.
  •  Anticipar los riesgos derivados del uso de la IA frente a posibles afectaciones al patrimonio archivístico digital. 
  • Promover iniciativas para que los organismos públicos, divulguen las iniciativas de uso de la IA y que la memoria documental de dichas iniciativas se puedan reunir en los archivos públicos
  • La IA puede ayudar a la identificación de duplicados de documentos en repositorios, a partir de la búsqueda en el etiquetado de los documentos en función de su contenido y metadatos.  
  • Capacidades inteligentes de búsqueda y recuperación, que permiten a los usuarios encontrar documentos e información relevantes de manera más eficiente.  
  • Procesos automatizados de retención y disposición de documentos, asegurando el cumplimiento de las regulaciones.  I
  • dentificación y protección de información sensible dentro de documentos.  
  • Análisis predictivo para mejorar las estrategias de selección de expedientes al interior de las series documentales.
HORIZONTES DE LA INTELIGENCIA ARTIFICIAL EN LA ARCHIVÍSTICA

Algunas de las tendencias clave en las aplicaciones de IA dentro del campo de la gestión de documentos: 

• Algoritmos de aprendizaje automático para analizar y clasificar documentos. 
• Mayor automatización en la clasificación y categorización de documentos. 
• Análisis de datos mejorados para la toma de decisiones 
• Procesos simplificados para la retención y disposición de documentos. 
• Extracción inteligente de metadatos para una gestión precisa de documentos

EL FUTURO INMEDIATO

Actualizar los planes de estudio en archivística, incorporando nuevas asignaturas así como nuevas ofertas de formación a través de cursos de actualización y programas de posgrado en éstas y otras áreas emergentes.

A pesar de que ciertos tipos de trabajos archivísticos serán realizados con la ayuda de la IA, también existen enormes posibilidades de ampliar las oportunidades laborales de los archivistas

Es obligatorio adquirir conocimientos en este campo, que les permitan a los archivistas contribuir a planificar los procesos que utilizarán este tipo de avances tecnológicos

HORIZONTES DE LA INTELIGENCIA ARTIFICIAL EN LA ARCHIVÍSTICA

Algoritmos de aprendizaje automático para la detección de anomalías y la prevención del fraude

IA para la autenticidad e integridad

Etiquetado inteligente y extracción de metadatos para asegurar la autenticidad de documentos.

Capacidades de archivado de los algoritmos para asegurar la trazabilidad de los registros.

“Para que las máquinas aprendan a realizar los procesos de la función archivística y las nuevas actividades que demanda la gestión documental electrónica, se requieren archivistas que les enseñen"

Con el uso cada vez mayor de la Inteligencia Artificial en la gestión de documentos, son crecientes las preocupaciones sobre las implicaciones legales y regulatorias. 

Se debe cumplir con las leyes de protección de datos, las regulaciones de privacidad y los requisitos específicos de la industria al implementar sistemas de gestión de documentos basados en el uso de la IA

UN FUTURO INCIERTO?

No obstante que las aplicaciones de la IA en la gestión documental están a la vuelta de la esquina, su masificación aún no pondrá en riesgo, al menos en el corto plazo, a la archivística como profesión









Read more...

Indexacion Probabilistica con ejemplos que tengan relación: con los documentos en un archivo, con libros y correos

Indexacion Probabilistica con ejemplos que tengan relación con los documentos en un archivo
Por: Lic. Carmen Marin
Con ayuda de IA de Google



La indexación probabilística es una técnica utilizada en la recuperación de información que estima la relevancia de un documento para una consulta, en lugar de afirmar si es relevante o no de manera categórica. A diferencia de la indexación booleana o de coincidencia exacta, que solo identifica si un término está presente en un documento, el enfoque probabilístico calcula la probabilidad de que un documento sea relevante para un usuario, basándose en la presencia o ausencia de ciertos términos.

Conceptos clave
  • Relevancia: No es una decisión binaria (relevante/no relevante), sino un cálculo de probabilidad. Se considera que los documentos que tienen una alta probabilidad de ser relevantes deben ser presentados primero al usuario.
  • Modelo de Independencia Binaria (MIB): Es uno de los modelos probabilísticos más sencillos y conocidos. Supone que los términos en una consulta son eventos independientes. Estima la probabilidad de que un documento sea relevante para una consulta basándose en la distribución de los términos tanto en los documentos relevantes como en los no relevantes.
  • Función de ranqueo: Es una fórmula matemática que ordena los documentos en función de su probabilidad de ser relevantes. Los resultados se presentan al usuario en orden descendente de esta probabilidad.

Ejemplo sencillo en un archivo de documentos

Imaginemos un archivo digital con una colección de documentos sobre temas de ecología y medio ambiente.

Consulta del usuario: "agua limpia para el consumo"

Colección de documentos:

Documento 1: "Informe anual de la calidad del agua en la región".
Documento 2: "Proyecto de potabilización de agua para la ciudad".
Documento 3: "Propuesta para el tratamiento del agua residual y su impacto ambiental".
Documento 4: "Guía para la agricultura sostenible y el uso eficiente del agua".

Indexación probabilística paso a paso:

Identificación de términos: 
El sistema identifica los términos importantes de la consulta ("agua", "limpia", "consumo") y de cada documento.

Cálculo de la probabilidad: El sistema calcula la probabilidad de que cada documento sea relevante para la consulta. 
  • En este caso, el sistema podría tener información previa (quizás basada en datos de usuarios anteriores) que indique que:El término "agua" aparece con frecuencia en muchos documentos, tanto relevantes como no relevantes, por lo que su peso es moderado.
  • El término "consumo" es menos común, por lo que su presencia en un documento lo hace más relevante para esta consulta.
  • El término "limpia" también es importante y contribuye a la relevancia.
Asignación de pesos: El sistema asigna un peso a cada término en cada documento, basándose en su frecuencia y su importancia. Por ejemplo:
  • Documento 1: Tiene "agua" y "calidad", que se relaciona con "limpia". Tendría un peso alto.
  • Documento 2: Tiene "agua" y "potabilización", que está muy relacionado con "agua limpia para el consumo". Su peso sería el más alto.
  • Documento 3: Tiene "agua" y "tratamiento", pero se enfoca en "residual", que es lo opuesto a "limpia". Su peso sería bajo o incluso negativo.
  • Documento 4: Tiene "agua", pero en el contexto de "agricultura", no de "consumo humano". Su peso sería bajo.
Ranqueo de resultados: El sistema genera una lista ordenada de documentos según su probabilidad de ser relevantes para la consulta.

Resultado del ranqueo (simplificado):

Documento 2 (alta probabilidad de ser relevante).
Documento 1 (probabilidad media-alta de ser relevante).
Documento 4 (baja probabilidad de ser relevante).
Documento 3 (muy baja probabilidad de ser relevante).

Este enfoque probabilístico permite que el sistema de archivo no solo recupere documentos que contengan las palabras exactas, sino que también priorice los que tienen más probabilidades de satisfacer la necesidad real de información del usuario, incluso si no tienen una coincidencia perfecta de términos.

Ejemplo sencillo con libros

Imaginemos una biblioteca con una colección de libros sobre diferentes temas y una persona que busca "libros de fantasía".

Indexación tradicional (binaria)Proceso: El sistema buscaría todos los libros que contengan la palabra "fantasía".

Resultado:
  • Documento A: "El dragón y la espada de fantasía". (Sí, lo encuentra).
  • Documento B: "Historia de la fantasía en la literatura española". (Sí, lo encuentra).
  • Documento C: "Guía de juegos de rol de fantasía". (Sí, lo encuentra).
Problema: La búsqueda es una simple coincidencia de palabras. No diferencia si el libro es una novela de fantasía o un ensayo sobre el tema.

Indexación probabilísticaProceso: El sistema evalúa la probabilidad de que cada documento sea relevante, asignando un peso a cada término. Considera qué tan a menudo la palabra "fantasía" aparece en otros documentos que los usuarios han calificado previamente como "relevantes" para el tema de fantasía, frente a su aparición en documentos "irrelevantes".

Resultados (ponderados):
  • Documento A: "El dragón y la espada de fantasía". El sistema le asigna una alta probabilidad de ser relevante (0.95), ya que las palabras "dragón" y "espada" suelen aparecer en libros de fantasía populares.
  • Documento B: "Historia de la fantasía en la literatura española". Le asigna una probabilidad media (0.50). Aunque la palabra clave está, el contexto ("historia", "literatura") sugiere que podría no ser una novela, sino un texto académico.
  • Documento C: "Guía de juegos de rol de fantasía". Le asigna una probabilidad baja (0.20). A pesar de contener "fantasía", las palabras "juegos de rol" indican que es un tipo de documento diferente, menos probable que sea lo que el usuario busca.
Ventaja: El sistema probabilístico puede presentar los resultados en orden de relevancia descendente (del más probable al menos probable), mejorando la experiencia del usuario. En este caso, el libro de la novela aparecería primero.

Ejemplo con correos electrónicos y spam
Otro ejemplo simple es un filtro de spam.

Indexación tradicional (por palabras clave)Proceso: Un filtro simple busca palabras como "oferta", "gratis" o "premio".

Resultado:
  • Correo 1: "¡Increíble oferta en vuelos a Cancún!" → Marca como spam.
  • Correo 2: "Aquí tienes la oferta del presupuesto para el proyecto." → Marca como spam (falso positivo).
Problema: La búsqueda de palabras clave fija produce muchos errores, marcando correos legítimos como spam y viceversa.

Indexación probabilística (filtro bayesiano)Proceso: El filtro aprende de los correos que el usuario marca como spam o no. Analiza la frecuencia con la que ciertas palabras aparecen en correos spam y no spam.

Resultados (aprendizaje):El sistema aprende que:
  • La palabra "oferta" tiene una probabilidad del 80% de aparecer en spam.
  • La palabra "vuelos" tiene una probabilidad del 90% de aparecer en spam.
  • La palabra "presupuesto" tiene una probabilidad del 5% de aparecer en spam.
Nuevos correos:
  • Correo 3: "Consigue ahora esta oferta de viaje con vuelos a un precio increíble". El sistema combinaría las probabilidades de las palabras para concluir que este correo tiene una probabilidad muy alta (cercana a 1) de ser spam.
  • Correo 4: "Adjunto la oferta del presupuesto para el proyecto." El sistema combina las probabilidades. Aunque "oferta" tiene una alta probabilidad, la presencia de "presupuesto" la contrarresta, lo que resulta en una probabilidad baja (cercana a 0) de ser spam.
Ventaja: El filtro probabilístico se vuelve más inteligente con el tiempo, adaptándose al comportamiento del usuario y reduciendo los errores.

Read more...

Empleos que la Inteligencia Artificial (IA) podría crear

Los empleos más inesperados que la IA podría crear

https://www.cronicaviva.com.pe/


A menudo se habla de la Inteligencia Artificial en términos de los empleos que reemplazará, pero ¿qué hay de los empleos que creará? Si bien algunos roles pueden desaparecer, la rápida integración de la IA en la vida cotidiana generará profesiones completamente nuevas que habrían sonado a ciencia ficción hace tan solo una década.

Jason Morris, experto en negocios cree que los próximos cinco años presenciarán una explosión de carreras que fusionarán la imaginación humana con la capacidad de las máquinas.

“Tendemos a sobreestimar lo que la IA puede hacer por sí sola y subestimamos las nuevas oportunidades que abre para las personas”, afirma Jason. Con un mayor enfoque en la colaboración entre máquinas en lugar de la competencia, aquí enumera siete puestos sorprendentes que podrías encontrar anunciados en portales de empleo para 2030.

Los 7 empleos a los que podrías postularte en 2030

1- Terapeuta virtual de mascotas


A medida que las mascotas robóticas y los compañeros digitales impulsados ​​por IA se vuelven más realistas, el apego emocional es inevitable. Un terapeuta virtual de mascotas ayudará a los dueños a gestionar los vínculos que forman con estos compañeros de IA, guiándolos en el entrenamiento, problemas de comportamiento o incluso en el “duelo” de la retirada del software.

“Cuando una familia ha invertido años en una mascota de IA que recuerda cumpleaños, hábitos y estados de ánimo, reemplazarla no será como comprar un teléfono nuevo”, dice Jason.

Habilidades requeridas: psicología, asesoramiento y un profundo conocimiento de la interacción humano-máquina.

2- Conservador de memoria digital

Para 2030, nuestras IA personales probablemente lo almacenarán todo: conversaciones, fotos, datos biométricos e incluso estados emocionales. Un Curador de Memoria Digital actuará como un bibliotecario profesional para tu registro vital, organizándolo, filtrándolo y asegurándose de que tu legado digital sea accesible y significativo.

Este puesto combina la sensibilidad de un archivista con la gestión ética. “Sin la curación humana, los archivos personales de IA podrían convertirse en vertederos de datos abrumadores. La gente querrá a alguien que pueda contar la historia de sus vidas”, señala Jason.

Habilidades requeridas: archivística, habilidades narrativas y ética de datos.

3- Auditor de Sesgo Algorítmico

El sesgo en la IA ya es un tema candente, y para 2030 será una profesión de pleno derecho. Corporaciones, gobiernos y ONG contratarán auditores de sesgo algorítmico para analizar los sistemas de IA en busca de prejuicios ocultos, garantizando un trato justo entre los grupos demográficos.

“La confianza es la moneda de cambio de la economía de la IA. Si la gente no confía en los algoritmos que configuran la atención médica, las finanzas o la justicia, todo el sistema se derrumba”, advierte Jason.

Habilidades requeridas: estadística, derecho, ética y ciencias sociales.


4- Intérprete de sueños asistido por IA

La tecnología del sueño está en auge, y la monitorización neuronal pronto permitirá que la IA analice nuestros patrones cerebrales con una profundidad extraordinaria. Los intérpretes de sueños asistidos por IA combinarán las respuestas de las máquinas con la comprensión simbólica y cultural para ayudar a las personas a encontrar el significado a través de los datos de sus sueños.

Mientras que la IA proporciona el “qué” del sueño, el intérprete proporciona el “por qué”. “Las máquinas pueden registrar las ondas cerebrales, pero en última instancia no pueden conectar esas imágenes con mitos culturales, historia emocional o crecimiento personal”, afirma Jason. “Ese es un rol profundamente humano”.

Habilidades requeridas: psicología, antropología e interpretación creativa.

5- Diseñador de personalidad con IA

Para 2030, los avatares de IA estarán en todas partes, desde representantes de atención al cliente hasta compañeros digitales, profesores e incluso dobles de famosos. Un diseñador de personalidad con IA será responsable de moldear cómo estos avatares se emocionan y conectan con las personas, asegurándose de que se sientan auténticos en lugar de infrahumanos. “Estos avatares llevarán a Siri al siguiente nivel, mostrando humor, peculiaridades e inteligencia emocional de forma natural”, explica Jason.

Habilidades requeridas: psicología, lingüística, desarrollo de personajes y artes escénicas.

6- Sommelier con Aprendizaje Automático

La industria del vino puede ser una de las tradiciones más antiguas, pero la IA ya está entrando en los maridajes de alimentos y bebidas. Para 2030, un Sumiller con Aprendizaje Automático se especializará en entrenar IA para recomendar el maridaje perfecto de café o cóctel, teniendo en cuenta no solo la química del sabor, sino también la retroalimentación biométrica sobre el estado de ánimo y los niveles de estrés.

“El paladar humano es tanto emocional como biológico. Un puesto como esta combina el conocimiento sensorial con la ciencia de datos para llevar la hostelería a la era de la IA”, afirma Jason.

Habilidades requeridas: artes culinarias, ciencia sensorial y capacitación en IA.

7- Estilista de Entornos Virtuales

A medida que el metaverso y los espacios de trabajo inmersivos maduren, las personas buscarán expertos para diseñar sus entornos generados por IA. Un diseñador de entornos virtuales creará todo tipo de proyectos, desde jardines digitales relajantes para teletrabajadores hasta paisajes inspiradores para la educación o la terapia.

“El fondo de tu Zoom se verá primitivo en comparación con los entornos creados con IA de 2030. La demanda de personas capaces de diseñar espacios emocionalmente inteligentes será enorme”, predice Jason.

Habilidades requeridas: diseño, psicología del espacio y modelado 3D.

Jason Morris comentó:

Aunque estos puestos de trabajo puedan parecer futuristas, resaltan una verdad fundamental: la IA intensifica la necesidad de habilidades humanas. Las cualidades que seguirán siendo más valiosas son la empatía (comprender las emociones y los valores de las personas de una forma que las máquinas no pueden); la creatividad (generar ideas, historias y conexiones originales que van más allá de lo que la IA puede sintetizar); y el juicio ético (decidir qué se debe hacer, no solo qué se puede hacer).

La ironía es que cuanto más inteligentes se vuelvan nuestras máquinas, más necesitaremos redoblar nuestros esfuerzos en la inteligencia humana, que es aquella que se basa en la ética, la imaginación y la resonancia emocional.

Fuente: tynmagazine.com

Read more...

Proyecto Carabela: Indexación probabilística de colecciones de manuscritos

“Carabela: Indexación probabilística de colecciones de manuscritos para protección del patrimonio histórico subacuático”
https://www.fbbva.es/




INVESTIGADOR PRINCIPAL
Enrique Vidal Ruiz, Universidad Politécnica de Valencia

EQUIPO DE INVESTIGACIÓN
Francisco Casacuberta Nolla, José Miguel Benedí Ruiz y Moisés Pastor Gadea, Universidad Politécnica de Valencia; Carmen García Rivera, Carlos Alonso Villalobos y Lourdes Márquez Carmona, Instituto Andaluz del Patrimonio Histórico.

ENTIDAD ASOCIADA
Universidad Politécnica de Valencia

DESCRIPCIÓN

El objetivo es aplicar técnicas que permitan búsquedas textuales y masivas en manuscritos de los siglos XV-XVI que contienen información clave para localizar pecios de miles de naufragios ocurridos durante ese periodo.

El proyecto se centrará en 150.000 imágenes de colecciones de interés para la arqueología subacuática pertenecientes al Archivo General de Indias y al Archivo Histórico Provincial de Cádiz. Se trata de manuscritos relacionados con viajes y comercio naval español durante los siglos XV-XIX en los que no funcionan las técnicas de OCR -pensadas para texto impreso- ni técnicas específicas para materiales manuscritos que, sin embargo, arrojan resultados imprecisos cuando se aplican a textos históricos.

El equipo ha desarrollado metodologías de aprendizaje automático que permiten indexar probabilísticamente imágenes de texto manuscrito aptas para búsquedas contextuales aproximadas -pero eficaces- en colecciones masivas de documentos históricos.

De esta manera, se podrá extraer de forma eficaz información valiosa sobre pecios que constituyen un patrimonio arqueológico de primera magnitud, debido a la gran riqueza histórica y cultural de su contenido. Esta información se clasificará según su ‘nivel de riesgo’ para evitar el expolio del patrimonio sumergido.

Proyecto Carabela: una herramienta de inteligencia artificial al servicio de la investigación histórica
https://www.fbbva.es/

Gracias al apoyo de una de las Ayudas a Equipos de Investigación Científica de la Fundación BBVA 2017 en Humanidades Digitales, científicos de la Universitat Politècnica de València y el Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico (IAPH) han desarrollado el Proyecto Carabela, una herramienta capaz de localizar con gran efectividad documentos manuscritos en fondos de Archivos Históricos. Los directores del proyecto presentarán sus resultados el jueves, 24 de octubre, en una jornada organizada por el IAPH.

Inteligencia Artificial y Aprendizaje Automático (Machine Learning) al servicio de los historiadores; algoritmos que localizan documentos de gran interés para la historia de España. Detrás de todo ello está el Proyecto Carabela, desarrollado a lo largo de los últimos dos años por investigadores de la Universitat Politècnica de València (UPV) y el Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico, con el apoyo de la Fundación BBVA. Los investigadores responsables de proyecto han desarrollado y aplicado nuevas técnicas de IA/ML que permiten el acceso a los contenidos de más de 130.000 imágenes del Archivo General de Indias y el Archivo Histórico Provincial de Cádiz.

“Con estas técnicas podemos rastrear cualquier documento gráfico con la misma rapidez que un buscador web, identificando palabras concretas, combinaciones de palabras, frases, etc…. Todo ello gracias a modelos estadísticos que hemos entrenado a partir de ejemplos y que ahora son los grandes aliados para el estudio de estos fondos de la historia de España. Y los mismos métodos pueden aplicarse también a otros muchos documentos históricos”, destaca Enrique Vidal, investigador del centro Pattern Recognition and Human Language Technologies (PHRLT) de la Universitat Politècnica de València.

Archivo General de Indias

Los fondos del Archivo General de Indias son de un interés excepcional para el estudio de la historia de España en América –desde el sur de Estados Unidos hasta Tierra de Fuego- y Filipinas durante los siglos XV al XIX. Se trata de manuscritos relacionados con viajes y comercio naval español, cuyo análisis no se puede hacer con las técnicas tradicionales de transcripción OCR -ya que están pensadas para texto impreso- ni tampoco con técnicas específicas para materiales manuscritos, pues los resultados que ofrecen cuando se aplican a estos textos históricos son demasiado imprecisos.

“Carabela ha permitido ir más allá, con técnicas de aprendizaje automático que permiten indexar imágenes de texto manuscrito en grandes colecciones de documentos históricos cuyo estado de conservación y enrevesados estilos de escritura hacen casi imposible la lectura de sus documentos por humanos,”, apunta Joan Andreu Sánchez, investigador también del PHRLT-UPV. Estas técnicas son capaces de identificar y discernir los distintos tipos de letras utilizados en cada una de las épocas en las que están datados los documentos e incluso analizar imágenes cuya calidad es muy baja.

La clave está en la capacidad de sus algoritmos para obtener modelos que se “aprenden” automáticamente a partir de ejemplos. “Dichos modelos necesitan una cantidad de datos de aprendizaje relativamente pequeña para obtener resultados muy satisfactorios. Estos métodos permiten responder satisfactoriamente a desafíos que los propios documentos plantean, como las diferencias de grafías, borrones, o calidad de la imagen.”, añade Enrique Vidal. En este caso, el aprendizaje se hizo con unas 500 páginas del Archivo de Indias, que fueron seleccionadas y transcritas por Carlos Alonso y su equipo de especialistas del Centro de Arqueología Subacuática del Instituto Andaluz del Patrimonio Histórico.

Pecios y Australia


Carabela ha sacado a la luz información de los manuscritos acerca de pecios que constituyen un patrimonio arqueológico de primera magnitud, debido a la gran riqueza histórica y cultural de su contenido. “Carabela contribuye así también a evitar el expolio del patrimonio sumergido”, explica Joan Andreu Sánchez.

Pero, sin duda, uno de los hallazgos más sorprendentes en estos fondos se produjo cuando, buscando términos relacionados con Australia (tales como “Tierra Austral Incógnita”), se encontró una carta de principios del siglo XVIII dirigida al rey Felipe V. “En esta misiva, escrita por el jesuita Andrés Serrano, hemos descubierto referencias muy precisas al continente austral datadas de 1705, mucho antes de que el capitán James Cook llegara hasta sus costas. Datos poco conocidos sobre la historia de Australia y que ahora descubrimos aplicando las técnicas de indexación y búsqueda probabilística desarrolladas en nuestro centro”, explica Enrique Vidal.






Read more...

Diputación de Albacete: Inteligencia Artificial para mejorar la legibilidad de documentos históricos

La Diputación utiliza Inteligencia Artificial para mejorar la legibilidad de documentos históricos

https://masquealba.com/

La Diputación de Albacete, a través de su Servicio de Gestión Documental y Archivo, ha puesto en marcha un nuevo proyecto para indizar los libros de actas, así como otros documentos históricos haciendo uso de algoritmos de Inteligencia Artificial.



Un importante paso adelante en el marco del trabajo que desde la institución se está realizando para avanzar en la modernización de los archivos municipales, garantizar su conservación y accesibilidad, y contribuir a que la provincia se posicione a la vanguardia en la gestión del patrimonio documental.

En una primera fase, un total de doce localidades se van a beneficiar de esta innovadora iniciativa. Se trata de aquellas que han suscrito convenios de colaboración con la Diputación para la organización de su archivo administrativo y para la digitalización de la documentación con valor social o cultural que albergan. En concreto, son Almansa, Ayna, Bienservida, Elche de la Sierra, Jorquera, Lezuza, Munera, Nerpio, Paterna del Madera, Tarazona de La Mancha, Valdeganga y Villamalea.

Así, esta etapa del proyecto se ejecutará durante dos años, con posibilidad de extenderlo dos más, y también hay opción de ampliar el número de municipios en fases posteriores.

Durante este periodo se indizarán unos 120.000 ficheros de imagen, procedentes de los trabajos de digitalización que el Archivo de la Diputación viene realizando los dos últimos años, con documentos fuente que abarcan desde el año 1453 hasta 1924.

Esta indización no va a estar basada en técnicas de OCR (Reconocimiento Óptico de Caracteres) convencional, sino en la llamada indexación probabilística, una tecnología que permite tener por cada palabra un listado de posibles términos o secuencias de caracteres plausibles, minimizando el error que el HTR (Reconocimiento de Texto Manuscrito) pueda generar cuando se hace la búsqueda de una palabra.

Se trata de un proyecto que permite búsquedas más exactas a la hora de recuperar la información contenida en documentos antiguos, a veces de difícil lectura debido a la complejidad de la caligrafía o a la propia calidad (hojas desgastadas, humedecidas o sucias) de los documentos originales.

Además, y en línea con el compromiso de la institución para favorecer el acceso y el conocimiento de este patrimonio documental municipal, una vez realizada la indización, los resultados se publicarán en el portal on-line del propio Archivo, poniéndose a disposición de la ciudadanía y de la investigación.

Esta tecnología se lleva aplicando con éxito desde hace unos 15 años en diferentes instituciones públicas, como el Ministerio de Cultura, las Diputaciones de A Coruña y Gipuzkoa o la Generalitat de Catalunya, y ahora la implementa la Diputación de Albacete para transformar la realidad de los archivos municipales de la provincia.

Read more...

Snap Shots

Get Free Shots from Snap.com

  © Free Blogger Templates Autumn Leaves by Ourblogtemplates.com 2008

Back to TOP