Nuevas herramientas para afrontar los desafíos de archivo # saa11 - Página 2

>>  lunes, 29 de agosto de 2011

http://www.cmswire.com / 29/08/2011/   

Mientras que más de un grupo de registros pueden ser representados por cuadros que describen los resultados enormes, a través de la visualización de las correlaciones de datos son fáciles de discernir. El investigador puede determinar qué subcolecciones tener registros más pertinente mediante el endeudamiento de las herramientas creadas por el Texas Advanced Computing Center (TACC).
Asociados projectautomatically El TACC de etiquetas más amplia de las páginas HTML correspondientes. Una etiqueta específica es igual a una imagen específica. Las páginas HTML se analizan para dar otra clasificación. Son también coincide con el tipo de extensión de archivo. Se puede seleccionar las características que quiere para una visualización más dinámica de contenido de la colección. Sus resultados de la investigación disminución de 36.000 imágenes a una o dos más representativas, aunque los registros son complejas.

No es sólo para los investigadores. Para los repositorios, el proyecto proporciona un marco detrás de las escenas:
  • de extracción de metadatos;
  • organizados en un RDBMS;
  • organización del conocimiento (clases, categorías);
  • consultas, las agrupaciones, la minería de datos, cálculos estadísticos, expresiones regulares;
  • transferencia de datos, computación, sistemas de visualización, y,
  • representación visual basado en píxeles de representación.
Personal de un depósito de archivo se puede utilizar esta herramienta para analizar la estructura y la caracterización de los registros, así como detectar errores.
Además, aunque todavía es un prototipo, el TACC ha construido una pantalla multi-touch para trabajar con los datos. Aunque el público sólo vio las fotos, que se parece bastante a Microsoft de la superficie .
Esteva concluyó su presentación con estas reflexiones sobre el proyecto:
  • Es un paquete de investigación maravilloso que ofrece el análisis, la representación visual, una pantalla interactiva y apoyo a la infraestructura;
  • Utiliza métodos inductivos para ilustrar a los puntos de gran significado;
  • Se integra capas veraz de información de manera instantánea;
  • Se honra a los archivistas experiencia ": metadatos, ontologías, ideas y diseño, y,
  • Personal se le permite decidir la forma / configuración de los sistemas de archivo.

William E. Underwood, Jr., Georgia Tech Research Institute

Underwood comenzó su presentación, herramientas para tipos de archivo e identificaciones Tipo Discos , con la motivación de la investigación. Archiveros necesitan la capacidad para identificar los formatos para asegurar el cumplimiento del acuerdo de transmisión de registros. Visualización de archivos y de juego, la conversión a formatos de archivo actuales o estándar, la extracción de archivos, recuperación de la contraseña y el descifrado, la reparación de archivos dañados - estos son los temas que está siendo consumido por la de sus 25 años de experiencia profesional.
Extracción de metadatos es un aspecto crítico de la ingestión de texto e-registros en archivos y bibliotecas digitales. Los metadatos son necesarios para apoyar la descripción de los distintos registros electrónicos y las agregaciones de esos registros y para apoyar la búsqueda y recuperación de registros.
Pero antes, pasó revista a las definiciones.
  • Un formato de archivo es un conjunto de reglas para codificar y descodificar datos o instrucciones de un ordenador en un archivo;
  • Un tipo de archivo es una clase de archivos con el mismo formato de archivo;
  • Un formato de archivo de firma es un dato invariable en un formato de archivo que se puede utilizar para identificar el tipo de archivo (o formato) de un archivo;
  • El número mágico es el concepto de un archivo de firma formato interno.
Externos identificadores formato de archivo se presentan en forma de extensiones de nombre de archivo o metadatos almacenados en el sistema operativo (que Multipurpose Internet Mail Extensions (MIME) los tipos de medios o identificadores únicos PRONOM (PUID)). Unix (Linux ahora) Comando del archivo y el archivo de Magic es probablemente la herramienta más utilizada para la identificación del formato de archivo, le aconsejó a la audiencia. El comando de archivo se aplica para los números de las pruebas de magia contenida en esos archivos. Pero hay limitaciones:
  • Difíciles de actualizar las pruebas de números mágicos
  • Los exámenes que se pueden dar resultados diferentes debe ser una secuencia adecuada
  • Prueba para un número mágico está en proporción 1:1 con los tipos de archivos
  • Pruebas de metadatos de salida, así como tipo de archivo
  • Las pruebas de conjunto de caracteres y el idioma de los archivos de texto necesita mejoras
  • Sólo unas pocas pruebas existen para tipos de archivos de Windows MS
  • Las pruebas de números mágicos no han sido rigurosamente probados
Underwood demostró prueba Magic para V1 formato Broadcast Wave (para una introducción al formato de onda de difusión, véase aquí .
Después de la manifestación continuó para definir los términos de la audiencia. Laforma documental se compone de forma intelectual y la forma física .elementos intelectuales son los términos o categorías semánticas que son comunes a un tipo de documento. forma intelectual son las reglas que caracterizan a las posibles combinaciones de elementos intelectuales. Los elementos físicos son los atributos físicos de los intelectuales elementos. La forma física es las reglas que caracterizan las formas físicas de los diseños.
Así, planteó a la audiencia: ¿cuál es el mejor método para el reconocimiento de los formularios del documento y la extracción de metadatos?
Los tipos de documentos son físicos. Ellos tienen gramáticas específicas (por ejemplo, un memorando) aumentada con las reglas semánticas. Una vez que el árbol de análisis y la semántica del documento se establece, a continuación, se extrae los metadatos para la descripción del artículo y la indexación. Equipo Underwood escribió gramáticas y la semántica de las formas documentales 14. Luego compararon los mismos 14 gramáticas, convertido en texto, y corrió a través de los datos y las extracciones de documental.
En resumen: los elementos intelectuales de las formas documentales se puede definir en términos de las palabras clave y semántica del.
Underwood está dispuesto a hacer la siguiente serie de preguntas.
  • ¿Pueden los elementos intelectuales de las formas documentales que aprender sin un maestro?
  • Puede inducción gramatical utilizar con ejemplos de los tipos de documento en particular para inducir a una gramática de forma automática?
  • ¿Puede el método de reconocimiento de ser ampliado para incluir los elementos físicos de la forma documental y la definición gramatical de la distribución física?
Véase el sitio Underwood equipo aquí . Véase la publicación de las investigaciones más recientes aquí .
Además, echa un vistazo a DROID : es el primero de una serie planificada de las herramientas desarrolladas por los Archivos Nacionales bajo el paraguas de su servicio de registro PRONOM técnica.
Nota del Editor: Usted también podría estar interesado en la lectura de estos otros artículos de Mimi Dionne:

Acerca del autor

Mimi Dionne es una gestión de registros y la información del administrador de proyectos y consultor / propietario de Mimi Consultoría Dionne. Es un gestor de certificados de registros, un archivero certificado, un arquitecto de imágenes de documentos certificados, y una gestión profesional del proyecto. Ella reside actualmente en Seattle. 

0 comentarios :

Snap Shots

Get Free Shots from Snap.com

  © Free Blogger Templates Autumn Leaves by Ourblogtemplates.com 2008

Back to TOP