Archivólogo - blog de archivo - Lic. Carmen Marín: Big Data

Mostrando entradas con la etiqueta Big Data. Mostrar todas las entradas

III Congreso Internacional de Archivos Digitales

>> miércoles, 3 de julio de 2019

UNAM realizará III Congreso de Archivos Digitales
https://www.tvyvideo.com

México. Con enfoque en la aplicación de la inteligencia artificial y el Big Data, la Universidad Nacional Autónoma de México realizará el III Congreso Internacional de Archivos Digitales del 5 al 8 de noviembre en Ciudad de México.

Este congreso tiene como objetivos:
Estudiar e identificar las oportunidades y desafíos que ofrece la inteligencia artificial para los archivos digitales que preservan contenidos sonoros y audiovisuales.
Exponer y analizar los alcances de las técnicas y tecnologías para el análisis de datos masivos (big data) en la preservación digital de contenidos sonoros y audiovisuales.
Realizar ejercicios de prospectiva, a partir de la situación actual de los archivos sonoros y audiovisuales, a fin de determinar las posibles aplicaciones de la inteligencia artificial y el big data en la preservación digital.

La coordinación general del Congreso está a cargo del Instituto de Investigaciones Bibliotecológicas y de la Información de la Universidad Nacional Autónoma de México, en cabeza de la Dra. Perla Olivia Rodríguez Reséndiz y del comité organizador hacen parte la Universidad Complutense de Madrid, la Universidad de Barcelona y la Universidad Autónoma de Tamaulipas.

Para más información ir aquí: http://www.congresoarchivosdigitales.unam.mx/index.html

Autor: Richard Santa, RAVT

Lo que necesitas saber del Big Data

>> miércoles, 19 de diciembre de 2018

Big Data y sus componentes: esto es lo que debes saber
https://www.softzone.es/

Aplicaciones, dispositivos, páginas web… cada vez es mayor la cantidad de datos generados por todas estas plataformas y dispositivos conectados a Internet. Hasta hace relativamente poco tiempo, era impensable ser capaces de recopilar y, sobre todo, procesar esta gran cantidad de información, sin embargo, hoy en día lo hemos conseguido gracias a Internet, y además podemos tener toda esta información siempre disponible y a nuestro alcance.

Hace tiempo solo era posible procesar y utilizar la información estrictamente importante, dejando en el olvido una gran cantidad de datos menos importantes por no tener recursos suficientes para procesarlos. Por suerte, las cosas han cambiado, y actualmente podemos procesar prácticamente cualquier tipo de información que queramos siempre que sepamos usar las herramientas adecuadas, como las que os explicamos a continuación.

¿Qué es el Big Data?

Como su nombre indica, Big Data es la capacidad para procesar, o tratar, volúmenes de datos muy grandes con relativa facilidad, pudiendo aprovechar la mayor cantidad de información que haya dentro de estos datos. Este proceso es muy completo, por lo que para poder dominarlo lo mejor es hacernos un master Big Data.

Gracias al Big Data es posible analizar una gran cantidad de información con relativa facilidad de manera que, además de quedarnos con lo más importante, también podamos quedarnos con toda la demás información, información que puede ser válida y nos puede ser de mucha utilidad en un futuro cercano. Gracias a este master Big Data aprenderemos a gestionar esta información para sacarla el máximo provecho.

Hoy en día podemos acceder fácilmente a mucha información, y podemos consumirla fácilmente. Sin embargo, también es muy importante saber cuándo es necesario usar técnicas de Big Data, ya que usarlas en un momento no adecuado implicaría una pérdida de información, tiempo y recursos.
Hadoop: conoce esta herramienta Big Data y sus elementos

Hadoop es una de las aplicaciones imprescindibles cuando hablamos de Big Data. El principal punto fuerte de esta herramienta es la manera en la que almacena todos los datos y cómo accede a ellos. Está formada a su vez por otras dos herramientas: HDFS y MapReduce.

Estos dos últimos complementos son los que hacen posible tratar con los datos de Big Data tal como lo hacemos, ya que son los responsables de replicar y distribuir la información por nodos, lo que nos beneficia a la hora de acceder a grandes cantidades de datos, además de poder procesar los datos poco a poco y escalar la cantidad de datos disponible.
Yarn, el complemento que no puede faltar para procesar datos

Junto a HDFS y MapReduce, también existen otras herramientas muy interesantes e imprescindibles para poder procesar los datos, como es el caso de Yarn.

Yarn – MapReduce es considerada como la evolución de MapReduce para Hadoop 2.0. Esta herramienta se encarga de aportar un entorno desde el que gestionar todos los recursos, pudiendo distribuirlos en función de dónde estén los datos que se deben procesar, así como gestionando las propias ejecuciones de los programas.

Esta herramienta también nos permite separar el sistema de archivos del sistema de ejecución, pudiendo usar HDFS sin tener que pasar por Yarn.

Tecnología para el tratamiento de los datos masivos de paraísos fiscales obtenidos a través de filtraciones

>> martes, 2 de enero de 2018

Entrevista Mar Cabra Valero, periodista de investigación y especialista en análisis de datos

https://www.interempresas.net/

Mar Cabra fue editora de datos en el Consorcio Internacional de Periodistas de Investigación (ICIJ por sus siglas en inglés) durante los conocidos casos de los Papeles de Panamá y del Paraíso. Hablamos con ella sobre la tecnología que posibilitó el tratamiento de los datos masivos sobre estos paraísos fiscales obtenidos a través de filtraciones.

¿Cuáles fueron las tecnologías y herramientas que empleasteís tanto para el tratamiento de los datos como de herramientas colaborativas de información en los casos de los Papeles de Panamá y más recientemente de los Papeles del Paraíso?

Usamos, sobre todo, software de código abierto existente, como el de Talend, y lo adaptamos a nuestras necesidades. Por suerte, el ICIJ ya había trabajado con proyectos basados en filtraciones en el pasado y habíamos ido testando diferentes herramientas para el procesamiento de datos masivos. Project Blacklight, diseñado para bibliotecas, y Apache Solr nos ayudaron a que los periodistas pudieran buscar los documentos de manera remota. Utilizamos Linkurious y Neo4j para visualizar las conexiones entre las personas que tenían sociedades en paraísos fiscales. Talend nos sirvió para reconstruir y transformar las bases de datos de las filtraciones y hacerlas disponibles al público en la Offshore Leaks Database. Y, además, tuvimos nuestra propia red social, basada en el software Oxwall, para comunicarnos a través de las fronteras y los diferentes usos horarios, al igual que la gente se comunica con sus familiares y amigos por Facebook.

¿Cuál fue el volumen de datos analizados y de qué tipo: emails, fotos, pdfs…?

Ambas investigaciones significaron un gran reto tecnológico para el ICIJ, al tratarse en total de cuatro terabytes de información y 25 millones de documentos que compartimos con unos 400 periodistas en cada proyecto. La mayoría de los archivos eran emails, al tratarse de documentos internos de diferentes bufetes de abogados que crean sociedades en paraísos fiscales. Además, procesamos más de cuatro millones de PDFs e imágenes, lo que significó que tuvimos que hacerlos buscables previamente realizando en ellos reconocimiento óptico de caracteres. También había varias bases de datos de clientes y sociedades, así como documentos con datos estructurados que usamos para analizar tendencias y encontrar patrones de conducta.

¿Cuántas personas participaron en el análisis, tratamiento… de los datos? ¿Con qué perfiles?

El equipo de datos y tecnología del ICIJ es un equipo multidisciplinar con una decena de integrantes, aunque el número de componentes crece en función de las necesidades de cada proyecto. Hay periodistas especializados en análisis de datos, un experto en minería de datos, varios desarrolladores front y back end y un ingeniero de sistemas.

¿Cuáles han sido los principales retos y dificultades que os encontrasteis durante ambos casos?

Tecnológicamente hablando, uno de los mayores retos fue tener que procesar tantos PDFs e imágenes de manera rápida. Lo solucionamos creando un ‘ejército’ de una treintena servidores en la nube de Amazon Web Services que trabajaban de manera paralela, acelerando el proceso. También tuvimos que lidiar con docenas de formatos diferentes, lo que hizo que tener los documentos buscables llevara más tiempo.

A nivel humano siempre hay retos, pero el ICIJ deja claras las reglas de la colaboración desde el principio: hay que compartir y todos publicamos a la vez. Además, el poder estar conectados en todo momento a través de nuestra red social ayuda a crear una sensación de familia y equipo unido que es fundamental para trabajar tanto tiempo juntos desde diferentes partes del mundo.

El Consorcio Internacional de Periodistas de Investigación deja claras las reglas de la colaboración desde el principio: hay que compartir y publicar a la vez.

¿Cómo han cambiado las nuevas tecnologías de procesamiento de datos como el big data el periodismo de investigación?

El ICIJ recibió su primera gran filtración de datos en 2011 y constaba de 260 gigabytes de información. En aquel momento conceptos como encriptación o procesamiento en la nube no eran tan comunes en el periodismo. De hecho, al principio intentamos lidiar con tantos documentos compartiendo discos duros con algunos periodistas o haciéndoles viajar a diferentes oficinas para poder hacer búsquedas. Incluso contratamos a personas para que hicieran paquetes de información para los reporteros de todo el mundo.

Hoy en día eso suena a la prehistoria, ya que hemos conseguido procesar de manera masiva y rápidamente cantidades de documentos quince veces superior en tamaño. Además, nuestros reporteros pueden hacer búsquedas desde las redacciones en sus países en cualquier momento gracias a tener la información en la nube de manera segura.

¿Están empleando en sus investigaciones tecnologías como la inteligencia artificial o el machine learning?

El ICIJ es una organización sin ánimo de lucro que hace un periodismo de investigación muy potente y de impacto, sobre todo teniendo en cuenta el pequeño equipo de unas veinte personas. Los Papeles de Panamá y del Paraíso ayudaron a dar un salto en el uso de las tecnologías para facilitar la colaboración a través de las fronteras, pero la mayor parte del tiempo se fue en procesar los documentos y hacerlos buscables para los periodistas. Implementamos algunas funcionalidades en nuestras herramientas para poder hacer búsquedas masivas, a través de listas de nombres, por ejemplo. Sin embargo, aún hay mucho que avanzar en cómo usar la inteligencia artificial y el machine learning para ser mejores investigadores. Es un tema de recursos y tiempo, pero ya se está trabajando en ello para las próximas investigaciones.

¿Hay otras investigaciones de ICIJ en curso que involucren tareas similares de gestión de datos masivos?

Uno de los proyectos más interesantes en los que está trabajando el ICIJ ahora mismo no es periodístico, sino tecnológico, y se llama DataShare. Este software ayudará a los más de 200 periodistas de la red del ICIJ a compartir datos y archivos de manera constante, sin tener que esperar a recibir una gran filtración. La idea es que cuando un reportero obtenga documentos para una historia, lo pase por este software, que automáticamente extraerá la lista de nombres de lugares, personas y compañías en ese documento. Después, los compartirá con el resto de la red y la herramienta alertará a los miembros implicados si hay conexiones entre los nombres y documentos en diferentes países. El ICIJ espera así poder lidiar de una manera más activa con la compleja realidad global a la que nos enfrentamos y como resultado, hacer un mejor periodismo.

Autor: Cristina Mínguez

Discos duros, servidores, archivos y almacenes en toda España están llegando a su máxima capacidad

>> viernes, 30 de octubre de 2015

El Big Data transforma los archivos de datos en un caos
http://www.mkm-pi.com/ 30/10/2015

Ignacio Chico, Director General de Iron Mountain España

No hay duda de que las empresas de cualquier tamaño y sector se están ahogando en el Big Data y el volumen de la información que están acumulando seguirá creciendo durante los próximos años. Los discos duros, servidores, archivos y almacenes en toda España están llegando a su máxima capacidad. Lo que la gran mayoría de gente ignora, sin embargo, es que estas ingentes cantidades de datos hacen que los archivos estén abarrotados y que las empresas no consigan extraer conocimiento de la información que poseen impidiéndoles mejorar sus beneficios.

¿Qué es el archivo de datos y por qué es tan importante?

No hay que confundirlo con un backup de datos que consiste en copias programadas de los datos generados para poder recuperarlos ante una incidencia. El archivo de datos es el proceso por el cual se almacena información precisa para poder recuperarla y usarla en el futuro.Tradicionalmente el archivo de datos significaba el almacenamiento a largo plazo de la información más estática. Esto ha cambiado y el proceso de archivo incluye ahora estrategias tales como el archivo en la propia empresa, el almacenamiento de datos y la indexación completa de archivos que se conservan mediante soluciones de almacenamiento a corto plazo para mejorar la accesibilidad a los datos. Estas estrategias facilitan y agilizan los procesos que siguen las empresas para cumplir la creciente normativa legal y crean oportunidades para sintetizar la información necesaria con el fin de tomar decisiones importantes para la marcha del negocio.

Un reciente estudio patrocinado por Iron Mountain, “Minería en profundidad: redescubrir el archivo de datos”, realizado por IDC, confirmó que las empresas se están ahogando realmente en datos y son incapaces de extraer el valor de la información de los mismos. Sin embargo, estas conclusiones indican también que un sub grupo de empresas sí que están consiguiendo sacar el máximo partido de sus archivos de información y los beneficios son impresionantes: un ahorro en costes de casi 9 millones de euros gracias a la racionalización de las TI y del servicio al cliente.

Más datos, más problemas

Para empezar, el estudio descubrió que el 63% de las empresas en España tienen seis o más archivos electrónicos diferentes y están almacenando datos estructurados y desestructurados, no solo correos electrónicos y archivos. Entre los encuestados, el 74% almacena aplicaciones, bases de datos y archivos estructurados, el 69% archiva imágenes, el 60% archiva contenidos Web 2.0 (blogs corporativos, WIKIs corporativas, RSS, etc) y el 57% archiva datos de voz, por ejemplo, registros de call centers y correo de voz.

Sin un proceso claro ni la alta dirección presionando para implementar estrategias que afronten el Big Data, el 32% de las empresas españolas simplemente se dedican a archivar todo para evitar invertir tiempo y recursos encaminados a discernir entre qué es importante y qué no .

Con el tiempo, las empresas que almacenan todo amasan rápidamente grandes cantidades de datos, dificultando la localización de lo que se necesita, lejos de una estrategia clara para el almacenamiento de datos que permita una recuperación clara y rápida de la información.

Ciegos ante la realidad Big Data

Sorprendentemente, el estudió desveló que el 79€% de las empresas españolas consideran que ya están maximizando el valor de sus archivos. Sin embargo, también que solo el 42% están usando su información para el análisis empresarial, un proceso esencial para conseguir ingresos adicionales. Se trata de una importante dicotomía que demuestra que el almacenamiento de datos es un verdadero punto ciego para los directivos empresariales.

Más revelador es aún el hecho de que un asombroso 82% de las empresas españolas carecen de un proceso uniforme para el archivo de los diferentes tipos de datos, haciendo imposible la identificación y acceso a la información cuando es necesario.

Los datos almacenados tienen un impacto en el resultado final

El estudio revela que las empresas con procesos bien definidos para el almacenamiento de datos consiguen extraer valor a través de dos vías: el ahorro de costes y los ingresos añadidos a través de la monetización de archivos. Desde la perspectiva del ahorro de costes, el 37% de las empresas españolas consiguió ahorrar 890.000 € o más el año pasado al ser capaces de mitigar el riesgo y evitar la litigación. Un 21% de estas empresas consiguió ahorrar más de 9 millones de euros. Igualmente un 34% de las empresas españolas consiguieron más de 890.000 € en ahorros provenientes de la reducción de costes operacionales o de capital y un 20% de estas empresas llegó a ahorrar más de 9 millones de euros.

Más sorprendente es la capacidad que tiene una empresa para conseguir beneficios de un archivo de datos gestionado de forma eficaz. El 32% de las empresas españolas consiguieron más de 890.000 € adicionales y el 18% de las mismas incluso más de 9 millones de euros. Como media, las empresas encuestadas consiguieron 6.700.000 € en nuevos ingresos provenientes de sus archivos de datos.

¿Cómo puede su empresa romper la desconexión entre la percepción y la realidad?

Iron Mountain e IDC recomiendan a las organizaciones implementar los siguientes procesos:

Contrate a un Responsable de Datos para supervisar y obtener valor de su archivo de datos, colaborando con el Responsable de Operaciones y el Responsable de Información con el fin de establecer estrategias de negocio y datos a largo plazo.

Desarrolle mapas de información de todas las fuentes y almacenes de datos (y su valor) que hay en su empresa.

Implemente una estrategia holística y consistente de archivo de información que dé respuesta a los calendarios de conservación de datos, casos de éxito, el valor de los datos, la necesaria accesibilidad y los costes del almacenamiento.

Considere trabajar con un proveedor externo con experiencia específica capaz de ayudar a optimizar sus soluciones de archivo a la vez que se liberan los recursos internos de TI para poder centrarse en un trabajo más estratégico e innovador.

La desconexión entre la percepción y la realidad cuando se trata del almacenamiento de datos es real y solo porque su empresa se esté ahogando en el Big Data no quiere decir que no pueda recuperar la normalidad.

Para saber más sobre los resultados del estudio de Iron Mountain e IDC sobre el archivo de datos: http://www.ironmountain.es/Knowledge-Center/Reference-Library/View-by-Document-Type/White-Papers-Briefs/M/Mining-for-Insight-Rediscovering-the-Data-Archive.aspx

Big Data está cambiando nuestra realidad y la de las empresas

>> lunes, 17 de noviembre de 2014

Big Data, ¿realidad disparatada o revolucionaria?
http://www.haycanal.com/ 17/11/2014

Teradata, compañía líder en plataformas, aplicaciones de marketing y servicios de análisis de datos, explica cómo el Big Data está cambiando nuestra realidad y la de las empresas.

Larry Ellison, CEO de Oracle, comentó una vez que "la industria informática es la única que está más impulsada por la moda que la ropa femenina". La palabra de moda de la industria, "Big Data", ha sido tan utilizada que ya no forma parte solo del léxico tecnológico, sino que ha entrado en la conciencia pública a través de los medios de comunicación. Durante ese proceso, el Big Data ha sido descrito como "sin precedentes" y "disparatado".

Esto plantea un dilema, ¿es el Big Data un nuevo concepto de marketing inventado para ayudar a vendedores o es realmente un concepto interesante que plantea un nuevo futuro?

Para entender por qué el fenómeno del Big Data sí que tiene precedentes solo hay que recordar la historia del sector retail, que ha visto cómo la información que maneja se ha multiplicada en las tres últimas décadas. Primero los sistemas EPoS y luego la tecnología RFID transformaron su capacidad de analizar, comprender y gestionar sus operaciones.

“En el caso de Teradata, nosotros enviamos el primer sistema comercial del mundo de Procesamiento Paralelo Masivo (MPP) con un Terabyte de almacenamiento a Kmart en 1986. Para los estándares de la época se trataba de un sistema enorme (ocupó un camión cuando se envió) y permitió a Kmart capturar los datos de ventas diarios en tienda así como los números de referencia, lo que revolucionó la industria retail”, asegura Martin Willcox, Director de Producto y Solutciones de Marketing International en Teradata Corporation.

Hoy en día, muchos portátiles ya cuentan un terabyte de almacenamiento y pueden guardar los datos de transacciones y números de referencia, lo que ha revolucionado de nuevo el sector y supone un reto para los pequeños vendedores que tienen que competir con grandes cadenas de suministro y la sofisticada segmentación conductual que Amazon lleva a cabo. Lo mismo ha ocurrido con el impacto que los sistemas de facturación y los conmutadores de red han tenido en las telecomunicaciones o con la automatización de sucursales y la banca online, que han cambiado totalmente la financiación al por menor.

Es un hecho que desde que se inventaron los ordenadores ha habido un crecimiento exponencial del volumen de datos como predecía la ley de Moore, lo que ha permitido que cada vez más procesos de negocio sean digitalizados. Asimismo, los ocho años que las personas encargadas tardaron en procesar los datos recogidos del censo de EEUU en 1880 fue la motivación para que Herman Hollerith, fundador de la Hollerith’s Tabulating Machine Company que más tarde se convirtió en International Business Machines (IBM), inventara las "tarjetas de Hollerith" o “tarjetas perforadas”.

Por otro lado, sería un error desestimar el Big Data como "disparatado" ya que fuerzas significativas están cambiando la manera en la que las empresas piensan acerca de la información y la analítica. Estas fuerzas tomaron fuerza a partir de finales de 1990 a raíz de tres innovaciones tecnológicas disruptivas que produjeron grandes cambios tanto en los negocios como en la sociedad y que han tenido como resultado la aparición del término Big Data.

La primera innovación fue el crecimiento de la World Wide Web, lo que permitió a gigantes de Internet como Amazon, eBay y Google emerger y dominar sus respectivos mercados aprovechando los datos “clickstream”, lo que permitió una personalización masiva de sus sitios web. Estos datos se extrajeron de sofisticados análisis que les permitieron comprender las preferencias del usuario y su comportamiento. Esta nueva realidad ha llevado a que algunos analistas ya predigan que Amazon, una empresa que no existía antes de 1995, pronto se convierta en el minorista más grande del mundo.

Las tecnologías social media, ampliadas y aceleradas por el impacto de las tecnologías móviles, representan la segunda de estas grandes revoluciones disruptivas. Los datos que generan están permitiendo que cada vez más compañías conozcan no sólo qué hacemos, sino también dónde lo hacemos, cómo pensamos y con quién compartimos nuestros pensamientos. Martin Willcox comenta: “La característica de LinkedIn "personas que puedes conocer" es un ejemplo clásico de esta segunda innovación del Big Data. Comprender las interacciones indirectas de los clientes puede ser una enorme fuente de valor para compañías B2C como Netflix, que han crecido gracias a sus sofisticados motores de recomendación”.

El "Internet de las Cosas", redes de dispositivos inteligentes interconectados que son capaces de comunicarse unos con otros y con el mundo que les rodea, es la tercera gran novedad impulsada surgida en las dos últimas décadas. A consecuencia de la ley de Moore que asegura que “los dispositivos informáticos simples son ahora son increíblemente baratos y cada vez lo serán más”, el Internet de las Cosas está llegando cada vez a más objetos y procesos. El viejo dicho de que "lo que se mide, se controla" es cada vez más redundante, pues estamos entrando en una era en la que sensores eficaces, resistentes, inteligentes y, sobre todo, baratos ya pueden medir todo.

Las tres "nuevas olas de innovación" del Big Data permiten comprender, respectivamente: cómo interactúan las personas con las cosas; cómo las personas interactúan con sus semejantes y cómo complejos sistemas de cosas interactúan entre sí. Juntas, las tres nuevas innovaciones hacen posible que las analíticas evolucionen del estudio de las transacciones al estudio de las interacciones, pues una vez que se han recogido e integrado los datos que conforman las transacciones y eventos, se puede medir y analizar el comportamiento tanto de los sistemas como de las personas.

En una era de hiper-competencia producto de la globalización y la digitalización, analizar con eficacia estas nuevas fuentes de datos y actuar en función de los resultados obtenidos está cambiando la forma de hacer negocios y proporciona a las compañías una ventaja competitiva importante.

“Contrariamente a algunos despliegues publicitarios de la industria, mucho de lo aprendido sobre gestión de la información y análisis durante las últimas tres décadas es todavía relevante, aunque es cierto que explotar adecuadamente las tres innovaciones de Big Data también requierá que se dominen algunos nuevos desafíos”, afirma Martin Willcox.

MARTIN WILLCOX DE TERADATA

Con técnica Big Data Archivos del Estado de Venecia digitalizara documentos con más de mil años de historia

>> jueves, 26 de junio de 2014

La 'Máquina del Tiempo de Venecia', un futuro archivo digital con más de mil años de historia
http://www.rtve.es/ 25/06/2014

Detalle de un mapa de Venecia de 1557 de la planificación urbana y de canales.Archivio di Stato di Venezia / Hillary Sanctuary

Cuando Galileo Galilei ejerció de profesor de Matemáticas en la Universidad de Padua escribió al Senado de Venecia (Italia) para solicitarle financiación con el objetivo de desarrollar el telescopio. Su petición fue aprobada en agosto de 1609 y comenzó a recibir 1.000 ducados al año.

El manuscrito de la solicitud de Galileo es uno de los miles de documentos que guardan los Archivos del Estado de Venecia y que van a pasar a formar parte de un archivo digital en abierto que contendrá más de mil años de herencia cultural veneciana.

El equipo, que ahora cuenta con la financiación de la fundación suiza Lombard Odier, ya lleva cerca de un año trabajando en la confección de la infraestructura, agrupando, por ejemplo, los distintos formatos de archivo.Con el nombre de Venice Time Machine (Máquina del Tiempo de Venecia), investigadores de la Escuela Politécnica Federal de Lausana (EPFL), junto a la Universidad Ca'Foscari, están desarrollando la infraestructura y la tecnología necesarias para transformar esa enorme cantidad de documentos manuscritos administrativos del archivo veneciano en un gigante sistema de información, según ha informado la EPFL.

Documento manuscrito por Galileo Galilei pidiendo financiación al Senado veneciano para desarrollar un telescopio.Archivio di Stato di Venezia / Hillary Sanctuary

El principal objetivo es convertir esta ingente cantidad de información en un recurso "fundamental" para estudiar Venecia y su imperio mediterráneo sin necesidad de trasladarse a la ciudad italiana.
Complejidad del archivo veneciano

El archivo con el que tienen que trabajar los investigadores consiste en documentación manuscrita en lenguas que abarcan desde la época medieval hasta el siglo XX.

Estiman, asimismo, que el Archivo del Estado de Venecia tiene unos 80 kilómetros de estanterías con delicados y en ocasiones frágiles documentos que van desde certificados de nacimiento y de fallecimiento hasta declaraciones de tasas, pasando por mapas y diseños de planificación urbana.Para optimizar el flujo de trabajo, los investigadores emplearán un tratamiento automatizado de los diferentes estilos de escritura a mano y un análisis de la evolución de las diferentes lenguas.

La documentación que se va a digitalizar permite reconstruir etapas del pasado de la ciudad: biografías, dinámicas políticas, apariencia de barrios y edificios, etc.

"Los documentos están estrechamente interconectados, cuentan una historia mucho más rica cuando se cruzan", ha explicado el director de los Archivos del Estado de Venecia, Raffaele Santoro.

Documentos en las estanterías del Archivo del Estado de Venecia.Archivio di Stato di Venezia / Hillary Sanctuary

Los tesoros venecianos, accesibles en Internet

La Venice Time Machine será accesible en Internet en un futuro. El equipo que está llevando a cabo el proyecto tiene previsto recrear las redes de la sociedad y los árboles de familia y hacer visualizaciones del desarrollo y diseño urbano.

Además facilitarán la búsqueda dentro de ese océano de información del pasado veneciano gracias a técnicas de gestión, minería y clasificación de big data. Por ejemplo, se emplearán algoritmos de reconocimiento automático de texto.

"El objetivo es transformar todos estos registros en una base de datos de información digital del pasado", ha comentado el profesor de la EPFL, Frédéric Kaplan, quien ha subrayado: "La buena noticia es que el big data no es un problema; es parte de la solución".

EL FUTURO AQUÍ HOY: CLOUD COMPUTING, BIG DATA Y LA VIRTUALIZACION

>> viernes, 11 de noviembre de 2011

HP apuesta a conquistar el nuevo “El Dorado” de la tecnología empresaria

http://tecnologia.iprofesional.com/ 11/11/2011/ César Dergarabedian

¿Cuál es “El Dorado” de la tecnología empresaria de estos tiempos? No se trata como aquel lugar mítico que en los siglos XVI y XVII se creía que tenía grandes reservas de oro y que fue buscado por los exploradores españoles e ingleses. Más bien, “El Dorado” del siglo XXI es concreto y real, aunque su denominación evoque algo inmaterial.

Se trata de la computación en la nube (“cloud computing” en inglés). Según los últimos cálculos de la consultora IDC, en los próximos tres años esta tendencia crecerá en todo el mundo un 23% y generará negocios por ¡140 billones de dólares!

Detrás de la “cloud” aparecen la “big data” (conjuntos de datos que crecen tan rápido que no pueden ser manipulados por las herramientas de gestión de bases de datos tradicionales) yla virtualización (la creación a través de software de una versión virtual de algún recurso tecnológico). La primera crecerá un 8% en el trienio y facturará unos 65 billones de dólares, y la segunda, 3% y 26 billones de dólares.

De la mano de Internet, la actividad informática vive una transformación en sus modelos de negocios. Una de sus expresiones es el paradigma de la computación en la nube, que consiste en acceder en forma remota a aplicaciones y servicios que antes estaban en la propia computadora del usuario.

Por ejemplo, los programas de software, los archivos e, incluso, los sistemas operativos que administran las máquinas ya no están alojados en las PC, sino en la propia red.

Este paradigma encaja muy bien en la web 2.0, donde lo importante para los usuarios es poder compartir, de forma ágil y rápida, todo tipo de contenidos.

Así, en la nube se puede acceder a documentos, fotos, videos, entre otros, desde cualquier dispositivo con acceso a la web, en cualquier momento y desde casi cualquier lugar.

De esta manera, se consigue una menor dependencia de los datos alojados en el disco duro de la computadora, utilizando la red como lugar de almacenamiento e intercambio de todo tipo de contenidos.

Hoja de ruta
El gran negocio al que apuntan gigantes tecnológicos como Cisco, IBM, Oracle y Dell, entre otros, es ofrecer una hoja de ruta a las empresas para que se suban a la nube. Cada una de ellas enfatiza en algún aspecto de la infraestructura necesaria para ello.

En el caso de HP, el mayor fabricante mundial de computadoras anunció en una reunión con medios latinoamericanos (el único de la Argentina presente fue iProfesional.com) en sus oficinas en Cupertino, en pleno Silicon Valley su estrategia para esta pelea.

La apuesta de esta compañía se basa nuevos servicios y soluciones basados en su “infraestructura convergente” que permiten a los proveedores de servicios y a las compañías acelerar la oferta de servicios de nube mientras se aumentan las inversiones existentes, se minimiza el riesgo y se disminuyen los costos.

El diagnóstico que trazó Deborah Nelson, directora de Marketing para el área de Empresas y Ventas Globales de la firma californiana, fue el siguiente: las organizaciones se encuentran bajo una creciente presión para ofrecer recursos de tecnologías de la información (TI) a pedido, para obtener agilidad, aumentar la ventaja competitiva y cumplir con las expectativas del cliente.

Esta ejecutiva identificó a los centros de datos heredados, las arquitecturas de TI insensibles y la expansión de la tecnología como barreras claves para implementar nuevos modelos de entrega, como tecnologías como servicio y la computación en la nube.

HP invirtió en los últimos miles de millones de dólares en la compra de diferentes empresas para enriquecer su oferta. 3Com y TippingPoint son algunas de las marcas adquiridas. Sin embargo, lo que da una dimensión del tamaño del negocio en juego fue la durísima puja que HPO mantuvo en 2010 con Dell por una firma desconocida por el público masivo: 3PAR (la sigla refleja los apellidos de los tres fundadores).

La pelea fue tal que de una oferta de compra por 1.150 millones de dólares que hizo Dell se terminó en una compra por parte de HP que desembolsó 2.400 millones de dólares.

¿Qué tiene 3PAR que comenzó a integrar HP en su oferta? Una combinación de productos de almacenamiento que le permite al gigante californiano reforzar su portafolio.

Con la plataforma de 3PAR se reducen los costos de adquisición y operacionales y los requerimientos de capacidad hasta un 50%. También se incrementa la eficiencia de la gestión del almacenamiento hasta 10 veces y proporciona una alta rapidez. Y es el primer sistema de almacenamiento Tier-1 para la “cloud computing” que permite una consolidación masiva, ya que el almacenamiento puede ser utilizado por muchas aplicaciones y líneas de negocio.

Las soluciones de almacenamiento de 3PAR permiten la compra de hasta un 75% menos de capacidad de almacenamiento. Eliminan el tiempo y la complejidad, y proporcionan una migración heterogénea de cualquier cabina a 3PAR.

Pruebas de campo
La apuesta de HP incluye financiamiento, servicios, recursos para desarrolladores y 100 nuevos centros que permiten a los clientes experimentar el sistema de computación en la nube.

Estas pruebas son imprescindibles antes de dar el paso hacia el nuevo paradigma, porque los centros de datos heredados no están actualizados para las nuevas demandas.

Por ejemplo, deben estar estructurados para ciclos de planificación más cortos para ofrecer servicios al instante, mientras optimizan las operaciones y mejoran la confiabilidad en estos servicios. Esto requiere una mejor alineación, comunicación y planificación en toda la organización.

Empresa instantánea
El lema de HP para esta iniciativa es “Instant On”. Según Nelson, con la adopción de “cloud computing” y movilidad, toda la actividad de las empresas y gobiernos se está conectando y volviendo inmediato. Como resultado, los clientes y ciudadanos esperan respuestas en segundos y “al instante”, en vez de en semanas y días.

Una investigación conducida por este proveedor informático señala que el papel que juega el área de TI se está moviendo de ser principalmente el administrador del negocio, a ser uno con el negocio. Por ejemplo:

86% de los ejecutivos de alto nivel de empresas y gobiernos creen que para poder servir mejor a sus clientes y ciudadanos tienen que adaptar sus empresas para que cumplan con las expectativas del consumidor.

78% creen que la tecnología es la llave para la innovación en los negocios y gobiernos.

85% indicaron que para poder ser exitosos, la tecnología necesita ser parte de los servicios de empresas y gobiernos.

Para ayudar a los clientes en su transformación en una empresa “Instant-On”, HP anunció servicios denominados Hybrid Delivery, que provee una hoja de ruta para desplazarse hacia un modelo híbrido de entrega, así como también administrarlo.

Apunten contra Cisco
En varias de las presentaciones en la reunión con los medios regionales, los ejecutivos de HP apuntaron contra Cisco, un proveedor que en los últimos años buscó extender su predominio en las redes de los centros de datos hacia el almacenamiento y los servidores.

La respuesta de IBM, Dell y HP los líderes tradicionales del mercado de servidores fue reforzar su presencia en redes mediante compras y alianzas.

Por el lado de HP, la movida fue comprar 3Com, uno de los principales rivales de Cisco por casi 3.000 millones de dólares. IBM y Dell realizaron operaciones similares aunque de menor magnitud monetaria. La guerra por el negocio de la “cloud computing” amenaza con tener nuevas batallas.

LAS EMPRESAS NECESITEN MANEJAR CANTIDADES MONSTRUOSAS DE INFORMACIÓN

>> martes, 1 de noviembre de 2011

"La tecnología está yendo hacia el concepto de big data"

http://www.cronista.com/ 01/11/2011/ Rocío Pujol

EMC Corporation tuvo razones para festejar el tercer trimestre. El proveedor de soluciones para cloud computing y seguridad, entre otros, registró un récord de ingresos de u$s 4,980 millones. Tras un encuentro en tierras mendocinas con los partners EMC de la región, Octavio Osorio, vicepresidente para Latinoamérica de EMC, extendió su visita a Buenos Aires donde habló en exclusiva con IT Business sobre el crecimiento del 30% a nivel regional, junto a Marcelo Fandiño, Gerente Regional para el Cono Sur, y Martín D'Elia, gerente de Marketing para el Cono Sur.

¿El crecimiento está impulsado por alguna división particular?
Octavio Osorio: Nuestro rango medio de proyectos crece aceleradamente, el high-end aumenta pero a un rango menor. La virtualización, que es la base para el cloud, está generando mucho interés en las empresas. El crecimiento de los ingresos de VMware fue del 32% (N.d.R.: EMC adquirió VMware en 2004, por u$s 635 millones).

Se espera un período de recesión económica para 2012 ¿ustedes, cómo se preparan?
Osorio: Creemos que muchos clientes van a invertir en tecnología de virtualización, que los hace más eficientes y menos costosa la infraestructura de tecnología de la comunicación.

Y en la región, ¿también prevén crecimiento?
Marcelo Fandiño: Hay una recesión mundial, pero el mercado IT continúa invirtiendo. De hecho, en EMC Latinoamérica estamos creciendo arriba del ritmo natural a nivel global.

En materia de inversión, ¿cuánto apostará EMC?
Osorio: EMC le dedica una fuerte inversión a la parte de investigación y desarrollo, unos u$s 2.000 millones anuales. A esta cifra, hay que agregarle las adquisiciones no planeadas que dependen de varios factores.

¿En qué áreas?
Osorio: Hoy, donde vemos que la tecnología está yendo es hacia el concepto de big data. Internet ha generado que las empresas necesiten manejar cantidades monstruosas de información, pero cómo almacenarla, cómo protegerla, cómo administrarla es un desafío. Para este fin, compramos una empresa que se llama Isilon.
Martín D'Elia: Doy un ejemplo de aplicación, las empresas telefónicas están ofreciendo sistemas de videos on-demand y comienzan a manejar decenas de miles de archivos de altísimo tamaño. Ahí, no basta una máquina que vaya a encontrar un archivo y lo muestre rápido. Para seleccionar un video, que puede ser un archivo de una película entera en alta definición, se necesita un hardware específico, como es el caso de Isilon, que está capacitado para manejar muchísimos archivos de gran tamaño y de una manera eficiente. Un ejemplo es la estructura que se exige hoy a una empresa de medios. Otro pueden ser las compañías de Explotación de Petróleo que manejan archivos gigantescos, cada vez que hacen mapeos.

¿Big data es para grandes empresas?
Fandiño: No. En la Argentina, en los últimos años, se levantaron más de 80 empresas de Media. Muchas son productoras de televisión y no tienen una gran infraestructura. Lo que tiene esta tecnología es que va acompañando el crecimiento. Se puede ir escalando, no se necesita tener una súper máquina, el espacio se va agregando.
D'Elia: Además en EMC no hacemos adaptaciones para el mercado medio sino que los productos son pensados para el sector en particular. No vendemos más barato lo que a otros cobramos más caro. Son equipamientos para mercados medios que empiezan por debajo del los u$s 10.000, con tecnología de primer nivel.

En tema de virtualización, ¿cómo ven al país?
Fandiño: Muy bien. En la Argentina, como en el resto del mundo estamos llegando casi al 80% de las empresas que están usando la herramienta VMware. La virtualización es una realidad en la gran mayoría de las empresas y aquí se sigue la tendencia mundial.

¿Y en cloud computing?
Fandiño: El tema del cloud computing se está desarrollando bastante bien. Pero, en los últimos dos años, estamos empezando a tener implementaciones mucho más grandes y esperamos que para 2012 este creciendo sea superior.

¿Cuánto influye la falta de oferta de proveedores de servidores?
Fandiño: Faltaba oferta para que las empresas puedan optar entre opciones de cloud computing. La facilidad de adquirirlo, de implementarlo y usarlo es muy importante. Una vez que eso exista y que sea confiable y funcione bien va a ser muy rápido el crecimiento. Las claves son la oferta y su calidad, y los principios que pueda generarlos por Internet, la calidad de las telecomunicaciones -porque es necesario tener un buen vínculo de Internet- y que se pueda administrar el propio consumo.
Osorio: Muchos clientes antes de hacer su salto al cloud público están generando su cloud privado para dar un servicio a sus propios usuarios internos. Tenemos soluciones ya empacadas, como es PC-Link, que puede aplicarse a un server provider que quiere dar servicios en una cloud pública de otros clientes o un cliente que quiere implementar una tecnología y una estructura muy flexible de cloud y dar servicios a sus clientes internos.
Hoy, ya están aplicando la virtualización de una u otra forma y avanzando en los pasos para construir una estructura flexible que, finalmente, sea 100% cloud.

¿Cuál es el beneficio, hoy?
Osorio: Uno es que acorta mucho el time to market. Antes, si un departamento necesitaba instalar una aplicación nueva, le preguntaba al CIO. Este tenía que ver cuál era, analizar qué software utiliza, qué sistema operativo requiere, cómo es el tema de autorizaciones, negociar con un distribuidor de hardware. O sea, un proceso que duraba meses. Con cloud, eso es cuestión de minutos porque es auto-provisionable.
Fandiño: Cloud es más interesente del lado de la economía que del lado de la tecnología. Es una infraestructura que ya está; ya no se discute si sí o si no, sino cuándo y cómo.

¿Cómo está posicionado EMC en la Argentina?
Fandiño: Aquí somos líderes en el mercado de grandes empresas. Queremos serlo también en el mercado de las empresas medianas y de las chicas porque es donde más nos estamos expandiendo y donde vemos una gran oportunidad. Para darle un ejemplo, estamos ocupando nuestro segundo edificio y vamos por el tercero. Allí, EMC Argentina pasará a ser proveedor de servicios para EMC global. La calidad de la mano de obra argentina, sumado al costo relativo a nivel mundial y a una gran sincronía cultural, sobre todo con el continente americano, esta empezando a proveer distintos tipos de servicios para todo América latina. Ya estamos realizando facturación y contabilidad, ahora vamos a implementar preventa y soporte.
Osorio: Hoy en día, los servicios de back office se están haciendo en la Argentina y empezaremos con los servicios técnicos porque pueden ser llevados a cabo remotamente. El futuro es optimista.

Suscribirse a: Comentarios ( Atom )

Archivologo Curriculum Vite

III Congreso Internacional de Archivos Digitales

>> miércoles, 3 de julio de 2019

Lo que necesitas saber del Big Data

>> miércoles, 19 de diciembre de 2018

Tecnología para el tratamiento de los datos masivos de paraísos fiscales obtenidos a través de filtraciones

>> martes, 2 de enero de 2018

Discos duros, servidores, archivos y almacenes en toda España están llegando a su máxima capacidad

>> viernes, 30 de octubre de 2015

Big Data está cambiando nuestra realidad y la de las empresas

>> lunes, 17 de noviembre de 2014

Con técnica Big Data Archivos del Estado de Venecia digitalizara documentos con más de mil años de historia

>> jueves, 26 de junio de 2014

EL FUTURO AQUÍ HOY: CLOUD COMPUTING, BIG DATA Y LA VIRTUALIZACION

>> viernes, 11 de noviembre de 2011

LAS EMPRESAS NECESITEN MANEJAR CANTIDADES MONSTRUOSAS DE INFORMACIÓN

>> martes, 1 de noviembre de 2011

About

Archivo del blog

El Archivologo

UNESCO

Siguenos en X

Sigueme en Facebook

Mis Favoritos

Mis Enlaces

MIS TWITTERS

Etiquetas

USUARIOS SEGUIDORES

archivologo.blogspot.com

Snap Shots

Archivologo Curriculum Vite

>> miércoles, 3 de julio de 2019

>> miércoles, 19 de diciembre de 2018

>> martes, 2 de enero de 2018

>> viernes, 30 de octubre de 2015

>> lunes, 17 de noviembre de 2014

>> jueves, 26 de junio de 2014

>> viernes, 11 de noviembre de 2011

>> martes, 1 de noviembre de 2011

About

Archivo del blog

SUSCRIBIRSE A:

El Archivologo

UNESCO

Siguenos en X

Sigueme en Facebook

Mis Favoritos

Mis Enlaces

MIS TWITTERS

Etiquetas

USUARIOS SEGUIDORES

archivologo.blogspot.com

Snap Shots