Se acabó la pesadilla: extrae datos de archivos PDF
>> viernes, 3 de mayo de 2013
5 herramientas digitales para extraer datos de archivos PDF protegidos
https://knightcenter.utexas.edu/ 03/05/2013
Periodistas e investigadores a menudo se encuentran con datos «protegidos» en archivos PDF (Portable Document Format). Este formato representa una pesadilla para quienes necesitan manipular y cruzar grandes volúmenes de información, pues funciona como una imagen y no se deja editar fácilmente.
Extraer datos de archivos PDF, para utilizarlos libremente, no es una tarea sencilla y requiere paciencia, como lo muestra Jeremy B. Merrill, reportero de la organización estadounidense Pro Publica, en su relato sobre el proyecto "Dollars for Docs". El Centro Knight consultó a programadores y especialistas en periodismo de datos, entre ellos Simon Rogers, ex-editor del Datablog del diario The Guardian, y enumeró algunas de las herramientas gratuitas usadas por ellos para facilitar la conversión de documentos PDF en archivos de formato abierto, como tablas en CSV.
Vale la pena recordar que ningún convertidor es completamente fiable. Eso es debido a que el PDF puede guardar información escaneada (que exige otro tipo de conversión, con OCR), tablas complejas (con filas o columnas que abarcan varias celdas), y tablas con gráficos, en resumen, distintos factores que dificultan el correcto formateado del archivo convertido.
Rogers aconseja revisar si hubo cambios en la estructura del documento que puedan invalidar sus datos. Según el periodista, la mejor manera de hacer esto es chequear aleatoriamente los datos del archivo convertido para ver si son los mismos del original. Y no se engañe, casi siempre la conversión automática de un archivo, especialmente si se trata de una tabla, exigirá algún tipo de limpieza antes de poder utilizar la información.
1. Cometdocs En cuestión de minutos y unos pocos clics podrá convertir su archivo PDF en XLS (Excel), ODS, TXT y otros formatos - el servicio trabaja con más de 50 formatos diferentes! Para eso no es necesario ingresar al sitio web, pero si tener una cuenta de acceso a otras funcionalidades, para el almacenamiento y/o descarga directa del archivo convertido.
Cargue el archivo que quiere convertir - hasta 100 MB -, escoja el formato e incluya su dirección de correo electrónico. También puede compartir documentos de manera anónima (haga clic aquí para ver cómo).
2. Zamzar La interfaz es tan simple como la de Cometdocs. Basta subir el archivo y recibirá la nueva versión por correo electrónico. Pero hay una advertencia: al convertir archivos PDF de varias páginas en formatos de hojas de cálculo, los datos son separados en tablas, haciendo que el trabajo de limpieza y organización sea aún mayor.
3. Nitro PDF to Excel De acuerdo con Rogers este programa convierte archivos PDF en hojas de cálculo (Excel). Aunque se trata de un servicio pago, ofrece algunas funciones gratuitas. Funciona de la misma manera que Zamzar y Comedots, pero es especializado en convertir archivos para Excel.
4. PDFtoText PDFtoText es gratuito y de código abierto, y hace un trabajo óptimo y rápido con tablas bien delimitadas. Sin embargo, no funciona muy bien para documentos con múltiples encabezados y diseños complejos. El periodista Jeff Porter, de Investigative Reporters and Editor (IRE), escribió un manual detallado sobre el uso de este programa.
5. Tabula Creada por un grupo de periodistas y desarrolladores de Pro Publica y ganadores de la beca Knight-Mozilla Fellowship, esta herramienta fue lanzada en abril de este año, Tabula es una aplicación gratuita y de código abierto que le permite a los usuarios subir sus archivos y seleccionar las tablar que deseas convertir a CSV (vea una demostración). Hace un buen trabajo incluso con tablas que tengan gráficas. El principal obstáculo de este servicio es su instalación, la cual no es simple para la mayoría de los usuarios (vea el manual de instalación). Sin embargo, sus desarrolladores prometen hacer algunos cambios para simplificar su uso.
* Ley de Acceso a la Información Bueno, no es exactamente una herramienta, pero es una forma de obtener datos gubernamentales abiertos, especialmente en países cuya ley de acceso a la información requiere que los datos sean publicados en "formatos legibles y a máquina", como Brasil.
Por Natalia Mazotte/FD
https://knightcenter.utexas.edu/ 03/05/2013
Periodistas e investigadores a menudo se encuentran con datos «protegidos» en archivos PDF (Portable Document Format). Este formato representa una pesadilla para quienes necesitan manipular y cruzar grandes volúmenes de información, pues funciona como una imagen y no se deja editar fácilmente.
Extraer datos de archivos PDF, para utilizarlos libremente, no es una tarea sencilla y requiere paciencia, como lo muestra Jeremy B. Merrill, reportero de la organización estadounidense Pro Publica, en su relato sobre el proyecto "Dollars for Docs". El Centro Knight consultó a programadores y especialistas en periodismo de datos, entre ellos Simon Rogers, ex-editor del Datablog del diario The Guardian, y enumeró algunas de las herramientas gratuitas usadas por ellos para facilitar la conversión de documentos PDF en archivos de formato abierto, como tablas en CSV.
Vale la pena recordar que ningún convertidor es completamente fiable. Eso es debido a que el PDF puede guardar información escaneada (que exige otro tipo de conversión, con OCR), tablas complejas (con filas o columnas que abarcan varias celdas), y tablas con gráficos, en resumen, distintos factores que dificultan el correcto formateado del archivo convertido.
Rogers aconseja revisar si hubo cambios en la estructura del documento que puedan invalidar sus datos. Según el periodista, la mejor manera de hacer esto es chequear aleatoriamente los datos del archivo convertido para ver si son los mismos del original. Y no se engañe, casi siempre la conversión automática de un archivo, especialmente si se trata de una tabla, exigirá algún tipo de limpieza antes de poder utilizar la información.
1. Cometdocs En cuestión de minutos y unos pocos clics podrá convertir su archivo PDF en XLS (Excel), ODS, TXT y otros formatos - el servicio trabaja con más de 50 formatos diferentes! Para eso no es necesario ingresar al sitio web, pero si tener una cuenta de acceso a otras funcionalidades, para el almacenamiento y/o descarga directa del archivo convertido.
Cargue el archivo que quiere convertir - hasta 100 MB -, escoja el formato e incluya su dirección de correo electrónico. También puede compartir documentos de manera anónima (haga clic aquí para ver cómo).
2. Zamzar La interfaz es tan simple como la de Cometdocs. Basta subir el archivo y recibirá la nueva versión por correo electrónico. Pero hay una advertencia: al convertir archivos PDF de varias páginas en formatos de hojas de cálculo, los datos son separados en tablas, haciendo que el trabajo de limpieza y organización sea aún mayor.
3. Nitro PDF to Excel De acuerdo con Rogers este programa convierte archivos PDF en hojas de cálculo (Excel). Aunque se trata de un servicio pago, ofrece algunas funciones gratuitas. Funciona de la misma manera que Zamzar y Comedots, pero es especializado en convertir archivos para Excel.
4. PDFtoText PDFtoText es gratuito y de código abierto, y hace un trabajo óptimo y rápido con tablas bien delimitadas. Sin embargo, no funciona muy bien para documentos con múltiples encabezados y diseños complejos. El periodista Jeff Porter, de Investigative Reporters and Editor (IRE), escribió un manual detallado sobre el uso de este programa.
5. Tabula Creada por un grupo de periodistas y desarrolladores de Pro Publica y ganadores de la beca Knight-Mozilla Fellowship, esta herramienta fue lanzada en abril de este año, Tabula es una aplicación gratuita y de código abierto que le permite a los usuarios subir sus archivos y seleccionar las tablar que deseas convertir a CSV (vea una demostración). Hace un buen trabajo incluso con tablas que tengan gráficas. El principal obstáculo de este servicio es su instalación, la cual no es simple para la mayoría de los usuarios (vea el manual de instalación). Sin embargo, sus desarrolladores prometen hacer algunos cambios para simplificar su uso.
* Ley de Acceso a la Información Bueno, no es exactamente una herramienta, pero es una forma de obtener datos gubernamentales abiertos, especialmente en países cuya ley de acceso a la información requiere que los datos sean publicados en "formatos legibles y a máquina", como Brasil.
Por Natalia Mazotte/FD
0 comentarios :
Publicar un comentario