Tecnología para el tratamiento de los datos masivos de paraísos fiscales obtenidos a través de filtraciones

Entrevista Mar Cabra Valero, periodista de investigación y especialista en análisis de datos

https://www.interempresas.net/

Mar Cabra fue editora de datos en el Consorcio Internacional de Periodistas de Investigación (ICIJ por sus siglas en inglés) durante los conocidos casos de los Papeles de Panamá y del Paraíso. Hablamos con ella sobre la tecnología que posibilitó el tratamiento de los datos masivos sobre estos paraísos fiscales obtenidos a través de filtraciones.

¿Cuáles fueron las tecnologías y herramientas que empleasteís tanto para el tratamiento de los datos como de herramientas colaborativas de información en los casos de los Papeles de Panamá y más recientemente de los Papeles del Paraíso?

Usamos, sobre todo, software de código abierto existente, como el de Talend, y lo adaptamos a nuestras necesidades. Por suerte, el ICIJ ya había trabajado con proyectos basados en filtraciones en el pasado y habíamos ido testando diferentes herramientas para el procesamiento de datos masivos. Project Blacklight, diseñado para bibliotecas, y Apache Solr nos ayudaron a que los periodistas pudieran buscar los documentos de manera remota. Utilizamos Linkurious y Neo4j para visualizar las conexiones entre las personas que tenían sociedades en paraísos fiscales. Talend nos sirvió para reconstruir y transformar las bases de datos de las filtraciones y hacerlas disponibles al público en la Offshore Leaks Database. Y, además, tuvimos nuestra propia red social, basada en el software Oxwall, para comunicarnos a través de las fronteras y los diferentes usos horarios, al igual que la gente se comunica con sus familiares y amigos por Facebook.

¿Cuál fue el volumen de datos analizados y de qué tipo: emails, fotos, pdfs…?

Ambas investigaciones significaron un gran reto tecnológico para el ICIJ, al tratarse en total de cuatro terabytes de información y 25 millones de documentos que compartimos con unos 400 periodistas en cada proyecto. La mayoría de los archivos eran emails, al tratarse de documentos internos de diferentes bufetes de abogados que crean sociedades en paraísos fiscales. Además, procesamos más de cuatro millones de PDFs e imágenes, lo que significó que tuvimos que hacerlos buscables previamente realizando en ellos reconocimiento óptico de caracteres. También había varias bases de datos de clientes y sociedades, así como documentos con datos estructurados que usamos para analizar tendencias y encontrar patrones de conducta.

¿Cuántas personas participaron en el análisis, tratamiento… de los datos? ¿Con qué perfiles?

El equipo de datos y tecnología del ICIJ es un equipo multidisciplinar con una decena de integrantes, aunque el número de componentes crece en función de las necesidades de cada proyecto. Hay periodistas especializados en análisis de datos, un experto en minería de datos, varios desarrolladores front y back end y un ingeniero de sistemas.

¿Cuáles han sido los principales retos y dificultades que os encontrasteis durante ambos casos?

Tecnológicamente hablando, uno de los mayores retos fue tener que procesar tantos PDFs e imágenes de manera rápida. Lo solucionamos creando un ‘ejército’ de una treintena servidores en la nube de Amazon Web Services que trabajaban de manera paralela, acelerando el proceso. También tuvimos que lidiar con docenas de formatos diferentes, lo que hizo que tener los documentos buscables llevara más tiempo.

A nivel humano siempre hay retos, pero el ICIJ deja claras las reglas de la colaboración desde el principio: hay que compartir y todos publicamos a la vez. Además, el poder estar conectados en todo momento a través de nuestra red social ayuda a crear una sensación de familia y equipo unido que es fundamental para trabajar tanto tiempo juntos desde diferentes partes del mundo.

El Consorcio Internacional de Periodistas de Investigación deja claras las reglas de la colaboración desde el principio: hay que compartir y publicar a la vez.

¿Cómo han cambiado las nuevas tecnologías de procesamiento de datos como el big data el periodismo de investigación?

El ICIJ recibió su primera gran filtración de datos en 2011 y constaba de 260 gigabytes de información. En aquel momento conceptos como encriptación o procesamiento en la nube no eran tan comunes en el periodismo. De hecho, al principio intentamos lidiar con tantos documentos compartiendo discos duros con algunos periodistas o haciéndoles viajar a diferentes oficinas para poder hacer búsquedas. Incluso contratamos a personas para que hicieran paquetes de información para los reporteros de todo el mundo.

Hoy en día eso suena a la prehistoria, ya que hemos conseguido procesar de manera masiva y rápidamente cantidades de documentos quince veces superior en tamaño. Además, nuestros reporteros pueden hacer búsquedas desde las redacciones en sus países en cualquier momento gracias a tener la información en la nube de manera segura.

¿Están empleando en sus investigaciones tecnologías como la inteligencia artificial o el machine learning?

El ICIJ es una organización sin ánimo de lucro que hace un periodismo de investigación muy potente y de impacto, sobre todo teniendo en cuenta el pequeño equipo de unas veinte personas. Los Papeles de Panamá y del Paraíso ayudaron a dar un salto en el uso de las tecnologías para facilitar la colaboración a través de las fronteras, pero la mayor parte del tiempo se fue en procesar los documentos y hacerlos buscables para los periodistas. Implementamos algunas funcionalidades en nuestras herramientas para poder hacer búsquedas masivas, a través de listas de nombres, por ejemplo. Sin embargo, aún hay mucho que avanzar en cómo usar la inteligencia artificial y el machine learning para ser mejores investigadores. Es un tema de recursos y tiempo, pero ya se está trabajando en ello para las próximas investigaciones.

¿Hay otras investigaciones de ICIJ en curso que involucren tareas similares de gestión de datos masivos?

Uno de los proyectos más interesantes en los que está trabajando el ICIJ ahora mismo no es periodístico, sino tecnológico, y se llama DataShare. Este software ayudará a los más de 200 periodistas de la red del ICIJ a compartir datos y archivos de manera constante, sin tener que esperar a recibir una gran filtración. La idea es que cuando un reportero obtenga documentos para una historia, lo pase por este software, que automáticamente extraerá la lista de nombres de lugares, personas y compañías en ese documento. Después, los compartirá con el resto de la red y la herramienta alertará a los miembros implicados si hay conexiones entre los nombres y documentos en diferentes países. El ICIJ espera así poder lidiar de una manera más activa con la compleja realidad global a la que nos enfrentamos y como resultado, hacer un mejor periodismo.

Autor: Cristina Mínguez

Archivologo Curriculum Vite