Capítulo 5 – Limpiar, comprender y procesar los datos

Una vez que tengas los datos en tu poder tendrás que procesarlos para después visualizarlos de una forma clara y sencilla. Por eso, este segundo paso es crucial.

Después de investigar, tendrás en tu poder largas listas de información numérica, algunas de ellas en PDF o en imágenes. ¿Cómo llevarlas a tablas fácilmente procesables?

La mayoría de programas de visualización de datos necesita que pasemos la información a formatos pueden ser procesados. Por lo general, hojas de datos. Popularmente sirve un “excel”, pero eso es un programa, no un formato. El formato de excel es .xls o .xlsx Los archivos del calc-libre office, el “excel libre” son .ods Y un formato muy común en el periodismo de datos que es .cvs

Si abres un .csv con un procesador de textos, verás líneas y líneas de texto separadas por comas. Son archivos que pesan muy poco y que luego abres con un procesador de hojas de cálculo como calc o excel. Hablaremos más adelante de este formato.

RASGA LOS DATOS
¿Has escuchado el término scrapping o rasgar datos? La Knight Foundation lo define como la extracción de datos de sitios Web para transportarlos a un formato más sencillo y maleable para analizarlos y cruzarlos con mayor facilidad. Si tienes un PDF que no puedes modificar, ¿qué haces? La información debe estar en un formato en el que podamos trabajar, para analizarla y cruzarla con otros datos. Calma, porque existen varias herramientas para esto.

5.1. Software para scrapping

· Scraper Wiki https://scraperwiki.com
Te ayuda a extraer los datos de un PDF. Ofrece cuentas gratuitas limitadas y planes de pago que permiten procesar un número mayor de tablas. Es Open Source y destaca mucho por la facilidad para procesar los datos.

· Scraper https://chrome.google.com/Webstore/detail/scraper/
Es una extensión o plugin para el navegador Web Chrome que permite un rápido análisis de los datos que aparecen en la Web y copiarlos o exportarlos a una hoja de datos o directamente a Google Docs. Aquí tienes un video que explica cómo funciona.

· Tabula http://tabula.technology/
La mejor opción para extraer tablas desde un PDF y guardarlas posteriormente en una hoja de cálculo o en formato CSV. Es sencillo de usar. Bajas el programa para el sistema operativo que uses, GNU/Linux, MAC o Windows. Descomprimes y ejecutas desde el navegador Web. En su Web tienes un breve video que lo explica en 30 segundos.

Si te defiendes con el inglés y un poco con la programación Web puedes explorar otras opciones en este enlace.

Revisa también estos recursos:
· http://ijnet.org
· https://knightcenter.utexas.edu/

5.2. Digitalizar imágenes

Es posible que también tengas que obtener datos de imágenes. Para eso necesitarás un programa que reconozca los caracteres, lo que se conoce como OCR. Este es online y gratuito:
Free-OCR http://www.free-ocr.com/

Si tienes un escanear propio, la mayoría de programas que digitalizan documentos vienen también con un OCR.

5.3. Refinar los datos

Una vez digitalizados los datos es probable que existan algunos errores en ellos. Por ejemplo, bajaste información sobre el presupuesto nacional de algún país. Y la variable salud se repite tres veces así: salud, saalud y Salud. Es la misma variable pero escrita de distinta forma. Tendrás que agrupar la información en una sola, de lo contrario será interpretada como tres variables distintas.

Para no hacer esto a mano, sobre todo si la información es abundante, tienes Google-refine. Revisa los tutoriales en video.

5.4. Organiza los datos

En las tablas de datos que ahora tengas después de procesar y refinar lo siguiente es… ¡clasificar!

Es decir, organiza la información por columnas, de acuerdo a las variables que vayas a seleccionar.

Sandra Crucianelli recomienda utilizar las siguientes funciones de hojas de cálculo como Excel o Libre Office Calc:

· Ordenar. Si seleccionas una serie de datos, puedes ordenarlos alfabéticamente, de mayor a menor o de menor a mayor.

· Suma, Resta, Multiplicación y División. La combinación de estas operaciones te puede ayudar a sacar varios datos. Por ejemplo:

Variaciones porcentuales. La fórmula es Valor Inicial-Valor Final/Valor Inicial*100
Promedios. Suma de todos los valores dividido para la cantidad de valores.
Porcentajes. Aplica una regla del tres.

· Funciones específicas de base de datos. Por ejemplo, BDCONTAR te ayuda a buscar dentro de la base de datos todas las celdas que contengan los datos que le especifiques.

· Transformar texto en tabla. Si tienes un texto sin organizar, lo puedes pegar en la hoja de cálculo y convertirlo en tabla. En el caso de LibreOffice, cuando vas a pegar un texto te pregunta si quieres convertirlo en tabla.

Tienes varios tutoriales sobre LibreOffice Calc. Te recomendamos revisar estos de Jonathan Morales Salazar. Y aquí uno sobre Excel.

5.5. Herramientas virtuales de funciones

Te recomendamos algunas aplicaciones online para convertir porcentajes, edades, medidas. No necesitarás instalar nada, sólo abrir la Web y calcular.

  • Porcentajes [ver]
  • Variaciones porcentuales [ver]
  • Cálculos de edades [ver]
  • Cálculos de intereses [ver]
  • Calculadora Científica Simple [ver]
  • Cálculo de días entre fechas [ver]
  • Conversión de divisas [ver]
  • Para conversión de tiempo [ver]
  • Para unidades de medida, en la parte superior hay otras variables. [ver]

TAREA
Rescata los datos que buscaste en la tarea del capítulo anterior. Descarga Google Refine. Ve el manual en video y ordena la información.

Descargar el curso completo en PDF

Capítulo 5 – Limpiar, comprender y procesar los datos

También te puede interesar

13 comentarios sobre «Capítulo 5 – Limpiar, comprender y procesar los datos»

  1. Buenas herramientas las que nos presentan aquí para analizar datos y acceder a información cuando se tiene en pdf. Esto ayuda a mejorar el ejercicio y analizar mejor los datos obtenidos

  2. Buenas tardes para realizar una base de datos tenemos que realizar un proyecto puede ser de cualquier tema o sitio que vamos a trabajar en un base de datos en que forma, como lo vamos a trabajar .En el periodismo se puede llevar como una investigación en la forma que se va a llevar un objetivo general y especifico y la metodología que se va a trabajar , y como se va a trabajar en un sistema que programas podemos realizar para mi se puede llevar un calculo de campos donde lleve nombre , apellido , dirección, cédula ,entre otros en la cual podemos hacer la tabla y que programas vamos a realizar. para mi el linux con el windos . también hay programas que se puede llevar una base de datos.como general la dinámica información de datos. Con los programas de web están realizados como lo dice en las herramientas virtuales…Hay programas que están en ingles es necesario saber ingles porque no se va entender..

  3. Bueno hasta aquí iba bien… ya investigue sobre mi tema, tengo imágenes, texto, algunos tríptico y caricaturas… pero no logro entender de que manera me ayudan los programas…algunos no me abren, otros están en ingles y los que me abren no los se usar. La información que he recolectado es mas cualitativa que cuantitativa sin embargo, hay algunos datos matemáticos interesantes

    1. Querida Ciara,
      Estas herramientas están pensadas para el procesamiento de bases de datos que algunos casos de periodismo de datos te sirven. Ya corregimos el enlace, gracias por avisarnos. Es cierto la mayoría de bibliografía y herramientas están en inglés, pero es bueno conocerlas por si algún día las necesitas.
      Un abrazo,

  4. Inquietud.

    Por favor seria tan amable de explicarme el taller o tarea que hay que realizar en la unidad 4.

    Muchas gracias.

    1. Que pena es el taller 5 fue que me equivoque no es el 4 si no el 5 es que no esta bien claro el taller 5.

  5. ¡Buenas tardes! No pude rescatar los datos del capítulo 4 para realizar la tarea de este capítulo, los mismos no están disponible.

    Le dí al enlace que está colocado para tal fin y aparece página no disponible.

    1. Saludos Miriam, qué datos?
      En la tarea anterior tuviste que buscar tú misma en alguna de las páginas recomendadas unos datos sobre el tema que prefieras. Es la tarea 4 que dice:
      «Piensa en un tema que te interese desarrollar en un reportaje de periodismo de datos y haz una lista de posibles fuentes a las que puedes recurrir. Luego anota los enlaces y descarga los datos si están en hojas de cálculo o en PDF.»

Responder a Clara Robayo / Quito, Ecuador Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *