Julio Arias

Julio Arias

Team Lead UX/UI

¿Qué entendemos por visualización de datos?

22 de October de 2019
2 minutos

Lejos de considerarla como una disciplina relativamente joven que en los últimos años ha emergido con un protagonismo mayúsculo, la visualización gráfica de datos es un disciplina que ha estado presente desde que surgió la necesidad de organizar datos en forma de tablas, evolucionando hasta el momento de querer representar gráficamente información cuantitativa.

A medida que la necesidad de agrupar y representar cantidades ingentes de datos iba aumentando, la disciplina fue evolucionando. 

 

¿En qué consiste la visualización de datos?

La visualización de datos lo que intenta hacer es aprovechar nuestra enorme capacidad de analítica visual, para hacer accesibles esas relaciones, esa información, de esos conjuntos de datos abstractos a nuestro entendimiento.

En la visualización de datos básicamente lo que hacemos es codificar o traducir a un lenguaje visual, a un lenguaje entendible por nuestra cognición, por nuestra mente, toda esa información.

 Yusef Hassan 

 

La visualización de datos se impulsa por su capacidad de revelar las historias que se esconden dentro de los datos.

Edward Segel and Jeffrey Heer

 

Ya por la segunda mitad del siglo XX John Tukey presentó el poder de la visualización de datos como un medio para explorar y dar sentido a los datos cuantitativos y a este enfoque estadístico lo llamó análisis exploratorio de datos (Exploratory Data Analysis). Años después, hacia la década de los años 80, Edward Tufte comenzó a mostrar otras formas efectivas de mostrar datos visualmente, reflejándolo en su libro “The visual display of quantitative information”. Todo ello favoreció la aparición de una nueva especialidad académica acuñada como “Information visualization”, que gracias al trabajo de académicos como Jock Mackinlay y Ben Shneiderman, entre otros, permitieron traspasar los muros académicos y llegar hacia el mundo profesional.

En la actualidad, la disciplina de la visualización de datos ha ido evolucionando a la par que el desarrollo de la tecnología va en aumento. Permitiendo la recopilación de gran cantidad de información cuantitativa, y ha sido la consiguiente necesidad de mostrarla, lo que ha impulsado el desarrollo de herramientas como fueron las hojas de cálculo, las cuales constituyeron una revolución dentro de la informática personal, al acercar al usuario doméstico todo el potencial de cálculo de datos, reservado desde sus comienzos a un uso más empresarial. 

Un viaje que comenzó por 1979 con el desarrollo de la primera gran aplicación que popularizó las hojas de cálculo en los ordenadores llamada VisiCal, pasando por Lotus 1-2-3 hasta llegar a la tan conocida y usada Excel. 

En la actualidad, las hojas de cálculo digitales siguen en apogeo y evolucionando, impulsadas por nuevas alternativas como Google Sheets ofreciendo al mercado nuevas capacidades. 

Esta revolución que hemos experimentado con el desarrollo de este tipo de software (poniendo el foco en las últimas décadas hasta la actualidad), han sido las causantes de que seamos tan malos diseñando gráficas y que mucho de lo que nos encontramos sea considerado como «basura gráfica».

 

Son estas aplicaciones que al estar tan mal diseñadas nos han hecho a toda la población en general malos comunicando información cuantitativa.

Yusef Hassan

 

Estas herramientas tienen un problema. Propician un uso incorrecto a la hora de representar datos, mostrando una serie de opciones que permiten a los usuarios seleccionar un tipo concreto de gráfica para representar los datos. 

El problema de estas herramientas ya no es que las opciones por defecto que nos muestran estén mal, si no que se basan en un modelo erróneo de representar datos al dar la opción de “seleccionar tipo de gráfica”. 

Esta opción nos obliga a encajar los datos que necesitamos representar en una serie de gráficas preestablecidas que nos ofrece la propia herramienta y esto, es un error.

 

¿Por qué? 

Porque la selección de un tipo de gráfica u otro ha de contemplar para empezar un análisis previo de los propios datos.

Este modelo, en el cual una de las primeras decisiones que debemos tomar es seleccionar el tipo de gráfica, nos obliga a encajar nuestros datos en un tipo de gráfica visual concreta seleccionada previamente.

La representación de datos persigue una serie de objetivos, entre las que destacan: 

  • Transmitir y comunicar un mensaje.
  • Presentar grandes cantidades de información de forma concisa, compacta y entendible.
  • Revelar datos, al mostrar las relaciones causa-efecto, revelando las relaciones que a priori no son evidentes.
  • Controlar la evolución de parámetros de forma periódica

 

¿Existe otra forma de representar datos que no sea el modelo “seleccione tipo de gráfica”?

A finales de los años 90 Leland Wilkinson publicó “The Grammar of Graphics”, venía a decir que en el lenguaje visual existe una gramática, unas reglas sintácticas y semánticas (así como la gramática nos ofrece la habilidad de construir oraciones combinando y organizando distintos elementos del lenguaje, la gramática de gráficos nos ofrece elementos básicos para crear gráficos) y cuando estamos visualizando datos lo que estamos haciendo no es seleccionar un tipo de gráfica sino crear un expresión gráfica propia. 

En esencia, una gramática de gráficos es un marco que nos permite describir concisamente los componentes de cualquier gráfico.

Lo que debemos hacer es asociar cada una de las variables que conforman el dataset a atributos gráficos concretos, es decir, determinar de qué forma se van a representar cada una de esas variables.

En función del tipo de variables, unos atributos gráficos funcionan mejor que otros.   

 

Un problema de diseño

Cuando lo bonito pasa a ser inútil.

La siguiente gráfica representa las tendencias de diferentes activos por sector.  

 

En el lado izquierdo viene descrita la leyenda, asociada a la representación circular tipo “tarta” de la derecha. La tabla se utiliza para buscar los porcentajes de las asignaciones del sector. El principal problema aquí, viene por la representación del gráfico circular. 

Para que esta representación nos fuese realmente útil debería permitirnos ver rápidamente el desglose de cada uno de los sectores. Sin embargo, para comprender qué representa cada sector debemos mirar la tabla, por lo que se identifican varios problemas:

1- Requiere hacer un trabajo innecesario al obligarnos a mirar de un lado a otro para tratar de comprender qué rebanadas pertenecen a qué sector.

2- Al tener que buscar cada rebanada (sector del gráfico circular) en la tabla de todos modos, el gráfico circular es totalmente prescindible. 

3- Los datos que aparecen en la tabla quedan erróneamente representados. El segmento de “cyclical services” parece tener casi el doble de tamaño que el segmento de “Non cyclical consumer goods”. Sin embargo, los valores de la tabla indican que el segmento “Non cyclical consumer googs” es de 18,09% mientras que el otro segmento es solo 14,17%. 

Estas manipulaciones podrían hacer que se tomasen decisiones mal informados.

4- Otro problema identificado, un poco menos obvio, es que la suma de las partes no da 100%. Cuando se agregan todos los porcentajes de cada uno de los segmentos se obtiene el 98,99%.

 

Solución 

Este diseño simple muestra todos los sectores y sus porcentajes asociados a través de una tabla ordenada. Nos permite asociar fácilmente las barras correspondientes con el porcentaje de cada sector el objetivo de las barras no es discernir valores individuales. Por el contrario, se proporciona un medio para poder comparar rápidamente las magnitudes relativas a cada uno de los valores y extraer anomalías, en el caso de que las hubiese.

 

Representación de datos interactiva 

En esta representación se hace hincapié el poder de la representación gráfica de datos como medio manipulatorio, al alterar la percepción visual en función de los datos representados. En este gráfico se equipara el área de terreno con los votos (demócratas vs republicanos), lo que hace es centrar el foco visual en los condados que son grandes a pesar de que no viven muchas personas en ellos. Esos condados rojos de Montana, Dakota del Norte, Dakota del Sur y Wyoming, albergan 1,6 millones de votantes, menos de la mitad del número de votantes que en el condado de Los Ángeles.