Logo UOC

Parallel Coordinates

Una visualització per a dades multidimensionals numèriques.
PID_00233252
Autor: Álex GonzálezCoordinació: Julià Minguillón

Introducció

Aquest exemple, de Mike Bostock, mostra els preus mitjans en diferents categories per a diferents ciutats. Cada línia uneix els valors de cada ciutat per a les diferents dimensions/eixos. Es pot observar la tendència de la majoria de valors però tenint en compte l'ordenació de les variables, la qual determina les combinacions generades. Conceptualment seria una espècie de gràfic de radar «aplanat».

Exemple: resultats de l'Heptatlon a Londres 2012 / Rio 2016

La visualització següent mostra com usar Parallel Coordinates per a visualitzar un conjunt de valors per a una llista d'entitats. En aquest cas els valors són les puntuacions en cada prova de les primeres classificades en la prova d'Heptatlon de les Olimpíades dels anys 2012 i 2016.

Els atributs de què es disposa per a cada participant en la prova d'Heptatlon són els resultats en punts obtinguts per a cadascuna de les proves següents:

Funcionament

Cadascuna de les barres verticals que representa els valors que pot prendre una de les variables pot ser arrossegada i reordenada, de manera que és possible comparar qualsevol parella de variables.

Situant el cursor sobre una de les barres verticals també es mostra mitjançant un indicador de funció el text que indica de quina variable es tracta.

D'altra banda, situant el cursor damunt d'una línia que uneix els diferents valors possibles es mostra un indicador de funció amb un text que identifica aquest element en el conjunt de dades.

Finalment, el selector inferior permet escollir el conjunt de dades per visualitzar, en funció d'una altra variable, en aquest cas l'any.

Anàlisi mitjançant la visualització

Per a cada parella consecutiva de variables, la visualització mostra els canvis de valor, per la qual cosa és possible detectar correlacions en funció de si tots els elements del conjunt de dades mostren la mateixa tendència de canvi.

La visualització també permet detectar valors extrems per a cadascuna de les variables, i fer-se una idea de la distribució de cada variable en funció de la densitat de línies en una regió o segment.

Limitacions

Quan es visualitzen molts elements alhora és més fàcil detectar tendències i possibles correlacions, però és pràcticament impossible identificar elements individuals, atès que es visualitza el conjunt de dades tal qual, sense agregats o resums.

En el cas de visualitzar variables categòriques, hauria de ser possible reordenar els valors de cadascuna per poder veure si hi ha relació entre elles, atesa la falta d'ordre implícit que tenen. En aquest cas es recomana usar la visualització Parallel Sets.

Detalls tècnics (how to?)

Aquesta visualització consisteix en una pàgina HTML (enllaç) que incorpora codi D3.js ( enllaç) i pot ser utilitzada com a base per a reproduir-la usant qualsevol altre conjunt de dades.

És necessari disposar de la llibreria d3.v4.min.js (v4, descargable també des de D3.js), la qual ha d'estar en el mateix directori de treball que la pàgina web esmentada, en un subdirectori anomenat js.

El fitxer .CSV per visualitzar ha d'anar separat per comes «,» i utilitzar una codificació UTF-8. Els fitxers usats en aquest exemple poden descarregar-se des d'aquest enllaç i aquest. Es recomana utilitzar LibreOffice per a manipular-los.

El fitxer parallelcoordinates_base.js que conté el codi D3.js pot ser modificat per reutilitzar la visualització amb altres fitxers CSV, de la manera següent:

Exercici

Es proposa modificar la visualització mostrada com a exemple, canviant el conjunt de dades mostrat, i usar diferents subconjunts de variables d'aquest.

Referències

Materials creats per Álex González (outliers) i Julià Minguillón, publicats amb una llicència Creative Commons CC-BY-SA 3.0, Universitat Oberta de Catalunya (FUOC), 2017.