Resum del 3r taller

benvolguts / benvolgudes,

volia resumir el que vàrem veure durant el tercer taller relatiu a la fase d’anàlisi de les dades un cop aquestes han estat capturades i preprocessades.

Com ja vàrem comentar, l’anàlisi de dades té dues aproximacions complementàries, una més basada en l’estadística i l’altre més basada en la mineria de dades. De fet aquesta segona utilitza moltes tècniques i coneixements de la primera, però es fonamenta més una aproximació algorítmica, no tan basada en la probabilitat com és el cas de la primera.

Sigui com sigui, hi ha un munt d’eines disponibles per a analitzar dades, entre d’altres destaquem les següents:

SOCR

Si el que necessiteu és una calculadora online per a poder fer anàlisi de dades amb conjunts petits i de forma senzilla, teniu l’opció d’usar SOCR, de la University of California, Los Angeles. Es tracta d’una eina que s’obre al vostre navegador (necessita Java instal·lat i actualitzat) i permet manipular (o crear) conjunts de dades i realitzar un munt d’operacions amb ells, com ara tests de significància estadística.

Per exemple, suposeu-vos que esteu de passeig per la Rambla i observeu que els guiris (o amb pinta de guiris) van amb xancletes mentre que els locals (o amb pinta de locals) van amb sabates. Durant l’estona que dura el vostre passeig observeu 54 guiris amb xancletes i 6 amb sabates, mentre que observeu 28 locals amb sabates i 8 amb xancletes. Podem dir que hi ha una relació entre ser guiri o no i el fet de portar sabates o xancletes? Doncs bé, amb els números que tenim ens podem fer una idea intuitiva de que sí, però és l’estadística la que ens dóna l’eina adequada per saber-ho del cert. En aquest cas, es tracta del test χ2 que es fa sobre una taula de contingència a partir de les dades observades. Usant SOCR, podem anar a la pestanya “Analyses”, allà en el menú de l’esquerra triem “Chi-Square Test Contingency Table”. Podem entrar la nostra taula de contingència:

SOCR - test chi quadrat

aleshores si premem el botó “Calculate” obtindrem els resultats:

resultat test Chi quadrat SOCR

com podem veure, el valor p és molt petit (negligible, gairebé zero). De forma moooolt resumida, aquest valor ens diu que la probabilitat d’observar a l’atzar una relació (o test) com l’observada és molt baixa, així que podem dir que hi ha una clara associació entre ser guiri i portar xancletes.

El problema de SOCR (o de l’estadística en general) no és, però, aplicar un test concret a unes dades, és saber quin tests cal aplicar i si es compleixen les condicicions necessàries per poder-los aplicar en funció de la natura de les dades que tinguem. Pels que estigueu interessats, actualment l’oferta de MOOCs és molt àmplia, i en castellà podeu trobar el següent curs a Miriada X:

https://www.miriadax.net/web/estadistica-investigadores-2edicion

no el conec però no té mala pinta, i comença la setmana que ve!

R

Si voleu anar una mica més enllà i també iniciar-vos en la mineria de dades, R és actualment una de les millors opcions disponibles. R és àmpliament emprat per a desenvolupar programes estadístics i per anàlisi de dades, i ha esdevingut l’estàndard en el que estadístics desenvolupen nou programari.

És impossible resumir R, destacarem els següents punts:

  • R té una interfície de cónsola pròpia dels 80s, una mica retro per la majoria de gent avui dia. Us recomano que us instal·leu RStudio per tenir una interfície que combina l’ús de menús amb un sistema de finestres que permet escriure codi, executar-lo i veure els resultats de forma senzilla.
  • R es basa en un nucli que incorpora les funcionalitats bàsiques (moltíssimes) i un sistema de paquets (packages) que desenvolupen funcionalitats específiques. Aquestes s’agrupen per àrees temàtiques, podeu trobar una llista extensa aquí.
  • Finalment, hi ha un munt de bibliografia i formació relacionada amb R, entre d’altres destaquem:

Anaconda

Pels més agosarats, hi ha un entorn de programació en Python orientat a l’anàlisi de dades, anomenat Anaconda. No us puc dir gaire cosa perquè no el conec, però a priori fa molt bona pinta i alguns col·legues meus que l’utilitzen el deixen molt bé. Si sou més de Java que no pas Python, hi ha una col·lecció d’eines per a la mineria de dades anomenada Weka.

Gephi

Finalment, vàrem parlar d’una eina orientada a l’anàlisi de grafs, una abstracció matemàtica d’un concepte que tots teniu al cap. Per exemple, la xarxa de metro d’una ciutat com Barcelona és un graf, hi ha estacions, que són els nodes, i una via que va d’una estació a la següent, o bé un passadís que uneix dues estacions (transbordament), que són les arestes. La xarxa de carreteres i les ciutats que uneixen també són un graf. I, per posar un exemple més trendy, les mencions i retuits d’un tuit també constitueixen un graf, així com la xarxa de followers i following de cada usuari de Twitter.

Vàrem veure com podiem usar la fantàstica eina flocker.outliers.es per fer el seguiment dels tuits al voltant d’un tema. Aquesta eina, entre d’altres coses, genera uns fitxers en format GEXF, un llenguatge per a la descripció de grafs usat, entre d’altres, per Gephi, una eina molt potent per a l’anàlisi de grafs.

Gephi permet calcular i visualitzar diferents mètriques sobre els nodes, de forma que és possible classificar-los d’acord a diferents criteris. Gephi, per exemple, ens permet calcular quins són els nodes “clau” en un graf, p.e., quins són els usuaris que són clau a l’hora d’escriure o reenviar tuits. Podeu veure diferents exemples de com usar Gephi per analitzar xarxes socials aquí.

Si teniu cap altre eina o comentari que volgueu compartir amb tothom, no deixeu de fer-ho!

Salutacions,

Julià

VN:F [1.9.22_1171]
Rating: 10.0/10 (2 votes cast)