Eines per manipular dades obertes

benvolguts / benvolgudes,

aquesta setmana continuarem parlant dels aspectes tecnològics lligats a les dades obertes però des de la perspectiva de les eines que podem utilitzar per a capturar, processar, analitzar, publicar i visualitzar-les. Continuarà amb nosaltres en David Ayala com a expert en el tema.

Començarem describint el cicle de vida de les dades obertes. En funció del seu objectiu i característiques, podem classificar una eina en una o més categories (ja veureu que hi ha solapaments); de moment ens centrarem en aquestes:

  1. Captura: inclouríem aquí aquelles eines que permeten capturar dades a partir d’una font o origen, p.e. eines per fer web scrapping, capturar el flux de dades de Twitter, accedir a una API, etc. L’objectiu d’aquestes eines és acabar disposant de les dades en un format que ens permeti manipular-les a posteriori (p.e. una o més taules).
  2. Procés: són eines que permeten manipular (en un sentit ampli) les dades, com ara combinar una o més taules, calcular camps nous, fer conversions de format, filtrar d’acord a uns certs criteris, etc. És a dir, a partir d’un munt de dades disperses en una o més taules, quedar-nos amb el subconjunt que realment ens interessa per analitzar-lo posteriorment (o bé publicar-lo com un nou conjunt de dades).
  3. Anàlisi: en aquest cas parlem d’eines que permeten fer una anàlisi del contingut de les dades, com ara calcular els descriptors estadístics, buscar patrons en les dades, aplicar tècniques pròpies de la mineria de dades per fer una classificació, construir models que expliquin el comportament de certa variable, etc.
  4. Visualització: finalment, un dels aspectes més interessants de les dades és generar visualitzacions de les dades mateixes o dels resultats obtinguts durant la seva anàlisi, amb l’objectiu de mostrar clarament el seu valor.

Començarem amb un petit recull que va preparar en Josep Jordana per l’edició anterior del curs que, sense pretendre ser exhaustiu, ja mostra un ampli ventall de possibilitats i ens permet classificar les eines en les diferents categories. Aquest recull s’està quedant obsolet, així que el que farem és proposar eines i anar-les afegint a l’apartat de recursos.

Malauradament, queda fora de l’abast d’aquest curs aprofundir en qualsevol d’aquestes eines (potser alguna mereix un curs per ella mateixa?), tot i que veurem uns quants petits exemples del funcionament d’algunes i les treballarem en grups quan fem els tallers presencials, que us anuncio a continuació.

IMPORTANT: aquesta setmana obrirem la inscripció als tallers que farem dintre del marc de l’exposició del CCCB “Big Bang Data”, on treballarem amb dades que ens ha proporcionat TV3 (gràcies!) i d’altres conjunts que considerem (us inclou a vosaltres) interessants. Estigueu a l’aguait!

Amb l’objectiu de preparar aquests exemples, us demano el següent:

1) Identifiqueu les eines que considereu més importants en cadascuna de les categories anteriors o bé eines noves que no apareixin en el mateix, i especifiqueu perquè hi teniu interès. Amb això anirem construint el recull que compartirem a l’apartat de recursos. En principi ens cenyirem a programari obert, però podem fer honroses excepcions.

2) Penseu com els nostres quatre amics poden usar aquestes eines per dur a terme els seus objectius, és a dir, crear i compartir reculls de notícies, enriquir-los amb altres dades, fer anàlisis, etc. P.e. com podríen els nostres amics detectar les paraules més “importants” d’una notícia?

3) Si teniu cap interès particular en un conjunt de dades o tema que creieu que mereix una atenció especial, proposeu-lo perquè si hi ha quorum, potser podrem treballar-lo durant els tallers.

Us avanço una proposta com a exemple de manipulació de dades: agafarem el conjunt de dades amb els “presumptes” papers del cas Bárcenas que es troben en format JSON i el manipularem amb Google Refine, una eina per estructurar dades “en brut”. Aquí teniu un video que us mostra com usar (l’1%) de Google Refine.

Vinga, esperem les vostres aportacions!

Salutacions,

Julià

VN:F [1.9.22_1171]
Rating: 10.0/10 (4 votes cast)
Eines per manipular dades obertes, 10.0 out of 10 based on 4 ratings

22 pensaments a “Eines per manipular dades obertes”

  1. Bones!

    El passat mes d’octubre vaig fer un MOOC en el que ens ensenyaven a fer servir WEKA 3 un software lliure desenvolupat per la Universitat de Waikato (Nova Zelanda) que permet realitzar les categories 2, 3 i 4, però sobre tot la 3.

    El MOOC va estar bé, però tenia un enfocament massa pràctic, deixant de banda (o donant per sabuts) molts conceptes bàsics de la mineria de dades. En el meu cas, en el que no tinc gaire idea del tema, hi va haver moments en els que no sabia exactament per a què servien, i encara menys com funcionaven, el munt d’algoritmes del programa.

    Una abraçada!

    VA:F [1.9.22_1171]
    Rating: 4.0/5 (2 votes cast)
    1. hola, Francesc

      típicament, Mineria de Dades és una assignatura que es dóna en un semestre de 16 setmanes després d’haver fet Estadística i Programació i on es veu el 25% del que pot fer Weka, així que realment és dificil sintetitzar tant

      de totes formes Weka és una gran eina que afegirem a la llista, gràcies!

      Julià

      VN:F [1.9.22_1171]
      Rating: 5.0/5 (1 vote cast)
    2. Hola Francesc,

      per si et serveix, vaig fer l’assignatura de Data mining per la UOC fa dos anys a l’apartat de l’ateneu universitari (un trimestre). No sé si encara es pot fer, però és interessant i si treballes amb dades veuràs que per defecte molts dels conceptes ja els estàs aplicant.

      S.-

      S.-

      VA:F [1.9.22_1171]
      Rating: 5.0/5 (1 vote cast)
  2. A més de les eines que hi ha al recull de Josep Jordana afegeixo algunes altres.

    Per a la captura de dades:
    Mozenda: Servei gratuït limitat per fer web scraping.
    Scrapy: Programari lliure per fer web scraping.

    Per al processament:
    Pentaho Data Integration (aka Kettle): Eina ETL, programari lliure, que forma part del projecte de Business Intelligence Pentaho.

    VA:F [1.9.22_1171]
    Rating: 4.0/5 (2 votes cast)
    1. En aquesta línia estava https://scraperwiki.com, però crec que han modificat una mica el seu servei.

      Molt interessant també és CartoDB (http://cartodb.com/) permet realitzar visualitzacions molt potents sobre dades (sobretot si estan geolocalitzades).

      En el cas d’ETL, una molt interessant i opensource és el Talend (http://talend.com/) amb una interfície basada en Eclipse i molt intuïtiu.

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  3. Hola!
    buff… doncs jo no en sé d’altres que les d’ofimàtica, amb l’Open Office i algunes eines de Google (Google Analytics…)… per això, faig el curs 😉

    M’ha semblat molt útil i interessant l’exemple del que permet el Google Refine… no fa gaire, vaig haver de fer un filtratge similar amb l’Excel i les seves taules dinàmiques, i trobo que el Google Refine, a part de ser en obert, és molt més senzill i intuïtiu. En programari lliure també tenim el Calc, de l’Open Office, que també correspon a l’exemple de la fase 2 de Procés, però em quedo amb la descoberta del Google Refine. Aquestes eines de càlcul, suposo que també permeten algunes operacions de les fases 3 i 4, d’anàlisi i visualització, però entenc que hi ha aplicacions més avançades per això.

    Per a certes operacions de la fase d’anàlisi, com determinats càlculs o cerca de certs patrons, possiblement pot servir el Base de l’Open Office, però amb limitacions, respecte d’altres aplicacions.

    I per a la captura de dades i certes visualitzacions, eines de Google, com l’Analytics…

    Pel que fa a detectar les paraules més “importants” d’una notícia, sigui el programa que sigui, nosaltres li hem d’haver assignat com es mesura el rang d’importància (paraules més freqüents, en títols o encapçalaments, paraules que li hem predefinit nosaltres…).

    Remarcar a més, per la meva experiència en el sector pressclipping, en què creava perfils amb equacions de cerca que utilitzaven expressions de camp (un llenguatge específic) i operadors de camp, puc dir que aconseguir notícies pertinents amb les paraules donades, era una tasca molt intensa, atès que les notícies tenen moltes paraules polisèmiques, i no estan pensades per ser trobades 😉 Aquesta és una tasca que com a bona professional de la documentació, vaig anar afinant, tot relacionant-les amb altres paraules del context, però tot i així, sempre s’escolava una notícia no prou pertinent, i mai ningú no s’imaginava el costós treball de rigor que hi havia al darrere. I això que era a través de servidors i motors de cerca de propietat
    🙂

    Seguiré atenta a les vostres aportacions!

    Mercè

    VA:F [1.9.22_1171]
    Rating: 4.0/5 (2 votes cast)
    1. Mercè, una pràctica a l’assignatura d’Intel·ligència Artificial a la Facultat d’Informàtica consistia precisament en classificar les notícies a per exemple esports -> futbol, esports -> tenis, economia, societat, etc… És cert que era complicat, però Déu-ni-do si vam obtenir resultats, sempre basant-nos en una taula de puntuacions de les paraules. Pel cas dels nostre amics, alguna cosa sí que penso que podria fer-se. Desconec les eines que he trobat al petit recull, però Google Refine m’ha semblat molt interessant i per la visualització geocommons també té molt bona pinta.

      VA:F [1.9.22_1171]
      Rating: 4.0/5 (1 vote cast)
      1. Josep Anton, si era a partir d’una mena de tesaurus o taxonomia preestablerta o llenguatge precoordinat, sempre va molt millor… En el cas que esmento, calia demanar a la màquina que trobés les notícies a través de paraules clau, i no es podia abordar a través de categories temàtiques… I ja era complicat determinar la cerca per secció, perquè els diaris moltes vegades no tenen els mateixos criteris pel que fa al tipus de notícies i denominació d’una secció… Però gràcies, és bo saber que les classificacions ajuden!

        VA:F [1.9.22_1171]
        Rating: 0.0/5 (0 votes cast)
  4. Tanto para análisis como para visualización de resultados propongo el programa R, siguiendo en la línea de software libre.

    VA:F [1.9.22_1171]
    Rating: 4.7/5 (3 votes cast)
    1. Hola,

      en mi caso, también me parece interesante aplicar la práctica a R Project.

      VA:F [1.9.22_1171]
      Rating: 5.0/5 (1 vote cast)
        1. hola a tots,

          R és un monstre (en el bon sentit de la paraula) que permet fer qualsevol cosa, des d’estadística bàsica fins a construir models complexes, donat que es pot programar i té un munt de llibreries per fer, virtualment, de tot

          hi ha un munt de recursos sobre R, tutorials, cursos, etc., no els desaprofiteu!

          salutacions

          Julià

          VN:F [1.9.22_1171]
          Rating: 0.0/5 (0 votes cast)
  5. Jo també vaig el MOOC de Weka al novembre. El vaig trobar interessant. I potser coincideixo amb en Francesc.

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (2 votes cast)
  6. Hola,

    He recuperat els apunts del curs de Big data que vaig fer l’any passat. En aquest curs bàsicament vam tractar els aspectes generals del Big Data i les Bases de Dades Nosql, concretament vam treballar amb Hadoop.
    He vist que com a eines per fer les queries o captura de dades es van mencionar:
    REST, Avro i Thrift. Les dues darreres són d’Apache i Avro suporta per exemple JSON.
    Una altra eina per fer anàlisi de gràfics és Cypher.
    No us puc explicar massa d’aquestes eines perquè només es van anomenar i no vaig treballar amb elles i tampoc sé valorar si són apropiades pel cas que ens ocupa, però m’ha semblat interessant afegir-les a la llista.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. gràcies, Josep Maria

      jo sóc fan de tabula, soluciona un munt de problemes amb documents antics als quals no es pot accedir de cap altra manera que en PDF, l’afegiré a la llista d’eines!

      pel que fa a ifttt (if-this-then-that) ho trobo genial, permet automatitzar molts processos com ara fer un tuit al penjar un post, etc., és a dir, executar accions en funció d’una acció prèvia; el problema és que és lent, pot trigar minuts en executar-se i algunes coses perden sentit aleshores; sigui com sigui, us recomano que li doneu una ullada!

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  7. Si em centro en el punt 2 del que es demana, només se m’acut que, mitjançant aquest tipus d’eines que comenteu (les quals no en conec gaire res) per a analitzar la informació, l’únic criteri que se m’acut per a saber l’importància de les notícies en el tema dels amics, és sobre la repetició d’una paraula. Així doncs, segons si es repeteix molt una temàtica, podem veure com d’important (o actual) és una notícia.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  8. Per reempendre l’enfocament al punt segon que fa en Sergi, i en el procés de detecció de les paraules més important d’una notícia, jo seguiria la lògica següent:

    1.- Anàlisi: per exemple, com exposa el Sergi, mirant la repetició d’unes determinades paraules en les noticies a les que tenim accés.

    2.- Captura: faria servir alguna eina per capturar el flux a twitter i facebook, per corroborar que la gent en parla i en quina “quantitat”

    3.- Procés: combinaria les dades obtingudes de les captures amb les dades extretes de les noticies a les que tenim accés en el recull. A partir d’aquí, decidiria, per exemple, la importància de les noticies per servir-les en un determinat ordre o per filtrar-les en funció d’un target de clients específics. I per què no? crear un nou servei de titulars o d’actualitat vinculat a la repetició d’una determinada paraula o la seva proliferació a la xarxa en un determinat temps proper.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  9. JO he fet aquest trimestre un MOOC a France Universitée Númérique d’Ontroducció a l’estadística amb R i la veritat (a banda de repassar conceptes estadístics) m’ha sorprès molt les possibilitats del programa.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  10. Escriure des del smartphone, fatal …

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  11. Afegeixo al llistat algunes eines i recursos, d’ús relativament senzill, i que em sembla que encara no han aparegut:

    Google Public Data : aplega dades públiques d’organitzacions i institucions internacionals

    Tableizer: eina que permet copiar cel·les d’un Excel/Google Drive i transformar-ho a html.

    Dipity, per a la creació de línies de temps.

    Simile Widgets, widgets d’ús lliure per a les visualitzacions de conjunts de dades.

    Mapbox, edició i customització de mapes

    Personalment, m’agradaria aprendre com funciona el Google Refine i Tableau Public. De moment només n’he vist algun exemple però encara mai m’hi he posat a treballar.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *