Arxiu de la categoria: Setmana 1

Resum 1a setmana

benvolguts / benvolgudes,

acabarem aquesta primera setmana (ens solaparem amb la segona) amb un resum del que hem vist fins ara i fent un debat al voltant de la qüestió “per què dades obertes”? Com jo sempre responc quan em fan justificar quelcom obert, “i per què no?”, per què “tancat” ha de ser l’estat natural de les coses? especialment si el significat d’obert va associat a lliure.

Vàrem començar la setmana amb l’exemple dels nostres quatre amics (que ampliarem ben aviat) que ens va servir com a escenari per definir què vol dir “obert”. Hem vist que un contingut (p.e. dades) és més obert mentre menys restriccions o barreres trobem per executar les 5 Rs: reutilitzar, revisar, remesclar, redistribuir i retenir. Aquestes barreres són, principalment, tecnològiques i legals, però també pot haver-hi d’altres causades per manca de voluntat (política), coneixement, etc.

Després hem intentat definir què entenem per “dades”. Tots tenim al cap una idea de taules que descriuren elements (files) amb un o més valors (columnes), però les dades poden presentar-se amb estructures més o menys complexes. El format taula ens és útil per tenir una imatge “estàtica” d’un conjunt de dades, però com ja veurem, les dades poden tenir diferents origens i presentar-se en multitut de formats com, per exemple, els tuits del flux de Twitter.

Hem vist també que, sense context, una dada no ens diu res; és necessari poder dotar les dades d’un context precís per poder convertir-les en informació útil que respongui a una pregunta concreta. La combinació de diferents fonts d’informació (usant tècniques estadístiques i mineria de dades) ens pot permetre extreure i crear coneixement que ens resulti útil per conèixer i millorar un escenari concret. Així, hem de poder descriure el context d’aquestes dades, assegurant-ne la seva precisió, rang, unitats, etc. Sense context, 42 és només 42, no ens resulta útil per a res.

Finalment, hem vist que les dades són un cub de tres dimensions que pot crèixer fins una mida considerable, parlant aleshores del que es coneix com a Big Data en base a les 3 Vs. Si el volum de les dades (el número d’elements que tenim), la seva varietat (el número de valors que usem per descriure-les) i/o la seva velocitat (com de ràpidament canvien aquests valors) són molt grans, ens trobem amb la necessitat d’haver de manipular uns nombres que poden estar fora de mida, especialment si per “molt gran” entenem “tot”, una de les idees darrera de Big Data: perquè hem d’analitzar una mostra de les dades si podem tenir acces a totes les dades? Això pot fer canviar la manera com s’aborda la seva anàlisi, tot i que ja hi ha qui adverteix de que no podem oblidar-nos dels coneixements estadístics relatius a la relació entre la mida de la mostra (les dades que tenim) i la població (totes les dades que podríem tenir). No obstant això, avui dia la possibilitat (bàsicament tecnològica) d’analitzar ingents volums de dades permet extreure coneixement que abans era impossible d’obtenir, com fa Google, per exemple, quan prediu (correcta o incorrectament) les epidèmies de grip en funció de les cerques dels usuaris.

Per acabar amb aquesta primera setmana, us proposo llegir el Decálogo Open Data (no ens hauria de costar gaire traduir-lo al català, algun voluntari?), el qual veureu que recull molts (per no dir tots) dels requeriments que hem discutit en la nostra definició de dades obertes. El decàleg descriu la situació ideal per a promoure l’ús de dades obertes. Veureu que aquest curs coincideix plenament amb un dels 10 11 punts del decàleg, el número 9, i també una mica en el número 10. Per altra banda, no us preocupeu si apareixen termes que encara no us són familiars (p.e. API), els treballarem en les properes setmanes i també els podeu trobar al glossari.

Però més que discutir sobre el decàleg, amb el qual suposo que la majoria de vosaltres estareu d’acord (si no és així no dubteu en fer el comentari adient!), voldria plantejar-vos la següent qüestió:

Per què dades obertes ara? Per què no ho hem fet abans? Bé que les dades han existit sempre, no? Per què tot just fa un o dos anys se’n parla? En quin punt de la corba dels “hypes” estem (per cert, qui ho tradueix al català, i em refereixo també a la pàgina de la Wikipedia)? De les cinc fases d’aquesta corba (el llançament, el pic de les expectatives inflades -és a dir, les dades obertes salvaran al món-, l’abisme de la decepció -quan descobrim que no podem salvar el món amb les dades obertes-, la rampa de consolidació i, finalment, la zona de productivitat), on penseu que estem? Finalment, quins avantatges (i potser inconvenients?) ens portar l’ús massiu de dades obertes?

corba dels "Hypes"

Basada en la imatge original de Jeremykemp a en.wikipedia CC-BY-SA.

Vinga, espero les vostres aportacions!

Salutacions cordials,

Julià

VN:F [1.9.22_1171]
Rating: 8.6/10 (10 votes cast)