Resum 3a setmana

benvolguts / benvolgudes,

tot i que tenim encara un parell de debats i activitats en actiu on podeu continuar fent les vostres aportacions, toca tancar aquesta tercera setmana on hem començat a parlar dels aspectes tecnològics que envolten a les dades obertes.

Hem vist que per publicar dades en obert no n’hi ha prou en penjar-les a la web amb una llicència que ens permeti aplicar les 5Rs. De fet, alguna de les 5Rs pot veure’s limitada en funció de com s’hagin publicat les dades en obert. Si estem pensant en un accés estàtic (és a dir, a una “fotografia” de totes les dades en un moment donat) a un fitxer, aquest hauria d’estar en un format que faciliti la seva reutilització, podent accedir als continguts de forma senzilla. Així, hem vist que hi ha un model de 5 estrelles que ens diu que hem de publicar fitxers en format CSV com a mínim (el tercer nivell), de forma que podem manipular-los sense haver d’usar cap programari propietari que ens obligui a disposar d’una llicència. L’ús de formats com ara XLS (o, pitjor encara, PDF o HTML) per publicar dades hauria d’anar-se reduint, especialment per l’increment en l’ús d’un format com JSON que hem vist que permet representar millor l’estructura de les dades que no pas un fitxer CSV, on tots els camps estan al mateix nivell.

Per altra banda, també hem vist que accedir a tot un conjunt de dades de cop pot ser ineficient: potser no ens interessa tota la informació, sino només un subconjunt de files i/o columnes d’acord amb uns criteris de cerca. Aquest accés dinàmic basat en cerques és el primer pas cap a un veritable servei de dades obertes, on els usuaris i, més important encara, les aplicacions poden accedir només a allò que els interessa, mitjançant l’ús d’una interfície de cerca o una API, respectivament. Hem pogut comprovar amb l’exemple dels equipaments de la Generalitat de Catalunya que la precisió de les dades esdevé clau per poder localitzar-les després, especialment quan estem usant descriptors textuals.

De fet, és la possibilitat d’accedir a dades d’origens diferents mitjançant les seves APIs respectives el que pot crear coneixement i afegir valor. La R de remesclar és, en aquest sentit, la més interessant. En el cas dels nostres amics, els reculls de notícies podríen ser un punt de partida per a crear, per exemple, uns resums multimèdia especialitzats per temàtiques, en funció de les necessitats de cada usuari. Aquests reculls podríen actualitzar-se en funció de diferents canals com ara Twitter o Facebook, alimentar-se d’imatges a Flickr o de nous continguts a Wikipedia.

La propera setmana continuarem amb els aspectes tecnològics, on veurem diferents eines que ens permeten convertir formats, capturar dades de formats no oberts, accedir a dades estructurades, fusionar dades de origens diferents, etc.

Salutacions,

Julià

 

VN:F [1.9.22_1171]
Rating: 9.8/10 (5 votes cast)
Resum 3a setmana, 9.8 out of 10 based on 5 ratings

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *