Aspectes tecnològics

benvolguts / benvolgudes,

aquestes properes dues setmanes comencem amb els aspectes tecnològics associats a l’obertura de dades, per acabar mostrant un conjunt d’eines que són útils per a la seva manipulació. En aquesta primera setmana ens centrarem més en les dades i els formats per al seu emmagatzemament i accés. Per fer-ho comptarem amb en David Ayala, responsable tècnic del projecte de dades obertes de la Generalitat de Catalunya.

Hem vist que per a poder dir que les dades són obertes hem de poder executar les 5Rs, és a dir, accedir-hi, manipular-les i redistribuir-les, sense impediments legals ni tecnològics. Suposarem ara que tenim els aspectes legals resolts, i ens centrarem en els aspectes tecnològics que cal tenir en compte. Quins són?

Per introduir els conceptes relacionats amb aquests aspectes tecnologics continuarem amb l’exemple dels nostres amics, concretament amb la base de dades (o col·lecció) on guarden els reculls de notícies. Suposant que vulguin compartir la informació recollida, veiem que tenen cinc opcions (o més aviat, nivells) per a publicar-les en la web amb l’objectiu de compartir-les:

  1. Com un document en qualsevol format (p.e. un document Word, un PDF o fins i tot una imatge).
  2. En un format amb una certa estructura (p.e. un fitxer Excel).
  3. Com (2) però en un format no propietari (p.e. un fitxer separat per comes –CSV-).
  4. En un format estructurat no propietari que inclogui informació sobre les dades per a poder-les identificar i enllaçar.
  5. Finalment, com (4) però afegint també referències a altres conjunts de dades.

Aquests cinc nivells són el que es coneix com esquema de les 5 estrelles i defineixen el camí desitjat cap el concepte de linked data que discutirem properament (qui s’anima a millorar la versió catalana en la Viquipèdia?). Segurament els tres primers nivells us resulten familiars i els darrers dos no tant. De fet, els nostres amics pensen que segurament és suficient amb el tercer nivell, anem a veure perquè.

El primer nivell vol dir, senzillament, posar les dades a disposició del públic en general. Ara, si resulten útils o és senzill accedir-hi és una altra qüestió. Imagineu-vos que els nostres amics escriuen en un paper els enllaços, transcripcions, paraules clau, etc. de les notícies que han vist en els mitjans, fan una fotografia del paper o bé l’escanegen i pengen la imatge en la web. Evidentment tota la informació de les notícies és visible i “accessible” o “reutilitzable” pels usuaris que descarreguin la imatge, però és un sistema clarament poc útil:

  1. Com trobar les notícies associades a un cert tema? Cal “llegir” tota la imatge per localitzar-les.
  2. Com actualitzar un recull? Van generant una imatge similar cada dia?
  3. Com podem extreure la informació dels reculls per saber, p.e., l’interés que desperta al llarg del temps? I no fer-ho ells, sino permetre que ho faci un ordinador. Caldria que l’ordinador reconeixi la seva escriptura, el que és possible però inviable i, sobretot, innecessari.

Doncs bé, no us penseu que és un exemple forçat; no penseu en una imatge, penseu en un document PDF amb taules. De fet, la forma més senzilla de posar dificultats per a la reutilització d’informació i alhora poder dir “jo publico en obert” és quedar-se en aquest primer nivell. Segur que podeu trobar (i compartir-los amb un comentari) un munt d’exemples d’administracions que publiquen dades en només format PDF. Una cosa és compartir dades i una altra és compartir dades obertes!

És per això que hem d’arribar al tercer nivell com a mínim: els nostres amics volen compartir la informació de forma que sigui senzill manipular-la, sense obligar a l’usuari final a disposar d’un programari específic amb llicència. Formats oberts n’hi ha molts, depenent del tipus d’informació que s’emmagatzema.

Usant les dades de l’exemple del perfil dels participants de la 1a edició del curs, la diferència entre el primer nivell i el tercer és la diferència entre compartir això i això.

Amb la idea de descobrir entre tots què vol dir arribar a tenir 4 o 5 estrelles per les dades obertes dels nostres amics, us plantejo la següent qüestió: publicar el document CSV amb els reculls de notícies, és suficient? Quines limitacions encara no queden resoltes al publicar les dades com un document en format CSV? Com gestionar l’estructura de dades (és a dir, la informació que s’emmagatzema en cada recull) que vàrem descriure aquí?

Vinga, espero les vostres aportacions!

Salutacions cordials,

Julià

VN:F [1.9.22_1171]
Rating: 8.6/10 (5 votes cast)
Aspectes tecnològics, 8.6 out of 10 based on 5 ratings

30 pensaments a “Aspectes tecnològics”

  1. Publicar el document CSV amb els reculls de notícies, és suficient?

    És suficient o minímament suficient perquè amb aquest conjunt de dades ja pots començar a tenir a l’abast per poder-les tractar posteriorment amb programari. Amb una fotografía no és possible.

    Quines limitacions encara no queden resoltes al publicar les dades com un document en format CSV?

    Les limitacions que té publicar en un format com aquest poden ser diverses. És un gran volum de dades i es necessita un programa addicional per a poder analitzar, visualitzar o filtrar les dades

    VA:F [1.9.22_1171]
    Rating: 4.0/5 (1 vote cast)
    1. vinga, Juanjo, mulla’t una mica més (ens coneixem personalment, per això l’apreto)

      per exemple, com emmagatzemes una imatge part d’un recull en un fitxer CSV? què estem emmagatzemant exactament?

      gràcies

      Julià

      VN:F [1.9.22_1171]
      Rating: 4.0/5 (1 vote cast)
      1. Per emmagatzemar una imatge àrt d’un recull en un fitxer csv pots emmagatzemar diferents coses. Entre d’altres metadades tant tècniques, con descriptives. A tall d’exemple:

        1.-el nom i format de la imatge

        2.-metadades exif. En les metadades exif pots tenir diferents informacions. Des de la data de creació, obturador, flash o inclús el programa amb el què està fet.

        http://es.wikipedia.org/wiki/Exchangeable_image_file_format

        http://www.sno.phy.queensu.ca/~phil/exiftool/ (eina que extreu metadades de la major part de càmares comercials)

        3.-Si la imatge amb el recull surt d’alguna web també guardaràs l’enllaç origen d’on surt. Tot això separat per comes.

        el que no podràs fer serà extreure el text, tret que no empris una eina d’OCR que et permetrà reconèixer el text i tenir-lo també separat per comes. I aquí la cosa es complica perquè si l’OCR no es prou bó, la imatge cal revisar-la a mà

        Ja m’he mullat! 🙂

        VA:F [1.9.22_1171]
        Rating: 5.0/5 (2 votes cast)
  2. Aviat en començat a llegir l’entrada d’avui sobre aspectes tecnològics he pensat en el format XML, el format XML permet intercanviar dades fàcilment mantenint una estructura. Perfectament es podria arribar als nivells 4 i 5.

    Per tant per mi publicar el document CSV amb els reculls de notícies no és suficient. No quedaria ben resolt el tema de l’estructura com es passen les dades.

    Per tant a la pregunta de com gestionar l’estructura de dades (és a dir, la informació que s’emmagatzema en cada recull) se m’ocorre que l’XML podria ser una bona solució.

    En Julià ha demanat després que com s’emmagatzema una imatge, això ja no ho sé ben bé…

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (1 vote cast)
    1. Perfecte Josep Anton: el que comentes de l’XML és molt important (estructura) al que sumaria el següent: semàntica. Tot i que en el CSV podríem aplicar certa semàntica (què vol dir cada columna), en l’XML podem vincular un “esquema” que descrigui les dades (per exemple el tipus de dades: si és numèrica, data, text, …) a més de l’estructura que ens permet establir relacions entre dades.

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  3. En l’exemple del amics caldrà incloure a la base de dades camps tipus link cap a les notícies i també cap a les imatges , vídeos o gràfics.

    Per tant millor que CSV seria utilizar el llenguatge XML que permet estructurar les dades i segueix els estàndards del desenvolupat pel W3C, sent un estàndard per a l’intercanvi d’informació estructurada entre diferents plataformes.

    Pel que fa a la diferència entre dades estructurades i no estructurades un bon exemple seria la informació que es penja a la Història Clínica Compartida de Catalunya (HC3) que sense ser dades obertes públicament si que es oberta i permet transparència d’informació entre els professionals sanitaris.

    D’inici es compartien PDF d’informes i proves diagnòstiques i només era possible llegir-ho. Ara s’avança cap les dades estructurades utilitzant estàndards, per tant es permet treballar amb les dades. O sigui es passa d’una estrella a 4 estrelles (o 5 ? )

    VA:F [1.9.22_1171]
    Rating: 4.0/5 (2 votes cast)
    1. Com dius, suposo que les dades queden per a professionals sanitaris.

      Si les dades estan estructurades (cada dada perfectament delimitada i permet dades complexes relacionades) i tenen semàntica (sé què vol dir cada camp de dades) estaríem parlant de 4 estrelles.

      Si a més, al punt anterior, li afegim que aquestes dades estan relacionades amb unes altres (per exemple, si una persona està diagnosticada d’una malaltia i “enllacem” aquesta malatia amb un catàleg de malalties i tractaments), estaríem parlant de 5 estrelles.

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  4. Fatal els links … m’he deixat alguna cometa pel mig i no he tancat bé …

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  5. En cuanto a formatos, CSV es el más usado, para ponerlo en nuestro excel y jugar. Pero es limitado, para poner estructuras complejas.
    Para ello mejor el XML.
    Pero aún mejor, JSON, que está siendo empleado masivamente.
    De hecho, la base de datos mongodb estábaso en JSON.

    En cuanto a imágenes relacionadas con datos, se me viane a la cabeza los códigos QR, pero no sé si esto es acertado.

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (1 vote cast)
    1. Hola Jose María,

      cierto. JSON se está conviertiendo (o mejor dicho, se ha convertido ya) en el formato de facto para intercambio de datos entre servicios. Las ventajas respecto a XML es que es más ligero y permite representar los datos directamente como lo que son (números, fechas, texto, objetos, arrays, …). Es directamente interpretable en páginas web con html/javascript y para su procesamiento en lado del servidor, prácticamente todos los lenguajes también lo manejan de manera nativa .

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  6. En l’exemple del amics caldrà incloure a la base de dades camps tipus link cap a les notícies i també cap a les imatges , vídeos o gràfics.

    Per tant millor que CSV seria utilizar el llenguatge XML que permet estructurar les dades i segueix els estàndards del desenvolupat pel W3C , sent un estàndard per a l’intercanvi d’informació estructurada entre diferents plataformes.

    Pel que fa a la diferència entre dades estructurades i no estructurades un bon exemple seria la informació que es penja a la Història Clínica Compartida de Catalunya (HC3) que sense ser dades obertes públicament si que es oberta i permet transparència d’informació entre els professionals sanitaris.

    D’inici es compartien PDF d’informes i proves diagnòstiques i només era possible llegir-ho. Ara s’avança cap les dades estructurades utilitzant estàndards, per tant es permet treballar amb les dades. O sigui es passa d’una estrella a 4 estrelles (o 5 ? )

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  7. Coincideix amb l’Ester i en Joan amb lo de l’XML. Crec que és el millor format, el que permet compartir millor les dades.

    Una altra alternativa, força menys sofisticada, seria compartir les dades en algun servei en el núvol, com GoogleDrive, que permetés actualitzar-les constantment i descarregar-les en diferents formats (.xls, .ods, .csv, .tsv, .html, etc.).

    Una abraçada!

    VA:F [1.9.22_1171]
    Rating: 3.0/5 (1 vote cast)
  8. L’Ajuntament de Barcelona utilitza els següents formats: OData, CSV, XLS, PDF i ZIP. Per què hi ha tanta varietat? Quina és la millor opció?

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (1 vote cast)
    1. Hola Salvador,

      com comenta el Julià, no sé si serà per temes històrics o perquè els clients encara demanen les dades en excel, que segur que també n’hi ha.

      Destacar que OData no és un format, és un protocol (llenguatge i regles per intercanviar informació entre sistemes informàtics, podríem dir) que pot retornarn-nos les dades en diferents formats (XML, JSON, CSV, …). És important diferenciar això, tot i que en els propers dies, quan parlem d’APIs, crec que quedarà més clar.

      Salut,
      David

      VN:F [1.9.22_1171]
      Rating: 5.0/5 (2 votes cast)
  9. hola, Salvador

    de dades n’hi ha moltes i de molts tipus, cada format intenta aprofitar al màxim l’estructura interna de les dades per ser el més eficient possible i alhora poder facilitar les operacions que es volen fer amb les dades; p.e. el format CSV/XLS està orientat a files/columnes de forma que sigui fàcil manipular-les, mentre que el format PDF està orientat a assegurar una impresió independent del dispositiu; el format ZIP és un recurs per comprimir un fitxer molt gran i fer-lo més manegable

    el problema com bé dius és barrejar-ho tot, especialment CSV i XLS, quan amb el primer ja hauria de ser suficient; perquè apareixen encara fitxers en format XLS? no ho sé, ignorància? desidia? dades que han quedat penjades i ara no hi ha temps/interés en actualitzar-les?

    és un bon exemple de “caos”, segur que en trobeu més!

    salutacions

    Julià

    VN:F [1.9.22_1171]
    Rating: 4.5/5 (2 votes cast)
  10. Fora de consideracions de formats, que coincideixo que l’XML en podria ser una bona alternativa per a poder arribar a complir tots els punts, m’he imaginat com d’útil en podria arribar a ser arran d’una experiència personal:

    -Després de passar-me uns quants dies fent tràmits al meu ajuntament (algun dels quals em vaig passar hores a la sala d’espera, fins al punt d’anar a buscar els apunts de l’universitat i fer feina allà mateix), l’implementació i utilització de dades obertes en la pròpia administració pública (així com el consens entre formats) faria que els tràmits es fessin, molt, molt més ràpid, i d’una manera ben senzilla (vaig acabar mig marejat de la de voltes i oficines que he hagut d’anar visitant).

    Així doncs, encara queda molt per fer, sobretot tenint en compte que, si la gent sent parlar de dades obertes o similars, o no en saben res (i tenen aquella “por” al que és desconegut), o directament es posen les mans al cap i pensen en hackers, o a saber!

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (1 vote cast)
  11. Hola,
    he llegit atentament les vostres preferències per a l’XML, i penso que deveu tenir raó.

    Ara, en un primer moment, jo pensava en una base de dades, com a mínim relacional, tipus ODB (format obert), per poder gestionar els textos, imatges i potser audios… Suposo que aniria associada a algun llenguatge de programació, SQL o d’altres per a fer-la visible al web…

    En fi, seguiré atenta al que dieu, i miraré si puc traduir algun dels textos de la Wikipedia que suggereix en Julià.

    Fins ara!

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  12. El CSV no és un mal format per a l’intercanvi de dades però, els formats basats en XML permeten introduir elements semàntics i aplicar-hi transformacions, les quals permeten que a partir de les dades originals n’obtinguem vistes de diferents tipus de forma senzilla. A més, els formats basats en XML, com són els de sindicació de continguts (Atom/RSS) permeten monitoritzar els canvis que hi ha a les dades -hi ha moltes eines que llegeixen canals de sindicació-. Amb això no només podem obtenir les dades si no tenir coneixement dels darrers canvis de forma periòdica.

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (1 vote cast)
  13. l’XML té una pega. És estructurat i tot el que sugui. Però ha d’estar ben estructurat i validat. És a dir necessites un altre document al darrera que et permeti validar correctament l’XML,. Necessites un dtd, un validador, etc. Això és el què et permetrà com ja han dit abans alguns companys tenir millor estructurada la informació d’un recull de notícies.

    Amb el tema de JSON ja no estic tant d’acord. No és un format d’estructuració de dades propiament.

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (1 vote cast)
  14. Com que ja heu parlat sobre XML i JSON (amb els que estic força d’acord), obriré una nova línia dins aquest debat: Què tal si ens mirem els aspectes tecnològics de les dades obertes des del punt de vista de l’usuari?

    Si els nostres amics pretenen difondre les noticies al major nombre d’usuaris possibles, dubto que la gran majoria tingui capacitats per a gestionar XML o JSON. Entenc que els nostres amics poden fer-ho amb les seves fonts. Però quan volen “facilitar obertament” les dades a tercers, haurien de definir bé el seu target. I si aquest és molt variat, han de valorar totes les opcions.

    Malgrat l’ideal pot ser arribar a les 5 estrelles, crec que la solució pot quedar coixa si no es garanteixen formats gestionables per la majoria del públic objectiu al que s’adrecin les dades obertes. I des d’aquesta perspectiva (i sent “opensourcement irreverent i incorrecte”) valoro les solucions Excel i PDF com a fonamentals dins el projecte dels nostres amics.

    D’acord. Em podeu lapidar per la meva afirmació. Però no està renyida amb l’anhel d’assolir:
    a) El màxim nivell d’obertura (i alliberament) de dades
    b) La capacitació màxima de la població
    c) L’accés del màxim d’usuaris a les fonts d’informació.

    I penso que cal facilitar el màxim de formats possibles també per donar llibertat d’escollir a l’usuari que fer amb les dades. Encara que l’usuari sigui experimentat. Es també una qüestió de practicitat. Per exemple, està molt bé dissenyar aplicacions amb dades obertes i fer servir les “fusion tables” de Google o altres interficies. Però, un cop executada una cerca, ¿per què no puc emportar-me el resultat en un PDF consultable offline des del meu dispositiu mòbil sense connexió?

    “Experiència d’usuari”, “disseny centrat en l’usuari”,…… aquestes i altres expressions haurien de formar part dels aspectes tecnològics de les dades obertes.

    VA:F [1.9.22_1171]
    Rating: 4.7/5 (6 votes cast)
    1. Estic d’acord amb el que comentes. El meu perfil és usuari i només conec els formats Excel i PDF. Els altres formats potser els entendré quan conegui les aplicacions que els gestionen. Em sembla que no tots som informàtics en aquest curs.

      VA:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  15. Al meu entendre, el principal problema del CSV (deixant de banda el tema dels separadors), és que es tracta d’un format adequat per a taules de dades, o bases de dades planes.

    L’XML (el JSON el conec massa poc) permet dades amb estructura, però és molt més proper a les estructures de dades de programació (orientada a objectes) que a les bases de dades relacionals (taules relacionades). Hi ha algun bon format obert per a bases de dades relacionals? DB de SQLite? OPD? SDF? Algú té alguna experiència?

    Respecte a l’emmagatzematge de dades binàries en fitxers de text, entenc que el tema està resolt des de fa temps: codificar la informació com a caràcters imprimibles (Base64, UUEncoding, QPEncoding…).

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. hola, Jordi

      has esmentat una de les coses que esperava que sortissin: com s’emmagatzema una imatge (o en general un contingut “binari” / no textual)? els nostres amics han d’emmagatzemar els enllaços o bé les imatges, una opció en aquest segon cas sería usar el que esmentes, gràcies per l’apunt!

      de totes formes, és millor pujar la imatge a flickr, wikimedia commons o similar i enllaçar-la

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  16. M’ha agradat l’aportació d’en Jaume.
    Quan el format de les dades permeti afegir referències a altres conjunts de dades (5 stars) tindrem les dades més obertes, ja que permetran la màxima reutilització i podrem (podran els informàtics) desenvolupar nous productes molt divesos.
    L’únic problema és que quan més sofisticat sigui el format, menys gent l’enten i més es limita l’accés a la seva comprensió.
    Tothom sap que és un pdf i un XLS . Un JSON dubto que arribi al 20% dels usuaris d’internet (i crec que soc molt optimista).
    En aquest sentit crec que no està malament oferir els fitxers en diveros formats i que cadascú agafi els que li siguin més útils.

    VA:F [1.9.22_1171]
    Rating: 4.0/5 (1 vote cast)
    1. hola, Montse

      com pots veure a la pàgina web de la generalitat, normalment el mateix conjunt s’ofereix en diferents formats, de forma que l’usuari pot decidir quin li va millor; el problema, doncs, és mantenir tots els fitxers actualitzats i no generar inconsistències

      JSON s’està fent popular perquè cada cop més s’usa en aplicacions que comparteixen dades, així que millor si ens anem acostumant a usar-lo, al cap i a la fi és un format textual força “llegible” i fàcil d’editar

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  17. Pels vostres comentaris queda clar que, els que encara no el coneixem (més que d’oïda), haurem d’entrar al fabulós món de JSON.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. intenteu fer l’exercici que hem proposat en l’entrada següent i el coneixereu, Núria, no és pas reservat per a experts! 🙂

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  18. Tot això va molt ràpid, tant el curs com l’evolució de les dades.
    Jo de moment em moc entre el XML i el CSV, tot i que molts cops no saps com t’arribaran les dades.

    Sense conèixer el JSON crec que m’hauré de ficar de ple amb ell.

    Per cert un plaer llegir-vos a tots vosaltres, deu ni do les coses que queden per apendre

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *