Describint i enllaçant dades obertes

benvolguts / benvolgudes,

continuarem amb l’objectiu de complementar l’entrada anterior sobre millorar la descripció de les nostres dades, tan pel que fa a la seva descripció interna com a la possibilitat d’enllaçar amb dades de tercers. Aquest entrada també inclou detalls molt tècnics però no deixeu que això us faci enrera! No dubteu de preguntar qualsevol detall que no us quedi clar.

Hem preparat un petit vídeo que mostra com podem usar l’API de flickr per accedir a fotografies a partir de la concatenació de diferents crides. En particular, el vídeo mostra com, manualment, podem reproduir els passos que faria una aplicació per fer cerques a flickr i obtenir fotografies, utilitzant com a partida dades dels equipaments de la Generalitat de Catalunya. Els nostres amics podrien complementar els reculls de notícies buscant fotografies d’aquesta manera.

Suposem que volem fer un recull de notícies sobre els refugis de muntanya de Catalunya, de forma que els usuaris puguin tenir informació sobre els refugis per endavant i poder fer-se una idea del que es trobaran. Suposem també que hem obtingut les dades dels equipaments en qualsevol format, incloent-hi la seva geolocalització (és a dir, latitud i longitud). El que mostra el video és com usar l’API de flickr per cercar fotografies al voltant d’un punt geolocalitzat dintre d’un radi determinat, filtrant els resultats de forma que només obtinguem, esperem, imatges de refugis. Concretament (però a l’atzar), hem cercat el Refugi del Gresolet, al Berguedà, el qual dintre del fitxer d’equipaments està descrit de la següent manera, utilitzant XML (no us preocupeu si no enteneu tot el que apareix a continuació, a banda de que aquest format de blog no permet visualitzar-lo correctament, si la voleu descarregar la teniu aquí):


<v:VCard rdf:about="#99f445e688f1a210VgnVCM1000008d0c1e0aRCRD">
<v:fn xml:lang="ca"><![CDATA[REFUGI DEL GRESOLET]]></v:fn>
<v:nickname xml:lang="ca"><![CDATA[REFUGI DEL GRESOLET]]></v:nickname>
<v:adr>
<rdf:Description>
<v:street-address><![CDATA[Forestal de Saldes a Gisclareny]]></v:street-address>
<v:locality><![CDATA[Saldes]]></v:locality>
<v:postal-code><![CDATA[08697]]></v:postal-code>
<v:region><![CDATA[Berguedà]]></v:region>
<v:country-name>Spain</v:country-name>
<rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Work"/>
</rdf:Description>
</v:adr>
<v:geo>
<rdf:Description>
<v:latitude rdf:datatype="http://www.w3.org/2001/XMLSchema#double">42.259893215</v:latitude>
<v:longitude rdf:datatype="http://www.w3.org/2001/XMLSchema#double">1.725382602</v:longitude>
</rdf:Description>
</v:geo>
<v:tel>
<rdf:Description>
<rdf:value><![CDATA[93 744 11 02]]></rdf:value>
<rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Tel"/>
<rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Pref"/>
<rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Work"/>
</rdf:Description>
</v:tel>
<v:url><![CDATA[http://www.refugidelgresolet.com/]]></v:url>
<v:category xml:lang="ca">Equipaments</v:category>
<v:category xml:lang="ca"><![CDATA[Esport_i_lleure]]></v:category>
<v:category xml:lang="ca"><![CDATA[Installacions_esportives]]></v:category>
<v:category xml:lang="ca"><![CDATA[Area_d_activitat_esportiva]]></v:category>
</v:VCard>

La capçalera del fitxer d’equipaments en aquest format ens diu el següent:

<?xml version="1.0" encoding="UTF-8"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:v="http://www.w3.org/2006/vcard/ns#" xml:base="http://opendata.gencat.cat/recursos/equipaments/vcard">

La primera línia ens diu que es tracta d’un fitxer XML, codificat amb UTF-8. La segona línia és més interessant, es tracta d’un fitxer RDF que defineix tres elements: primer, que tot allò que comenci amb “rdf:” (com ara rdf:type) està descrit d’acord a un namespace definit per el W3C (veieu el glossari); segon, que tot allò que comenci per “v:” també està descrit per un altre namespace (de forma equivalent) i, finalment, que totes les referències que apareixen al document són relatives a la URL indicada. Què vol dir tot això? Doncs que els elements que apareixeran més endavant en el document (cadascun dels equipaments) està descrit utilitzant estructures predefinides, és a dir, estàndars que són usats (i entesos) per tercers, el que fa que aquestes dades siguin més fàcilment manipulables i enllaçables, especialment per altres aplicacions.

Com veureu, cada equipament està identificat per un codi (en negreta) i descrit com una VCard (un altre voluntari per traduir al català la pàgina de la Wikipedia?), un format estàndar per a targetes de negoci, que inclou els camps habituals: nom, adreça, telèfon, etc. però també d’altres com la seva geolocalització, que hem també marcat en negreta. Sense entrar en detalls, podeu veure que tan la latitud com la longitud estan definides com a double, un tipus de dades per a emmagatzemar números decimals amb suficient precisió. D’aquesta manera, les aplicacions saben que per manipular la longitud i la latitud han de fer-ho amb un tipus de dades double (o equivalent) per no perdre resolució en la localització d’un punt.

Com a detall interessant, observeu què ha passat amb l’accent de “Berguedà”; en algun moment del simple procés de descarregar el fitxer XML original, obrir-lo amb un editor de text i fer “cut & paste” a l’editor del blog, ha causat que la informació original, representada amb una codificació concreta, s’hagi vist alterada.

Tornant al vídeo, els passos mostrats són els següents:

  1. Sel·leccionar un equipament concret i obtenir la seva geolocalització (latitud i longitud).
  2. Cercar a flickr mitjançant l’API flickr.photos.search els identificadors de les fotos geolocalitzades que es troben dintre d’un radi al voltant del punt indicat.
  3. Cercar també a flickr mitjançant l’API flickr.photos.getInfo la informació relativa a cadascuna de les fotografies trobades en el pas anterior.
  4. Finalment, amb la URL indicada a cada fotografia, accedir-hi per poder visualitzar-la i/o descarregar-la.

Us proposo el següent:

1) Visualitzeu el vídeo per veure les possibilitats que ens ofereix l’ús d’una API com la de flickr per enriquir un conjunt de dades com ara el d’equipaments de la Generalitat de Catalunya i, de retruc, els reculls de notícies dels nostres amics.

2) El vídeo només mostra una ínfima part de les possibilitats de l’API de flickr. Quines altres cerques o quins altres paràmetres de cerca podríem haver usat? I a banda de flickr, podríem haver afegit informació dels equipaments d’alguna altra font (quina)?

3) Finalment, el vídeo omet algun detall important sobre les fotografies que trobem mitjançant el mecanisme descrit. A què ens referim? (pista: reviseu els aspectes legals dels quals parlavem en una entrada anterior).

Vinga, espero les vostres aportacions i comentaris al respecte!

Salutacions,

Julià

VN:F [1.9.22_1171]
Rating: 9.5/10 (2 votes cast)
Describint i enllaçant dades obertes, 9.5 out of 10 based on 2 ratings

10 pensaments a “Describint i enllaçant dades obertes”

  1. Hola,

    D’entrada l’API permet fer cerques de fotos que siguin públiques o no, amb l’atribut privacy_filter. Si no són públiques probablement no ens interessin. A més, el paràmetre de cerca license ens permet especificar una o més llicències per a les fotos que cerquem. Els valors que es poden posar són els que retorna el mètode flickr.photos.licenses.getInfo de l’API. Per exemple, si vull llicències Creative Commons Reconeixement o Reconeixement-CompartirIgual posaria els valors 4 i 5, separats per coma, corresponents als identificadors de les llicències. Això permet que la nostra cerca elimini dels resultats allò que sabem que no tenim permís per utilitzar o que no encaixa en les condicions legals dels continguts que volem relacionar.

    També es podria haver afegit a la cerca una o més etiquetes, utilitzant el paràmetre tag. D’aquesta manera es pot fer una cerca temàtica de les fotos, addicional a la resta de paràmetres.

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (2 votes cast)
  2. Penso que una font de la que hi podríem extreure informació, seria Google Maps. Allà també en podríem extreure les dades de latitud i longitud del lloc que ens interessa, i, posteriorment, utilitzar-ho a flickr i configurar-ho al nostre gust.

    Coincideixo que el que s’omet és el tema de les llicències, de la manera descrita en el vídeo, es pot acabar emprant una fotografia de la qual no se’n té permís, i és per això que s’ha de mirar quina llicència té la fotografia,

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. cert, Sergi, geolocalitzar la notícia seria molt interessant per situar-la al mapa i fer cerques de notícies “properes” en un sentit geogràfic

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  3. Seguint la línia de creuar informació de geolocalització amb Google, podríem escanejar el passat, descobrint altres successos en relació amb els temes de les notícies del repositori dels nostres amics en aquell indret concret (per exemple, rutes que s’han fet des d’allà, història de la contrucció del refugi, etc.)
    I també podríem avançar el futur trobant esdeveniments publicats que es durant a terme en aquell punt geogràfic i que estan relacionats amb les temàtiques de la noticia (per exemple, aplecs d’estiu, execució d’obres previstes,…)
    I per què, no? informar del present també a través d’enllaços amb dades de tercers (per exemple, estat dels accessos per carretera)

    VA:F [1.9.22_1171]
    Rating: 4.5/5 (2 votes cast)
  4. En la cerca falta la referència a la llicència que es pot obtenir del métode “flickr.photos.licenses.getInfo”, tal i com indica la documentació:

    license (Optional)
    The license id for photos (for possible values see the flickr.photos.licenses.getInfo method). Multiple licenses may be comma-separated.

    Els valors que indica el Manel es poden trobar aquí:
    https://www.flickr.com/services/api/flickr.photos.licenses.getInfo.html

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  5. Hola,

    com es veu a l’API de flickr, podríem haver utilitzar altres paràmetres de cerca, encara que no tots estan clarament identificats (cas de ‘media’, ‘sort’ -si és vídeo, album o foto?). Per exemple, podríem cercar: en un grup o contacte que disposa de les imatges; per usuari de la mateixa -que cal conèixer prèviament; per geo_context – algun pic o referència que conté el lloc que cerquem; o si es troba a getty o en la galeria d’un usuari, i també pel tipus de llicències que ens permet definir sempre que pengem una foto a Flickr.

    Possiblement el més clarament identificat sigui per lloc, etiquetes o paraules clau i el procés que hem seguit.

    Quant als equipaments d’una altra font, a part de Google maps, poden ampliar certa informació, d’altres fonts més pensades per a l’entorn natural o per al màrqueting. Penso en Wikiloc -amb fotos de rutes, punts d’interès cultural i natural, activitats possibles, comentaris- i, sé d’empreses que personalitzen rutes a mida en funció dels interessos dels usuaris, però això ja no és en obert…. També hi ha les xarxes socials com Foursquare, que detecten els locals i establiments que hi ha prop de la zona on es troba l’usuari, o dels rastres que va deixant a la xarxa…

    Aquests últims exemples, tot i que són més útils de cara al màrqueting, probablement també podrien ampliar la informació sobre notícies o informacions entorn dels establiments de la Generalitat.

    I finalment, quant als aspectes legals, Getty images ha obert part del seu arxiu de fotos, que són d’accés gratuït, però l’últim que en sé, és que no permet el copy and paste directe, sinó utilitza un sistema de visualització de Getty que conté el seu copyright. Això és independent de les llicències que cada usuari posi a les seves fotos de la seva galeria.

    Fins ara!

    VA:F [1.9.22_1171]
    Rating: 4.5/5 (2 votes cast)
  6. Bones,
    Trobo que potser el que s’hauria de fer amb les imatges i els videos és afegir metadades que informessin dels drets d’autor i que en fessin una descripció mínima: data, autor, coordenades X-Y-Z, i d’altres. Aquesta informació hauria d’anar lligada amb la imatge i que no es pugués desvincular.

    Salutacions,

    Josep Maria Sánchez

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. hola, Josep Maria

      “que no es pugués desvincular” és força complicat, si aquesta informació està en les metadades, malament, es poden canviar amb un simple editor; una opció seria “marcar” la imatge amagant aquesta informació, usant tècniques de watermarking (un cop més no tenim encara versió catalana a la Viquipèdia d’aquest concepte), però no és 100% fiable i caldria establir un estàndard per a poder compartir aquestes dades entre aplicacions

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 5.0/5 (1 vote cast)

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *