Accés estàtic o dinàmic a les dades

benvolguts / benvolgudes,

continuem definint termes que han començat a apareixer en la discussió anterior al voltant dels formats del fitxer. No deixeu de participar-hi!

Hem vist que els nostres amics podrien preparar i penjar un fitxer CSV a Internet, de forma que tothom pugui accedir-hi lliurement i reutilitzar la informació sobre els reculls de notícies. Aquest esquema planteja unes qüestions evidents, però:

  1. Cada quan de temps s’actualitza el fitxer CSV? Ens interessa accedir a les notícies tan antigues que potser ja no són d’interès?
  2. Si només es vol consultar un tema concret, cal descarregar tot el fitxer? I si es volen només les fotos d’un tema?
  3. Si el fitxer va creixent en el temps, perquè hi ha milers de reculls amb moltes notícies a cada recull, quina mida pot arribar a tenir?

És evident que potser seria interessant poder accedir només a la informació que un desitja, i no haver de descarregar la totalitat de les dades. A més, els potencials usuaris volen informació actualitzada.

Així doncs, el fitxer CSV representa una fotografia o accés estàtic de la realitat dels reculls de les notícies en un moment donat, amb tots els problemes esmentats. L’alternativa, doncs, és proporcionar un accés dinàmic que permeti als usuaris realitzar consultes sobre el fitxer, o millor dit, sobre la base de dades (conceptualment) que han construït els nostres amics. Això permetria:

  1. Recuperar només la informació desitjada, p.e. la darrera notícia sobre les eleccions europees.
  2. Fer cerques més complexes, p.e. aquells reculls amb més disparitat d’opinions entre els usuaris, o les fotografies dels temes més ben valorats.
  3. I per als nostres amics, saber quins són els reculls / notícies més cercats, no només el nombre de descàrregues del fitxer CSV.

D’aquesta manera, l’usuari que fa la cerca només recupera un trocet del fitxer CSV original, amb la informació que realment desitja. Per facilitar-ho, els nostres amics han d’implementar un servei el qual, a partir d’un conjunt de paràmetres reduït o d’un conjunt de cerques predefinides, permti obtenir el resultat de la cerca desitjada. De fet, analitzant les dades recollides en el punt (3.) anterior, els nostres amics podrien oferir un seguit de cerques predefinides:

  1. La notícia més “hot topic” del moment.
  2. El tema més recurrent en el temps.
  3. … (alguna proposta?)

Aquestes cerques predefinides rebrien un paràmetre (o més si s’escau) i retornarien la informació desitjada, potser també en un fitxer CSV però molt més petit, reduint el temps necessari per descarregar-lo. Com veurem més endavant, però, el resultat d’aquestes cerques s’acostuma a retornar utilitzant un tipus de fitxers específic per a intercambiar dades amb una certa estructura interna, com ara XML, RDF o JSON (veieu el glossari).

Ho entendrem millor aprofitant un magnífic exemple que la Generalitat de Catalunya posa a disposició de tots nosaltres mitjançant el seu portal de dades obertes. Es tracta del fitxer amb els equipaments de Catalunya, un recull de més de 35000 equipaments amb un munt d’informació sobre cadascun. Aquest recull, tot i que està disponible en diversos formats, podem dir que en versió original està en format RDF (que ja discutirem properament quan fem via cap a les 5 estrelles). Doncs bé, aquest fitxer “pesa” gairebé 44MB, el que impossibilita descarregar-lo en segons quin dispositiu / connexió disponible.

En canvi, la Generalitat de Catalunya ofereix un servei, un cercador d’equipaments, que permet descarregar només la informació desitjada. No deixeu de provar-lo, especialment la cerca avançada! Aquest cercador està pensat per a ser usat per persones, però això és un altre tema del qual ja en parlarem properament.

Aprofitant que tenim a en David Ayala amb nosaltres, us convido a fer els comentaris que considereu pertinents sobre el fitxer d’equipaments i el cercador, així com relacionar-ho amb l’exemple dels nostres amics:

Quines noves funcionalitats podríem afegir per a fer que tota aquesta informació (equipaments o, en el nostre cas, reculls de notícies) sigui molt més interessant per als usuaris potencials?

Vinga, esperem les vostres idees!

Salutacions cordials,

Julià

VN:F [1.9.22_1171]
Rating: 8.2/10 (6 votes cast)
Accés estàtic o dinàmic a les dades, 8.2 out of 10 based on 6 ratings

28 pensaments a “Accés estàtic o dinàmic a les dades”

  1. Caldria una millora de la cerca semàntica.

    Com a “persona humana” he fet una cerca pel text “escoles de música de tarragona” i me’n retorna 3 (Vandellós, Reus i l’Espluga). M’esperava més resultats (de les de la ciutat de Tarragona, ni una, i de les de la província només aquestes 3).

    En canvi, una recerca més “tipus robot”, cercant pel text “música tarragona” m’ha retornat 24 escoles (23 de la província de Tarragona i una del carrer Tarragona de Súria).

    Si, com diu en Julià, aquest cercador està pensat per a ser usat per persones, deuen ser persones amb perfil informàtic. D’aquelles que pensen/pensem les cerques amb .AND. i .OR.
    D’aquelles que no hem après de com escriu la resta de la humanitat a la caixa de cerca del Google 😉

    VA:F [1.9.22_1171]
    Rating: 4.3/5 (3 votes cast)
    1. jaja jo ja sóc mig robot així que m’identifico plenament

      més seriosament, encara estem lluny de poder fer cerques “com cal”, la caixa Google en el fons ha fet molt mal, etiqueta com vulguis (malament inclós) que ja ho acabaràs trobant, però és cert que no podem pensar que tothom vol/pot fer cerques complexes amb una sintaxi propera a les màquines

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
    2. Hola,

      doncs realment aquí al darrera hi ha una màquina Google, així que imagineu.

      Estem millorant la cerca i el sistema en general, però ens trobem que si a l’origen les dades no estan ben definides (p.e. si enlloc d’ “escola” hi posa “esc.”) tenim un problema i requereix un tractament de sinònims que ara mateix no estem fent.

      Salut,
      David

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  2. David, i un botonet per netejar totes les cerques i tornar a la pàgina d’índex inicial, ho deixaria més pulidet.

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (1 vote cast)
  3. I com a noves funcionalitats que podríem afegir als equipaments, en citaria dos que m’hagués agradat trobar:
    – fotografia de l’equipament buscat
    – un “com arribar-hi” (especialment pensat per a dispositius mòbils)

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. El tema de les imatges és complicat, però em sembla un bona idea. I el com arribar-hi és senzill utilitzant les eines de Google, per exemple. Ho apunto i passo als meus companys.

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  4. Molt d’acord amb el que diu en Jaume.

    A més, he observat que en molts dels camps en els que es cerca a la Cerca Avançada (Tema, Subtema 1, Subtema 2, Comarca i Municipi) els valors es poden seleccionar d’una llista, això sempre facilita les coses. No es podria fer el Mateix amb els camps Carrer i Codi postal? I més tenint en compte que els valors es podrien treure de la pròpia base de dades i restringir-se segons e municipi seleccionat (de la mateixa manera que es fa amb els camps Comarca i Municipi).

    Una abraçada!

    VA:F [1.9.22_1171]
    Rating: 4.0/5 (2 votes cast)
    1. Estem preparant una nova eina que ja funciona en aquesta línia. A més, proveeix una API de consulta que permetrà a qualsevol utilitzar les dades com tu dius i crear webs o aplicacions sense limitacions!!!

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  5. Hola,

    doncs caldria millorar especialment la cerca simple, i canviar l’exemple que donen en llenguatge natural (o humà), atès que no dóna resultats pertinents.

    En llenguatge natural et busca totes les paraules de la cerca, incloses les preposicions. Però només si saps que posant cometes i traient els mots buits com les preposicions, tens un resultat pertinent. Per tant, a l’exemple en lloc de posar Hospital de Sant Pau, hauria de posar “Hospital Sant Pau”, i ens donarà com a únic resultat, l’equipament que porta com a nom hospital de Sant Pau.

    Tot això, i l’ús d’operadors booleans (AND OR NOT) que es necessiti, entenc que hauria de venir explicat tant en aquesta cerca com a l’avançada, per a un usuari no acostumat a fer cerques.

    I a la cerca avançada, el tesaurus per temes d’entrada em sembla bé, però caldria contempla si es requereix també un camp per paraula clau.

    Fins aviat!

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (2 votes cast)
    1. Cert, el motor de cerca lliure no és tot el precís que caldria.

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  6. Hola
    A part de la ubicació al mapa, estaría bé poder tenir una información més precisa de l’equipament. A més de la fotografía (ja comentada) un apartat de valoracions dels usuaris seria molt útil.

    Fins aviat!

    VA:F [1.9.22_1171]
    Rating: 4.3/5 (3 votes cast)
    1. hola, Marta

      això és precíssament el que us proposem en la següent entrada, usar l’API de flickr per enriquir un conjunt de dades com aquest d’equipaments

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  7. A part de totes les funcionalitats que han esmentat anteriorment, penso que estaria molt bé poder fer una “multiconsulta”, d’una manera més senzilla. Per exemple, l’opció de consultar tots els equipaments d’un municipi, o d’una comarca, sense haver de recórrer a la cerca avançada (i, tot i així, potser hi haurà gent que, degut a l’ordre dels camps de cerca, no caurà que pot buscar tots els equipaments per comarca, per municipi…).
    Així que, més que una nova funcionalitat, es tractaria d’una possible millora!

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (1 vote cast)
    1. això que proposes és una mica una cerca facetada (http://en.wikipedia.org/wiki/Faceted_search vinga qui ho tradueix al català?), semblant al que ofereix la UPC amb el seu nou portal de recerca (per cert, molt bona feina!)

      http://futur.upc.edu/

      el problema d’aquest tipus de cerques és que també tendeixen a que la gent sempre trobi el mateix, amagant les coses més “petites”

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 5.0/5 (1 vote cast)
      1. Tracto de traduir jo mateixa el text de cerques facetades a la Viquipèdia… M’hi acabo de crear un compte, ara cerco com va la traducció d’un article…

        VA:F [1.9.22_1171]
        Rating: 0.0/5 (0 votes cast)
        1. Tinc el text mig traduït, però he de trobar un manual que m’expliqui com he d’introduir l’article traduït… La plantilla no l’entenc. Si algú em pot donar un cop de mà serà benvingut… Merci!

          VA:F [1.9.22_1171]
          Rating: 0.0/5 (0 votes cast)
          1. el més fàcil és anar a la Viquipèdia, cercar el text que vols crear (en aquest cas podria ser “Cerca facetada” però compte sempre amb els títols no cometre errors lingüistics) i si no existeix aleshores la Viquipèdia et dirà si vols crear-la

            Julià

            VN:F [1.9.22_1171]
            Rating: 0.0/5 (0 votes cast)
  8. He fet la cerca d’eixos comercials en el cercador d’equipaments de Catalunya i només dóna com a resultat 10 equipaments. Això em sembla que no és possible perquè només a Barcelona ciutat hi ha 21 eixos comercials segons el web del comerç de Barcelona: http://comerc.bcn.cat/ca/directori-de-comerc/els-eixos-comercials-de-la-ciutat
    Com poder verificar que una base de dades conté tota la informació i aquesta es troba actualitzada? D’altra banda com podem assegurar que el significat de les paraules “eix comercial” és el mateix per a tots?

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. Doncs és complicat. No entro massa en el procés de generació de la base de dades d’equipaments, però us diré que no és una base de dades centralitzada, si no que cada departament en té catalogats els que pertanyen al seu àmbit i el que fa dades obertes és un procés de consolidació (amb eines ETL – http://en.wikipedia.org/wiki/Extract,_transform,_load) i fa neteja i normalització d’adreces i localitzacions. La idea és anar millorant el conjunt de dades i afegir-ne de noves, però aquest procés no sempre és tan ràpid com voldríem.

      VN:F [1.9.22_1171]
      Rating: 5.0/5 (1 vote cast)
  9. I poder consultar un històric, tindria el seu valor, no? per exemple, poder consultar els equipaments entre any i any anterior o l’evolució d’aquests durant cinc anys, per posar un espai de temps representatiu.

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (1 vote cast)
  10. A la base de dades d’equipaments he fet la cerca avançada:
    Administració Pública/Oficines d’atenció ciutadana i m’ha trobat nomes 6 resultats (Barcelona, Lleida, Girona, Puigcerdà, Amposta i Tarragona).

    He fet la cerca simple: “oficina atencio ciutadana 08002” i n’ha trobat una al c/ Sant Honorat (que havia trobat a la cerca anterior) i també una a la Pl. Catalunya que abans no havia trobat.

    Com no sortien les moltes oficines d’atenció ciutadanas municipals d’arreu de Cataluya he pensat que igual només hi havia equipaments de la Generalitat. He buscat museus i en canvi m’ha donat la impressió que n’hi ha tant de la Generalitat, com de municipals o privats.

    Igual estaria bé una mica d’explicació sobre el que es pot trobar a la base de dades. He fet la cerca que ha fet el Salvador dels 10 eixos comercials i mirant-los no crec que es puguin considerar estrictament “eixos comercials”.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  11. Un suggeriment de millora en la cerca del web d’equipaments: text predictiu. És a dir, a mesura que vas escrivint en el cercador et podria anar apareixent el nom identificatiu de cada equipament amb el text exacte com està introduït en la base de dades.
    Penso que així evitaríem resultats dispars en les cerques perquè:
    1. ens estalviaríem errors ortogràfics (Instalacions/instal.lacions/instal.lasions)
    2. Evitaríem cercar amb termes diferents, cosa que ens dóna resultats diferents ( obtenim resultats diferents si cerquem “oficina jove” que si ho fem amb “oficines joves” per exemple).

    Estic molt d’acord amb la problemàtica que ja s’ha plantejat en relació a les cerques amb articles i partícules (hospital DE Sant pau) perquè també ens passa amb el cercador del portal per a professionals de polítiques de joventut E-joventut . Per això hem optat per oferir la cerca a través de paraules clau.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  12. hola a tots,

    molts de vosaltres heu exemplificat un dels problemes de les dades obertes, especialment pel que fa a l’ús de vocabularis per descriure fets. Malauradament, avui dia és més fàcil que les màquines parlin entre si que no pas ho facin els usuaris, és a dir, podem tenir uns protocols i estàndards ben definits per a l’intercanvi d’informació però si un escriu “refugi” i l’altre escriu “Refugis de muntanya” malament.

    No obstant això, tenim la tecnologia per ajudar-nos a resoldre aquest problema, l’ús de text predictiu o l’anàlisi dels continguts ens pot ajudar, per exemple.

    Salutacions,

    Julià

    VN:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  13. Un nou apunt per a les cerques ‘predefinides’ dels nostres amics, que els serà útil a ells, sobretot: a quina hora i dia tenen el major nombre de consultes.
    Això pot ser útil per a planificar les entrades que facin a la base de dades. No creieu?

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  14. Bones,

    Veig que és molt semblant al motor de cerca de Google. He fer la cerca de “Joan XXIII” i en la sisena opció m’ha sortit l’Hospital Universitari Joan XXIII de Tarragona. Veig que afina molt.

    Salutacions,

    Josep Maria Sánchez

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *