Definicions bàsiques (III)

Benvolguts / benvolgudes,

amb aquesta entrada volem continuar en la línia dels dos debats anteriors i aprofitar per definir Big Data, un cop ja comencem (espero!) a tenir les coses més clares sobre què vol dir “obert” i què vol dir “dada”. A partir de demà intentarem anar tancant els debats i concretant sobre que entenem per “obert” i per “dada”.

Ho farem al revés, en lloc de consensuar una definició, en aquest cas és més senzill usar la definició estàndar. Es parla de Big Data quan tenim un “gran” nombre de dades per una o més causes (Vs) d’aquestes tres:

Volum: si tenim un “gran” nombre d’elements, p.e. imagineu-vos un fitxer amb un registre per cada persona del planeta (amb una població de més de 7000 milions, d’acord a Wikipedia).

Varietat: si tenim un “gran” nombre de variables que descriuen cada element, p.e. imagineu-vos que per cada persona emmagatzemem el seu genoma humà, que té uns 3200 milions de parells de bases, aproximadament.

Velocitat: si tenim una “gran” taxa d’actualització de les dades. A diferència de l’exemple anterior (el nostre genoma no canvia, en principi), imagineu-vos p.e. analitzar el flux global de Twitter que està per sobre de 300 milions de tuits per dia.

I perquè “gran” entre cometes, pensareu? Doncs bé, per a que no ens passi el que li va passar a en Bill Gates quan va dir l’any 1981 allò tan ocurrent de “640K hauria de ser suficient”; el que fa un temps ens semblava inabastable avui ens sembla quotidià (penseu p.e. en la mida dels vostres disc durs) i això seguirà així, segurament, tal i com explica la Llei de Moore.

Per tant, les dades les hem de veure com un cub en funció d’aquestes tres dimensions (o el que es coneix com les 3 Vs), de forma que si una o més d’aquestes Vs és molt gran, estarem parlant de Big Data.

Però Big Data també implica un canvi de paradigma: ja no treballem només amb mostres o subconjunts de les dades, per primer cop pensem en la totalitat de la població o univers, i podem prendre decisions sense haver d’estimar realment com d’exacte és la nostra anàlisi. Intentaré explicar-ho amb un exemple, aviam si s’entèn la idea (i si no és així ho discutim i em corregiu si cal, que entre els participants hi ha uns quants que saben més estadística que jo!):

Suposem que trobem un home i una dona, l’home fa 1.75m i la dona 1.70m d’alçada? Podem concloure que els homes són més alts que les dones (en promig)? Home, amb una sola mostra, difícilment. Suposem ara que tenim l’alçada de 10 homes i l’alçada de 10 dones, i en promig els homes són de 1.75m i les dones de 1.70m. Bé, podem dir una mica més segurs que els homes en promig són 5cm més alts que les dones però N=10 tampoc és una mostra molt fiable. I si N fos 1000 o 1000000? L’estadística ens permet calcular l’error que cometem quan mesurem quelcom tenint en compte quants elements tenim, és a dir, la N. En qualsevol estudi estadístic veureu normalment que es parla de marges d’error i s’explicita la N i també un valor anomenat p que ve a ser la probabilitat que allò que s’està mesurant o analitzant s’hagi trobat per atzar.

Doncs bé, la idea darrera de Big Data és que si jo tinc l’alçada de TOTA la població, puc mesurar l’alçada dels homes i de les dones en promig i si resulta que és d’1.75m i 1.70m respectivament, aleshores puc dir, sense temor a equivocar-me, que la diferència mitjana d’alçada entre homes i dones és de 5cm, perquè ho he calculat amb totes les dades. És un fet “real”, no és cap estimació.

És evident que tenir les dades de tota la població pot ser impossible (p.e. mesurar l’alçada de tota la humanitat), però si estem parlant d’una xarxa de sensors aleshores sí que és possible tenir dades de tota la població (cadascun dels sensors).

Us proposo dues coses:

1) A la pàgina de Wikipedia sobre Big Data teniu altres exemples interessants sobre Big Data. Podríeu si us plau intentar trobar altres exemples d’escenaris on es generin dades que per una, dues o tres Vs podem considerar que són realment Big Data? I evidentment, no dubteu en afegir-les a la pàgina de Wikipedia!

2) Quines altres implicacions creieu que té el fet de pensar en clau Big Data, més enllà de la mida de la mostra respecte a la pobiació? Quines oportunitats apareixen?

Esperem les vostres aportacions!

Julià

 

VN:F [1.9.22_1171]
Rating: 9.3/10 (3 votes cast)
Definicions bàsiques (III), 9.3 out of 10 based on 3 ratings

48 pensaments a “Definicions bàsiques (III)”

  1. 1) Un exemple d’actualitat és el futur Passeig de Gràcia, on es preveu fer un banc de proves de “Smart city”. El projecte pretén que es mesuri amb sensors gairebé tot. Aplicar això a una ciutat sensera sí que seria “BIG”.

    2) Veig moltíssimes implicacions en el Big Data, però les que més em preocupen (a part de com tractar el seu gran volum) són la varietat de formats d’aquestes dades i, sobre tot, com es poden conservar a llarg termini. Suposo que per aconseguir-ho caldrà estandarditzar-les.

    Una abraçada!

    VA:F [1.9.22_1171]
    Rating: 4.0/5 (4 votes cast)
    1. benvolgut Francesc,

      aquest és un dels punts clau! quan parlem dels aspectes tecnològics a tenir en compte ja veurem que la seva preservació és bàsica, per moltes raons

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  2. 1) Altres escenaris on es genera Big Data són per exemple les universitats. Imaginem que la universitat manté un arxiu amb les dades de tots els seus estudiants, dades de contacte, canvis de cursos, expedient acadèmic, posteriors cursos que estudien, quina sortida professional han tingut (per després generar estadístiques sobre quin percentatge d’estudiants surt de la carrera amb feina), etc.

    2) Les implicacions del Big Data poden tenir fins i tot implicacions en una empresa. De fet, en les jornades de Big Data que fa el CCCB aquesta setmana un dels col·loquis fa referència a les utilitzats del Big Data a les empreses. Us deixo aquí el link per si li interessa a algú: http://www.cccb.org/ca/curs_o_conferencia-big_data_dins_lempresa-46043

    VA:F [1.9.22_1171]
    Rating: 4.0/5 (1 vote cast)
  3. 1) Aquest treball de The Guardian representa els vols comercials a tot el món(volum) en temps real(velocitat). No ho puc comprovar ara però crec que encara funciona.
    enllaç

    2) A banda de poder fer estimacions en base a un volum molt proper al real, la possibilitat de creuar tipus de dades molt diferents recollides per més d’un productor sobre un conjunt geogràfic o una comunitat concreta, donant la possibilitat de “descobrir” correlacions que a priori no tindrien cap connexió entre elles. Pot ser un cas una mica extrem però el blog i les publicacions dels autors de Freakonomics poden ser un bon exemple en aquest sentit

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (1 vote cast)
    1. benvolgut Vidal,

      us deixo l’enllaç que Aaron Koblin va fer dels vols, és visualment molt potent i a més permet identificar, entre d’altres, quin són els principals hubs del planeta, un dels meus exemples preferits de visualitzacions

      Flight Patterns by Aaron Koblin

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 5.0/5 (1 vote cast)
  4. Sorry, estic al mòbil.
    L’enllaç és a la infografia del Guardian

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  5. Hola,

    un exemple que a mi m’ajuda molt a entendre el concepte de Big Data són totes les dades que entre tots generem amb els nostres smartphones: geolocalització, trucades, tweets, fotos, whatsapps, facebook, mails, linkedIn, …

    Una implicació que no m’agrada d’això és la quantitat d’informació sobre una persona que es pot obtenir barrejant totes aquestes dades, es pot saber pràcticament tot: http://www.youtube.com/watch?v=F7pYHN9iC9I

    Però a part dels inconvenients, les oportunitats que genera són infinites i amb tota aquesta informació relacionada es poden fer moltes coses per millorar tant la vida de les persones individualment com de la societat en general. Per exemple detectar molt abans que una epidèmia s’està escampant i poder reaccionar, o trobar persones que siguin a prop d’on ha ocorregut una catàstrofe i que tinguin certes característiques/coneixements que poden ajudar. A nivell individual, aquestes dades també poden servir per millorar el dia a dia perquè podem tenir una radiografia exacta del nostre comportament i podem utilitzar aquesta informació per exemple per a estalviar, combinant-la amb dades de botigues/ofertes pròximes a on ens trobem, o per a ajudar-nos a decidir en què invertim el nostre temps d’oci segons què o qui tenim al voltant.

    Són els primers exemples que se m’han acudit, però està clar que hi ha infinitat de possibilitats interessants, sobretot quan combinem fonts de dades diferents per obtenir nou coneixement.

    VA:F [1.9.22_1171]
    Rating: 2.7/5 (3 votes cast)
    1. Efectivament Anna,

      Un dels problemes derivats del Big Data és la potencial pèrdua de la nostra privacitat.

      Fixeu-vos que amb el Big Data es poden arribar a inferir quins són els gustos d’una persona sense preguntar-li res directament, aquesta informació es pot arribar a deduir pel creuament d’altres bases de dades que, aparentment per si sols, són “inofensius”.

      Tot un gran debat aquest de la pèrdua de privacitat en l’era del Big Data.

      VA:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
      1. Penso que tots hauríem d’anar molt en compte quan proporcionem dades personals nostres, el creuament de dades per part d’empreses podria acabar tal i com comentava l’Anna Queralt amb la nostra privacitat. Perquè si proporcionem dades amb una finalitat determinada però aquella dada acaba sent oberta i després passa a formar part d’una big data, qui ens assegura que després un creuament amb altres fonts que vam informar amb una altre finalitat no podrà donar com a resultat una informació que no volíem informar?

        VA:F [1.9.22_1171]
        Rating: 0.0/5 (0 votes cast)
  6. Crec que no ho ha mencionat ningú, però pot ser interessant passar per la Big Bang Data del CCCB o mirar-se la pàgina de l’exposició: http://bigbangdata.cccb.org/sec-exposicio/ Hi ha els flight patterns del Koblin (que per cert demà hi fa una xerrada) i molts altres exemples. A mi m’agrada l’Arbor Scientiae del nostre Llull http://bigbangdata.cccb.org/arbor-scientiae-ramon-llull/ Aquest altre exemple del ITO world http://bigbangdata.cccb.org/ito-world/ o http://www.itoworld.com/static/ted_video.html contindria les tres Vs, no? volum, varietat i velocitat.

    VA:F [1.9.22_1171]
    Rating: 2.0/5 (1 vote cast)
    1. Gràcies per la referència Mònica.

      Sí, us recomano l’exposició Big Bang Data del CCCB, segur que us farà reflexionar!

      VA:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  7. http://www.aunclicdelastic.com/big-data-piedra-angular-de-las-smart-cities/

    Us passo un link sobre la importància de les accions que s’estan desenvolupant en diverses de les nostres ciutats sobre la base de les Smart Cities.
    Universitats, Organitzacions, Ajuntaments i Empreses realitzant i investigant en projectes per obtenir un gran processador de dades que ajudi en un futur a analitzar la sostenibilitat de les ciutats, convertint aquestes dades en coneixement útil i preparar-les per millorar en seguretat ciutadana, mobilitat urbana, gestió de l’aigua i de l’energia, residus, anàlisis del sentiment humà a través de la seva col·laboració en la web 2.0 i les xarxes socials per conèixer les seves afinitats o inquietuds i poder així millorar.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  8. 1) Us recomano donar un cop d’ull als projectes empresarials que es duen a terme a la incubadora de startups Incubio (Barcelona, 22@). Són empreses de base tecnològica que utilitzen Big Data. Molt interessants!

    2) Ja fa molts anys que les empreses treballen amb dades per millorar els seus processos de presa de decisions. Personalment, crec que el repte del Big Data, a part de gestionar un volum molt gran de dades, es el fet d’utilitzar fluxes d’informació sorgits de la gran revolució didigtal dels últims anys (xarxes socials, Internet of Things…) per tal de millorar aquests processos de les empreses i crear nous productes i serveis de molt valor afegit que fins fa un temps eren impensables (i a un cost molt acceptable).

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  9. M’agradaria comentar-vos que, personalment, crec que s’ha de recalcar una important característica del Big Data: El processament de la informació en temps real (o gairebé en temps real).

    Això vol dir que a part de Volum, Varietat i Velocitat… també tenim processament (per tant, conclusions derivats d’aquest processament) just quan s’han generat les dades.

    De fet, de grans volums de dades sempre n’hem tingut. Com es diu al principi d’aquest article, la ciència estadística no és res més que com arribar a conclusions de grans volums de dades (sense haver de gestionar els grans volums). Però en molts casos, aquesta gestió es feia a posteriori, potser dies, mesos o anys després que s’haguessin recollit les dades.

    En la majoria de casos etiquetats com “Big Data” podem respondre just al cap de pocs instants després de la generació de les dades.

    Aquesta és una característica important.

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (2 votes cast)
    1. Marc, quan has afegit el tema velocitat de procès a les V de la Big Data m’has fet pensar en un altre exemple: el sistema Narwhal que va implementar l’equip d’Obama en les anteriors presidencials. En el sistema s’hi introduïen les dades demogràfiques (edat, sexe, domicili…) a més dels gustos i interessos a través de les compres amb targes o de les rutes habituals, etc (a Estats Units aquestes dades es poden comprar).. i això s’afegien les enquestes diàries de l’exercit de voluntaris.
      Les conclussions que s’extreuen de creuar les dades s’utilitzen des d’època de Reagan com a base per a crear l’estratègia de campanya però el sistema Narwhal va incorporar el processament immediat de les noves dades que anaven arribant. Per exemple, el dia de les eleccions sabien exactament quants electors necessitaven que hi anessin en una hora determinada en un col·legi electoral determinat. El processament immediat de les dades que monitoritzaven constantment va permetre a l’equip de campanya prendre decisions tàctiques molt precises.

      VA:F [1.9.22_1171]
      Rating: 1.0/5 (1 vote cast)
  10. 1) Un escenari on es genera BIG DATA pot ser un Centre Comercial. Des del moment de l’entrada al parking on visualitzen la matrícula del vehicle, i després al moment mateix de la compra.

    2) Pot servir per conèixer els productes preferits dels consumidors, els diners que gasten, etc.., i així millorar la distribució del propi centre per optimitzar espais i deixar a la vista els articles més venuts, adquirir uns productes en més quantitat que altres perquè saben que en vendrán més…..

    Fins aviat!!!

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  11. Todos los que tenéis dispositivos Android, tenéis un registro de todos vuestros movimientos. Obviamente, a no ser que hayáis ido expresamente a la página del historial de ubicaciones de Google a deshabilitarlo; cosa que la gran mayoría desconoce.
    La primera vez que vi eso me impresionó mucho, no son datos anónimos ya que están asociados a una cuenta.
    https://maps.google.com/locationhistory/

    Ejemplos de big data empiezan a haber muchísimos, especialmente a partir del uso masivo de las redes sociales, pero creo que es precisamente en la recogida de datos sobre las personas, a partir de la geolocalización y señales de teléfonos móviles, pero se potenciará enormemente con el uso de sensores sobre la actividad física.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  12. Seré molt “corporativista”: el Big Data abans es deia Data Mining i abans es deia Estadística. Així de clar. Tot anàlisi de dades requereix de sentit comú, i en molts casos, es deixa de banda el sentit comú refiant-nos de les dades.

    Us penjaré un article d’en Pepe Almagro: https://docs.google.com/file/d/0B5jyqU3Vq5kDcy01NDF0aWIzVUE/edit

    Sobre el fet de refiar-nos de les dades: i si les dades estan mal recollides? Llavors hi ha l’efecte GIGO: Garbage In, Garbage Out.

    VA:F [1.9.22_1171]
    Rating: 3.8/5 (5 votes cast)
    1. Estic d’acord amb tu. Si no hi ha una base d’estadística, tècniques d’investigació social i an+alisi de dades, es poden arribar a conclusions errònies.

      VA:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
    2. tens tota la raó, Manel

      jo vaig fer una tesi sobre mineria de dades l’any 2002 i ja aleshores havia conjunts “enormes”; després a l’arribar a la UOC em vaig trobar amb el repte d’analitzar centenars de GB de fitxers de log dels servidors web

      i com bé dius, el punt clau és sempre estar segur que la mostra/població són representatives; si tens TOTA la població, cap problema, però si no és així, aleshores generes un biaix que cal tenir en compte

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
    3. Manel, entenc el que vols dir amb l’efecte GIGO, hi ha estat reflexionant una estona perquè en un primer moment he estat temptat a pensar que com més big són les dades menys efecte GIGO hi haurà, tot i que després he pensat que si la recollida és errònia el GIGO està assegurant tinguem big data o no.

      Un concepte més que he après, GIGO, garbage in, garbage out, gràcies!

      VA:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  13. 1) Un exemple molt quotidià i que segur que tots hem utilitzat, és el d’un pàrking. I, si n’imaginem un d’una zona cèntrica o turística d’una gran ciutat, podem tenir 2 de les tres V’s (Volum i Velocitat). Jo crec que si que es podrien considerar Big Data aquestes dades, ja que el seu volum i trànsit de dades pot arribar a ser molt gran. Potser no són dades d’especila interès per al públic en general, però de ben segur que per a l’empresa que gestiona l’aparcament ho són, i molt!

    2) Si em permeteu, citaré a Stalin: Un mort és una tragèdia. Un milió de morts, una estadística.
    Segurament, podríem aplicar el mateix concepte a les dades!

    D’oportunitats, en poden aparèixer moltes. I és que, avui en dia, hi ha molts negocis basats en la gestió de dades, les dades mouen diners. Per exemple, segur que tots hem fet la declaració de la renda, o estem a punt de fer-la, oi? (i aquesta mou diners en més d’un sentit!)

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. hola, Sergi

      ja hi ha iniciatives per captar amb sensors l’ocupació dels parkings a les ciutats; es pot fer servir per posar multes, per cobrar exactament pel temps consumit o, amb un esperit Big Data, per poder avisar als usuaris de les zones més/menys congestionades i ajustar els preus a l’oferta/demanda

      un exemple: ciutat de Melbourne

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  14. A l’escenari dibuixat per l’Anna Queralt, (les dades que generem entre tots amb els nostres smartphones), jo li afegiria les que generem amb la nostra interacció dins la xarxa amb altres dispositius i també tot allò que corre per la xarxa que s’autogenera, retroalimenta o es produeix. Veig la xarxa com un gran generador dades per a les 3 V’s i, com apunta en Marc Garriga, amb la potència de la disponibilitat (i possibilitat de processament) en temps real.

    Així com anomenem a Internet: “La Xarxa”, potser li acabarem definint un sinònim: “El Big Data”.

    Però contrariament a la perspectiva de l’Anna, la implicació que m’interessa es que “ho podem saber gairebé tot”. I amb això podem ser capaços de prevenir conflictes abans que puguin arribar a succeir i així poder-los evitar. Amb la barreja de TICs, medis socials i Big Data disposem d’eines molt potents per preveure desastres abans que passin, actuar eficientment quan aquests han succeït o millorar les condicions per evitar que tornin a passar.

    És cert que quan parlem de dades que afecten a persones, hi ha aspectes que són de l’àmbit privat. L’assegurament de la privacitat d’aquest tipus de dades és un aspecte del Big Data que ens ha de preocupar i molt. En això coincideixo plenament amb l’Anna.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  15. No sé molt d’estadística però referit al big data he llegit algunes critiques que diuen que treballar amb moltes dades no és el mateix que treballar amb totes les dades i per tant, s’ha d’estar atent al rigor amb què es seleccionen les mostres. Com diu el Manel, es confía només en les dades oblidant el sentit comú.
    S’ha parlat de les dades que tenen les universitats. Com que treballo en una, veig que moltes de les dades dels estudiants, a part dels problemas de privacitat, depenen encara de la seva voluntat per donar una informació. Impossible saber en què treballa algú tres anys després d’acabar els estudis o quina opinió té dels serveis que ha rebut, si no vol manifestar-ho.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. hola, Anna

      cert, MOLT != TOT, usant notació “informàtica”, això no es pot oblidar quan es fan experiments

      per altra banda, el sector educatiu és un gran escenari Big Data però és realment reaci a compartir dades, al meu parer, necessitem bons exemples que mostrin com es podrien compartir dades per millorar processos i serveis (p.e. la tria d’escola per part dels pares o la tria d’una carrera)

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  16. Hola!
    en primer lloc, disculpeu el retard en respondre.
    1) Com ja heu dit, em sembla que les xarxes socials contenen una gran volum de Big Data generada per l’usuari, i algunes xarxes com Twitter, es caracteritzen a més per la velocitat en la seva generació.
    Però, a l’exposició de la Big Bang Data vaig veure un exemple que crec que no s’ha dit aquí, i és el cas de l’Internet Archive, una biblioteca digital sense ànim de lucre, amb seu a San Francisco, que té una ambiciosa missió: «accés universal a tot el coneixement». A més del ‘Volum’ (400 bilions de pàgines indexades), ofereix accés a una gran ‘Varietat’ de formats: llocs web, música, imatges en moviment i llibres digitalitzats. Compta a més amb una rèplica de la mateixa a Egipte. És a més un exponent de l’Open data, atès que ofereix accés en línia i sense restriccions, ni costos. Podeu consultar-la a: https://archive.org/

    2) En l’exemple de l’Internet Archive que he posat, veig més implicacions sobre el tema del coneixement obert i possibles implicacions jurídiques dels documents, que sobre la Big Data. Tanmateix, crec que és un bon exemple de Big Data, perquè hi tenen el control de tots els registres introduïts (materials, documents, recursos…, però dades en registres), i a partir d’aquí poden fer estadístiques amb les dades reals. Així, per exemple, a partir dels clics de les consultes, poden saber, per exemple, quins títols, temes i en quin format és més consultat un llibre. Això, si bé no pot tenir implicacions comercials per a una biblioteca o arxiu com aquest, permet obtenir certa informació dels hàbits dels usuaris.

    Fins ara!

    VA:F [1.9.22_1171]
    Rating: 3.0/5 (1 vote cast)
    1. L’Internet Archive és molt interessant. Jo l’utilitzo habitualment per localitzar materials audiovisuals originals i es troben autèntiques joies!

      VA:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  17. Hi ha molts exemples a dir, molts d’ells ja són clàssics com els de les rutes dels avions o el registrament de despeses per VISA d’un carrer, ciutat o país. Però jo crec que en qualsevol camp avui en dia, gracies a la tecnologia, podem tenir un gran volum de dades, així com una gran varietat de les mateixes. Pel que fa a la velocitat, aquí ja depenem més dels processos que les generen però el concepte de velocitat també depèn molt de amb que ho comparem.

    A mi hi ha un camp que m’agrada molt i que genera moltes dades com és l’esport. Per exemple el FC Barcelona un equip professional de primer nivell i amb grans recursos des de fa temps analitza les dades que generen els seus futbolistes en cada entrenament i partit (amb els softwares Er1c, Sport Coach y Media Coach) on combina dades d’esforç, dades metabòliques dels futbolistes,… amb les dades climatològiques dels dies d’entrenament o partit, alimentació de cada jugador, etc… I a partir de l’anàlisi dels resultats prepara exercicis de preparació física personalitzats per a cada un d’ells, intentant predir i evitar lesions, caigudes de rendiment, etc…

    Una mica el que ens permet el Big Data és fer una paramètrica individualitzada de cada individu. Com suggeriments de compra personalitzats analitzant el comportament de compra, teràpies de salut per a cada un de nosaltres analitzant el nostre genoma, etc…

    Què comporta això? Doncs la necessitat de tenir una gran capacitat de emmagatzemar tota aquesta informació. Poder i saber com analitzar-la, tenir poca informació és un problema però tot i que no ens ho puguem creure un excés també ho és, podem trobar causalitats espúries i quan més n tenim més fàcil és trobar diferencies més minses que potser no ens interessen i ens amaguen el que realment volem.

    Hi per acabar dir que un dels problemes que hi veig en tot això és la pèrdua del control de les nostres dades. Avui en dia amb els smartphones, Internet, etc… estem donant molta informació privada de la qual no som conscients. Informació que utilitzada de forma agregada queda anònima, però que en molts casos trobem el vertader valor de la mateixa en la personalització de les mateixes. I crec que avui en dia ningú ens pot garantir una protecció prou elevada de que ningú fa un mal us d’elles.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  18. Em preocupa molt el Big Data, crec que encara no se li té la “por/respecte” que la gent hauria de tenir si s’informés i podria arribar a generar més controversia que la clonació.
    Un munt de dades corrent a la xarxa (i no tant xarxa) en temps real i diferents origens, per exemple, si creuem les dades de qualsevol xarxa social podríem saber on certa persona passa les vacances, treballa, trajectes i hora en el qual el fa, les botigues que freqüenta.
    I aquí ve el que em fa por, perquè treballo amb dades de tercers. No ens enganyem, per més codi ètic i per molta legislació que hi hagi per controlar el creuament de dades, sempre s’acabarà filtran (si han utilitzat fotos dels DNI’s dels jutges que estan a favor de la consulta per a fer una notícia de diari, què no pot passar?). Creuan les dades de tots els productes de Google, Facebook, Amazon tenim: correu, procesadors de textos, documents, contactes, compres, telèfons,… a poc que juguin una mica amb les dades, ens poden “oferir” suggerències (de fet ja ho fan, però qui diu suggerència, diu d’aquí 3 anys parella perquè tens les mateixes aficions).
    Diuen que el pròxim pas de totes aquestes empreses són crear bancs. Imagineu la força d’una empresa que en 4 anys és capaç de creuar les nostres dades d’Amazon (llibres, compres), Google (correu, música, documents, fotos, geolocalització) i Facebook (contactes, geolocalització) amb totes les nostres transaccions bancàries. Bé doncs, ara imagineu el que està fent els USA avui mateix.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  19. Podríem considerar Instagram o twitter com a exemple de de Big data?. Respecte el volum i la velocitat , crec que complirien. Pel que va a la varietat, tan en el cas de les imatges com en els del text, remetrien a multitud de continguts. Potser el problema seria el processament de les dades que ofereixen.

    Pel que fa a les p¡implicacions de pensar en clau Big Data, crec que té el perill de fer una equivalència entre quantitat i tractament i objectivitat i cientificitat del resultat

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. hola, Joan

      I tant, les xarxes socials són avui dia un dels generadors de Big Data, especialment per les dues Vs que tu esmentes; i si penses que un usuari té un perfil a facebook, un a twittwe, linkedin, flickr, etc., aleshores tota la seva activitat conjunta també et fa créixer la tercera V

      salutacions

      Julià

      VN:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  20. Las compras que se hacen en un supermercado, al pasar por la máquina registradora (nunca mejor dicho). Se generan una gran cantidad de datos y se actualizan constantemente.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. Sí José María,

      Este es el principal motivo por lo que los supermercados crean las tarjetas de “fidelización”. Quieren poder relacionar las compras con el tipo de usuario: edad, sexo, si tiene familia, etc.

      VA:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  21. Bona tarda,

    1) A l’empresa a on treballo estem obtenim les dades de consum d’aigua, juntament amb una sèrie d’alarmes (fuites, flux d’aigua a l’invers, etc.) d’una zona en concret, diàriament. Crec que aquí compliríem amb les 3 Vs.

    2) En l’exemple que he posat anteriorment, crec que pensar en clau Big Data és molt important per a obtenir un perfil de consum exacte, poder donar un bon servei al client gràcies a les alarmes, i poder optimitzar la distribució d’aigua i el cost energètic que això comporta.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    1. Interessant analogia del Big Data i els vehicles a l’article de la Gemma Galdón.
      Explica molt gràficament l’inconvenient de l’ús massiu de dades obertes que vaig exposar a l’entrada “Resum 1a. Setmana”.

      VA:F [1.9.22_1171]
      Rating: 0.0/5 (0 votes cast)
  22. 1) Un espai on es generen dades de diferents tipus es al wattsap i altres nous programaris de comunicació. Per volum d’ús, varietat de les dades de cada usuari i nivell d’actualitzacions es pot dir que compleix les 3V.

    2) Fer un DAFO del big data trobo que es una feina que no es pot respondre en aquest espai. Però es poden plantejar problemes com el “datacentrisme” degut a la seva increible exhaustivitat sobre la mostra. De cara a oportunitats, entre d’altres, apareix una nova forma de recollir informació més veraç i acurada per a investigació social, donant un paper més rellevant a l’estudi de la societat per poder solucionar algunes de les seves dinámiques nocives.

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  23. 1) A la pàgina de Wikipedia sobre Big Data teniu altres exemples interessants sobre Big Data. Podríeu si us plau intentar trobar altres exemples d’escenaris on es generin dades que per una, dues o tres Vs podem considerar que són realment Big Data? I evidentment, no dubteu en afegir-les a la pàgina de Wikipedia!

    El creuament de les dades que es realitza a internet es ràpidissim. De fer una consulta a la web de booking d’un hotel d’andorra per marxar el cap de setmana..i conectar-me al facebook i viure pàgines suggerides d’hotels d’Andorra. Tot això amb questió de minuts

    2) Quines altres implicacions creieu que té el fet de pensar en clau Big Data, més enllà de la mida de la mostra respecte a la pobiació? Quines oportunitats apareixen?

    Es molt ampli, ja que amb dades de la població, podem fer estadistiques de tot. El que estic d’acord amb molts companys, que les estadistiques, poden donar peu ha grans errors, depenen de l’escenari o la intencionalitat amb la que s’analitzin

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  24. No crec que sigui qüestió de disposar de totes les dades de la població, crec que és qüestió de tindre un gran nombre de dades per afinar el càlcul de variables.

    1. Com a exemple proposo el núvol de punts que agafen els avions de l’Institut Cartogràfic i Geològic de Catalunya quan sobrevolen el territori català. En base a les alçades (coordenada Z) són capaços d’elaborar els Models Digitals d’Elevacions (MDE), dibuixar les corbes de nivell del plànols cartogràfics i fer les correccions de les imatges preses pels avions per tal que aquestes sigui ortoimatges en lloc d’imatges còniques. Com més punts es prenen més definició tindran els plànols que es puguin elaborar. Així, per cada escala de treball cal un nombre mínim de punts d’observació.
    2. Altres tecnologies com el LIDAR permeten agafar un núvol de punts tridimensional a partir de la mesura contínua de distàncies fetes amb un aparell làser. Aquest aparell obre moltes possibilitats en el camp de la topografia ja que permet per exemple fer un dibuix tridimensional dels carrers amb tots els elements visibles (edificis, borals, senyals, faroles, línies elèctriques…). Això fa uns anys era impensable i s’havia de fer amb una estació total i guardar les coordenades (X, Y, Z) de cada punt de forma quasi manual. Ara, amb el LIDAR, es pot fer des d’un vehicle en marxa o helicòpter i la feina de vàries setmanes es redueix a un matí. Això sí, cal fer el tractament informàtic del gran volum d’informació que s’ha emmagatzemat.

    VA:F [1.9.22_1171]
    Rating: 2.0/5 (1 vote cast)
  25. Un exemple de Big Data que marcarà els propers anys, és la possiblitat de pagar a través del mòbil (Vodafone ja ofereix aquests serveis).

    Mitjançant les dades relacionades amb els pagaments, la geolocalització de les botigues, el “sistema” serà capaç de fer-nos un perfil amb els nostres gustos, hàbits, rutines de compra, capacitat econòmica,…, i adequar les ofertes que rebem en funció de la informació que existeix. Si a més a més, creuem aquestes dades amb d’altres determinades dades que hi ha de nosaltres a les xarxes socials, el cocktail pot ser molt perillòs, des del punt de vista de la privacitat.

    Fa pocs dies, un ciutadà espanyol va guanyar un cas contra Google pel dret “a ser oblidat a la xarxa”, amb la tendència que seguim que cada vegada hi ha més dades nostres a internet, bancs, xarxes socials, grans corporacions,…. podrem algun dia “esborrar-nos” i esta off-line?

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  26. Ahir em vaig enterar que Duolingo, una App que faig servir per (intentar) aprendre idiomes, és un projecte de l’inventor dels Captcha & REcaptcha, i que els usuaris proveïm de traduccions “humanes” tot fent servir l’aplicació! Els REcaptcha en sí mateixos també serveixen per obtenir lectures humanes de porcions de fragments que els OCR no han pogut llegir. NO el coneixia, aquest crack …

    http://es.wikipedia.org/wiki/Luis_von_Ahn

    Em sembla que per Volum i Varietat, aquests dos conjunts de dades que manejen les dues aplicacions poden formar bells conjunts de Big Data, no?

    VA:F [1.9.22_1171]
    Rating: 4.0/5 (1 vote cast)
  27. Un ejemplo de Big Data puede llegar a ser la lectura de contadores ‘smart’ de la luz. Está previsto (por ley) que para el 2018, cada uno de los 29M de hogares españoles con suministro eléctrico, debe tener instalado uno de estos, sustituyendo a los clásicos electromecánicos.
    Estos contadores permitirán facturar el consumo, aplicando el precio fijado, por hora!
    Como hay varias tarifas, y varios tipos de clientes, y otras variables, en unos pocos años, habrá un volumen de datos que será bastante Big.
    Fuente:
    http://www.lavanguardia.com/economia/20140217/54400266536/nuevos-contadores-luz.html

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
  28. 1) Trobo prou interessant la definició que fa el TermCat http://www.termcat.cat/ca/Cercaterm/Cerca/Dades+massives
    Com a exemple proposo la base de dades que, a Catalunya, gestiona l’ICS. No és informació oberta, però és informació de “volum”, “varietat” i també “velocitat”, ja que s’actualitza constantment i a tota hora.
    En aquesta base de dades, accessible dins l’àmbit sanitari, es troben un munt de dades sobre els pacients, les seves famílies, malalties, tractaments, proves analítiques, planificació preoperatòria, etc… Son accessibles –en diferents graus- per personal sanitari (gestió – programació, infermeria, metges, especialistes) tant si pertanyen a la medecina pública com a la concertada. Crec que encara està en fase d’implantació i, per tant, potser des d’alguna de les instàncies no es pot consultar, però la vocació d’aquesta eina és que serveixi per a tota la població i tots els especialistes sanitaris.

    2) Pel que fa a les oportunitats que ens pot proporcionar el Big Data, ho porto al meu terreny: el periodisme. Sobre tot pel fet de poder creuar dades que, en principi, no sembla que puguin aportar informació, al final poden acabar sent grans temes informatius.
    En el cas del periodisme, és evident que un bon treball de refinat i visualització de dades fa que aquestes “parlin” i es poden trobar temes interessantíssims. Poso l’exemple de l’ICIJ, un consorci de periodistes d’investigació que ha fet treballs tan importants com “Secrecy for Sale” http://www.icij.org/offshore/about-project-secrecy-sale i el segon lliurament “Leaked Records Reveal Offshore Holdings of China’s Elite” http://www.icij.org/offshore/leaked-records-reveal-offshore-holdings-chinas-elite

    Són dues mostres de com el Big Data explica històries reals i, per tant, son una interessant font d’informació (oportunitat de trobar temes en el Big Data). Això si, cal que programadors, periodistes i dissenyadors especialitzats en visualització de dades, treballin plegats.

    Finalment, també em pregunto sobre el tema de com preservar la privacitat. Les dades massives ens poden deixar més exposats, però crec que alhora també és socialment més democràtic pel fet que les administracions les posin a disposició dels ciutadans, que són els qui, en definitiva, lliuren les dades i, amb el seus impostos, en financen el manteniment.

    VA:F [1.9.22_1171]
    Rating: 5.0/5 (1 vote cast)

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *