La primera fase del cicle de vida del treball amb dades consisteix en definir el problema que haurem de resoldre amb les dades. Definir el problema significa passar d'un tema (p. ex., la contaminació de l'aire) a una o diverses preguntes específiques (l'ús de bicicletes ha reduït la contaminació de l'aire?). Ser específic t'obliga a formular la teva pregunta d'una manera que indiqui quin tipus de dades es necessitaran. Que alhora ajuda a definir el projecte: les dades necessàries estan disponibles fàcilment? O sembla que alguns conjunts de dades clau probablement seran difícils d'aconseguir?
A l'hora de formular les preguntes hem de procurar que aquestes siguin del tipus estadístic. Una pregunta estadística és una pregunta que es pot respondre recopilant dades que varien. Per exemple, "Quants anys tens?" no és una pregunta estadística, en canvi, "Quina és l'edat mitjana dels alumnes de la universitat?" és una qüestió estadística, ja que per respondre a la pregunta hauríeu de determinar les edats de tots els alumnes de la universitat i hi hauria variabilitat en aquestes dades (no tots els alumnes tenen la mateixa edat). Però calcular la mitjana és només pura aritmètica! Una pregunta estadística més correcta seria "Quin és l'edat típica dels alumnes de la universitat?", perquè no especifica un procés aritmètic concret. La resposta podria ser la mitjana, la mediana o fins i tot la moda! Esbrinar quin utilitzar depèn de la distribució de les dades, que parlarem més endavant.
La fase de definició del problema ens indica quines dades es necessiten, el següent pas és obtenir-les. Aquesta fase pot acabar amb el projecte, ja que no pots fer gran cosa si no tens dades! Hi ha dues maneres d'obtenir dades: recollir-les vosaltres mateixos o buscar dades recollides per algú altre. Als següents apartats aprofundirem en l'obtenció de dades, però abans hem d'introduir un nou concepte de l'estadística, la inferència.
La inferència estadística consisteix a mirar una mostra i intentar inferir alguna cosa que no saps sobre una població més gran. La inferència s'utilitza per obtenir informació en pràcticament tots els camps d'estudi que pugueu imaginar: medicina, negocis, política, història; fins i tot art!
Suposem que volem estimar quin percentatge de tots els catalans pensa votar un determinat partit polític. No tenim temps de preguntar a cada persona a qui té intenció de votar, de manera que els enquestadors prenen una mostra dels catalans i dedueixen com se senten tots els catalans a partir de la mostra.
Enquestar 10 persones no és suficient per demostrar que un partit està al capdavant. Però si enquestem prou gent podem inferir alguna cosa sobre tota la població. La mida de la mostra importa!
I què passa si fem l'enquesta només a barris o poblacions que tenen rendes altes? Segurament el mostreig d'aquesta població ens revelaria un resultat erroni, esbiaixat, ja que segurament la majoria dels enquestats tindran tendència a votar partits que defensin mesures beneficioses per les rendes altes, com ara, abaixar els impostos a les rendes altes.
En recopilar dades, els científics de dades han d'assegurar-se que treballen amb una mostra aleatòria que reflecteix tota la població. Si per exemple fem una enquesta ràpida sense tenir en compte l'aleatorietat de la mostra segurament els resultats que obtindrem seran molt dolents! Però també es pot produir un mostreig deficient quan algú intenta ocultar alguna cosa o oprimir o esborrar un grup de persones.
Les males mostres poden ser un accident o una malícia!
Molta gent creu erròniament que les poblacions més grans han d'estar representades per mostres més grans. De fet, les fórmules que utilitzen els científics de dades per avaluar com de bé funciona una mostra només es basen en la mida de la mostra, no en la mida de la població.
Per aprendre més sobre aquest tema podeu consultar aquests dos recursos: la mida de la mostra i el biaix de mostreig.
Hi ha moltes maneres de recollir les vostres pròpies dades:
Fent un experiment i enregistrant observacions i resultats
Emmagatzemant dades de sensors
Fent algun tipus de cerca bibliogràfica o analitzant textos
Fent enquestes
Cal dedicar temps a dissenyar els nostres experiments i/o enquestes, ens hem d'assegurar que les dades que obtindrem ens serviran per a l'anàlisi que volem fer i que seran representatives de la població que es vol estudiar. Això és important per garantir la validesa de les conclusions i les inferències que es poden extreure de les dades.
Les enquestes són molt útils per recollir dades i molta gent les utilitza. Quan elaborem el formulari val la pena pensar com el podeu fer perquè sigui fàcil d'omplir, els formularis massa llargs o difícils redueixen les possibilitats que la gent els respongui correctament; redueixen la fiabilitat de les dades. També cal pensar en el públic a qui va destinat, i molts altres aspectes que ajudaran a que obtingueu unes bones dades de la vostra enquesta. En AQUEST document de la Universitat de York hi ha un bon recull de punts a tenir en compte.
De cara la posterior anàlisi de l'enquesta és molt important que verifiquem i comprovem les respostes per tal d'obtenir dades el màxim de netes possible. Els humans cometem errors, i això pot passar quan estem recopilant dades o introduint dades. De qualsevol manera, el resultat són dades brutes. Hi ha moltes dades brutes amb les quals els científics de dades han de tractar!
Tot i que és gairebé impossible garantir dades 100% netes, la majoria de les eines d'enquesta inclouen opcions avançades per ajudar els científics de dades a obtenir dades tan netes com sigui possible. Aquí teniu una visió general d'aquestes eines:
Preguntes obligatòries: fent que una pregunta sigui "obligatòria", podem eliminar les dades que falten i les cel·les en blanc. Quines preguntes de l'enquesta s'han de demanar?
Format de la pregunta: quan teniu un nombre fix de categories, un menú desplegable pot garantir que tothom en seleccioneu una, i només una! - categoria.
Instruccions descriptives: de vegades és útil afegir instruccions! Això pot recordar als enquestats que utilitzin metres en lloc de centímetres, per exemple, o donar-los una guia addicional per respondre amb precisió.
Validació de respostes: la majoria de les eines d'enquesta us permeten especificar si algunes dades han de ser un número o un text, cosa que ajuda a protegir-vos de tipus inconsistents. Sovint, fins i tot també podeu especificar paràmetres per a les dades, com ara "text que és una adreces de correu electrònic" o "números entre 24 i 96".
Vivim en un món on es recopilen dades sobre gairebé qualsevol tema que us pugueu imaginar. Per posar alguns exemples:
Els sensors climàtics estan recopilant dades sobre temperatura, humitat, oxigen i més... a pràcticament tot el món.
Les dades del cens fan un seguiment del nombre de diferents grups de persones, així com de la seva educació, nivell d'ingressos i molt més.
Empreses com Facebook, Amazon i Google recullen quantitats massives de dades dels llocs web que visiteu, de què parleu en línia, què compreu, etc.
Aquestes dades s'utilitzen per definir les polítiques públiques, aprovar medicaments, decidir quins anuncis veieu i molt més.
Per sort, cada cop és més habitual que les empreses i organitzacions publiquin les seves dades a internet millorant així la transparència, la innovació i la col·laboració amb la comunitat. Quan busqueu dades recollides per algú altre, és molt important assegurar-vos que les dades provenen d'una font creïble (qui ha realitzat el dataset?, quina metodologia han seguit?), si les dades no són correctes tota la resta del treball serà en va.
En els següents subapartats veurem diferents tipus de llocs on podem trobar dades:
En AQUEST document et deixo un recull de fonts de dades que et poden ser útils, però n'hi ha moltes més! Per trobar la font adequada per cercar les vostres dades, heu de tenir en compte el següent:
Qui és probable que reculli les dades sobre això? Quin tipus d'organització?
Cada cop hi ha més organitzacions publiquen les seves dades:
Governs: recullen dades per ajudar-los amb les decisions polítiques. Molts governs tenen webs on publiquen les dades en obert i/o Instituts d'Estadística.
Organitzacions sense ànim de lucre: hi ha organitzacions que recullen i publiquen dades. Per exemple, l'Organització Mundial de la Salut o el Fons Monetari Mundial.
Empreses comercials, per exemple empreses de màrqueting.
Acadèmics: investigadors i institucions recullen i publiquen dades com a part de projectes de recerca.
Trobar dades directament amb un motor de cerca (com ara Google) no és gens fàcil. Un consell que us pot ser útil és afegir paraules com "dades" o "estadístiques" als vostres termes de cerca. O directament utilitzar el buscador de datasets de Google.
Podeu trobar estadístiques útils en articles de revistes. És possible que algú més ja hagi fet recerca en l'àrea que us interessa. Els investigadors solen publicar les seves conclusions en articles de revistes, incloses algunes de les dades. També trobareu estadístiques a diaris i revistes. Sigueu crítics amb les vostres fonts, assegureu-vos que són fonts acreditades i autoritzades.
És possible que el que busqueu no existeixi, potser no s'ha recopilat mai o no es publica perquè la gent ho vegi. O pot ser que si es tracta d'informació molt actual encara no estigui disponible, o si és més antiga potser ja no es pot veure.
No us rendiu massa aviat! I procureu ser creatius:
Pots afinar el teu tema d'investigació, canviant l'àrea geogràfica, el període de temps o les altres variables d'alguna manera?
Pots utilitzar indicadors intermedis?
Cerca en ubicacions no òbvies
Els indicadors intermedis (proxy indicators) són variables que es fan servir per a mesurar o estimar alguna altra variable que és difícil de mesurar directament. Aquestes variables s'utilitzen com a substituts o indicadors en lloc de la variable real per a analitzar o avaluar un fenomen o una tendència.
Per exemple:
Indicador de salut: en lloc de mesurar directament la salut d'una persona, es pot utilitzar el seu índex de massa corporal (IMC) com a proxy.
Indicador de nivell econòmic: en lloc de mesurar directament la riquesa d'una persona o família, es pot utilitzar la seva adreça o el seu codi postal com a proxy.
Indicador de qualitat de vida: en lloc de mesurar directament la qualitat de vida d'una comunitat, es pot utilitzar el nombre d'esdeveniments culturals o recreatius que es realitzen en una àrea com a proxy.
Indicador de seguretat alimentària: en lloc de mesurar directament la seguretat alimentària d'una població, es pot utilitzar el preu dels aliments bàsics o el nombre de persones que depenen de l'ajuda alimentària com a proxy.
Indicador de desenvolupament: en lloc de mesurar directament el desenvolupament d'un país, es pot utilitzar el nombre d'escoles construïdes o el nombre de llocs de treball creats com a proxy.
És important destacar que els indicadors intermedis no són sempre precisos i poden tenir limitacions, així que és important avaluar la seva adequació en cada cas i considerar altres indicadors si és necessari.
Sovint no trobarem les dades directament en format de full de càlcul (.xls, .ods) i ens caldrà importar-les. Hi ha diversos tipus de fitxers de dades que es poden importar a un full de càlcul, com ara:
Fitxers CSV (Comma Separated Values): són fitxers de text que utilitzen comes per separar les diferents columnes de dades. TSV
Els fitxers TXT (Text), és un tipus de fitxer que conté només text i sense formatació. Aquest tipus de fitxers és el més bàsic i el més simple per a l'emmagatzematge de dades i és compatible amb gairebé tots els sistemes operatius i aplicacions.
Fitxers JSON (JavaScript Object Notation) és un tipus de fitxer que es fa servir per emmagatzemar dades estructurades en forma de parelles clau-valor. Per importar JSON: https://apipheny.io/import-json-google-sheets/
Per importar aquests formats de fitxer a Google Sheets, podeu seguir els següents passos:
Accediu a Google Sheets i obriu o creeu un full de càlcul.
Feu clic a "Arxiu" i seleccioneu "Importar".
Seleccioneu l'opció "Importar un fitxer" i trieu el fitxer que voleu importar.
Seleccioneu "Text delimitat" com a format de fitxer i configureu les opcions segons les vostres necessitats (per exemple, el tipus de separador de camp).
Feu clic a "Importar" i esperi que Google Sheets processi el fitxer.
Una vegada que el fitxer s'ha importat, es mostrarà en un full de càlcul de Google Sheets. A partir d'aquest moment, podeu utilitzar les funcions i eines de Google Sheets per manipular i analitzar les dades.