Data Science és una àrea interdisciplinària que combina matemàtiques, estadística, informàtica i coneixement d'una àrea determinada per extreure informació i coneixement valuós a partir de dades. Inclou tècniques i processos per a la recopilació, neteja, anàlisi, modelatge i presentació de dades, amb l'objectiu de prendre decisions informades i millorar les activitats empresarials, científiques, esportives, polítiques, etc.
Data Science és el procés d'aprendre sobre el món utilitzant dades i programació.
El cicle de vida de la ciència de dades és una seqüència de passos per processar i utilitzar dades:
Fer preguntes: formula preguntes estadístiques que es puguin respondre amb dades.
Considerar les dades: recopila i registra dades, o cerca un conjunt de dades existent.
Analitzar dades: realitzar anàlisis estadístiques, executar càlculs i/o crear visualitzacions de dades per identificar patrons i relacions.
Interpretar dades: respondre preguntes i resumir els resultats.
És un cicle que es repeteix, generalment els resultats d'una anàlisi ens plantegen noves preguntes.
Les dades ens envolten, però què són exactament? Les dades són un valor assignat a una cosa. Prenem per exemple les persones de la imatge següent. Quines dades podem obtenir d'aquest grup de persones?
El color dels pantalons o la samarreta
Si porten bossa de mà o no
El color de la pell o els cabells
Potser en podem estimar l'edat, l'alçada o el pes
etc.
Per tal de poder treballar les dades amb un ordinador, aquest ha de poder-les llegir i processar, per fer-ho els ordinadors necessiten que les dades estiguin estructurades. Generalment, les dades s'estructuren en format matricial o de taula, on les columnes són les característiques o atributs que mesurem o observem (les variables) i les files són les unitats d'observació (o senzillament unitats o datapoints), són els individus o entitats sobre els que recollim la informació que ens interessa.
Quan realitzem aquestes observacions o mesures no només sobre una unitat d’observació aïllada, sinó sobre un conjunt més o menys nombrós d’unitats del mateix tipus, el conjunt de tots aquests resultats configuren la base de dades o, senzillament, les dades o el dataset.
En general les dades que recollim es poden classificar en dos grans grups: dades quantitatives i dades qualitatives (o categòriques).
Les dades quantitatives són dades numèriques que es poden comptar o mesurar. S'utilitzen per mesurar una quantitat d'alguna cosa o per comparar dues dades per veure quina és menys o més. Alguns exemples de preguntes que es responen amb dades quantitatives són:
Quants gots de llet has begut avui?
Quantes hores dormen els adolescents?
Quin és el preu mitjà d'un telèfon mòbil?
Les dades qualitatives es poden dividir en diferents categories. S'utilitzen per classificar, no mesurar. Alguns exemples de preguntes que es responen amb dades qualitatives són:
Quines són les teves galetes preferides?
Quin mitjà de transport utilitzes per anar a l'institut?
Quin és el color de cotxe més venut?
En general, utilitzem dades categòriques per respondre "de quin tipus?", i dades quantitatives per respondre "quant?".
Cal tenir present que sovint s'utilitzen números per identificar les categories d’una variable qualitativa; això no la converteix en quantitativa. Així, per exemple, encara que a l’hora d’entrar les dades, codifiquem amb un 1 les persones que porten bossa de mà i amb un 0 les que no, la variable has_bag continua essent qualitativa.
Per altra banda, sovint, a l’hora de fer l’anàlisi estadística, una variable inicialment quantitativa passa a ser considerada qualitativa si decidim agrupar els seus valors numèrics en intervals o categories. Així, per exemple, ens pot interessar que la variable edat (age) sigui considerada una variable qualitativa, sigui amb 3 o amb un altre nombre de categories.
Per analitzar dades les eines més utilitzades són:
Fulls de càlcul: Excel, LibreOffice o Google Sheets
SQL: un llenguatge de consulta de bases de dades per a l'extracció i l'anàlisi de dades.
Tableau: una eina visual d'anàlisi de dades i informes.
R: un llenguatge de programació estadística per a l'anàlisi de dades.
Python: un llenguatge de programació versàtil amb moltes llibreries per a l'anàlisi de dades.
Per comunicar els resultats i ha eines específiques per realitzar informes visuals o explicar coses a partir de les dades (Data Storytelling), com per exemple, l'eina gratuïta Flourish.