Abans de començar l'anàlisi, és important explorar les dades mitjançant visualitzacions o estadístiques bàsiques per obtenir una comprensió inicial de les dades que tenim. Convé entendre la distribució de les diferents variables. La distribució ajudarà a comprendre la forma i les propietats principals d’una variable. Així mateix, es detecta si hi ha una distribució normal, de llarga cua o més aviat aleatòria dels valors. Això ens indicarà, per exemple, si és adequat fer servir mesures estadístiques com la mitjana o la mediana.
Per mostrar les dades de les columnes categòriques, els gràfics més utilitzats són els de barres i els de sectors. Aquests gràfics mostren quant (en forma de recompte o de percentatge) de la mostra pertany a cada categoria. Si es basen en dades de mostra d'una població més gran, les fem servir per inferir la proporció de tota una població que podria pertànyer a cada categoria. En general, els gràfics de sectors mostren percentatges i els gràfics de barres mostren els recomptes.
Un gràfic de sectors només pot mostrar una variable categòrica, en canvi, un gràfic de barres es pot utilitzar per mostrar-ne dues o més. Els gràfics de sectors tenen una porció per a cada categoria representada. A diferència dels gràfics de barres, les categories buides no s'inclouran en un gràfic circular. En comparar gràfics de barres, és important llegir les escales dels eixos y. Si les escales no coincideixen, és possible que una barra més alta no representi un valor més gran.
Els gràfics de barres s'assemblen molt a un altre tipus de gràfic, anomenat "histograma", però en realitat són força diferents, ja que els histogrames mostren dades quantitatives. Els veurem en l'apartat següent.
Per fer un gràfic circular o de barres amb els fulls de càlcul, només cal que seleccioneu la columna de dades i aneu al menú: Insereix -> Gràfic i seleccionar el tipus de gràfic corresponent.
Els histogrames són un tipus de visualització que representa la distribució d'una variable numèrica. Serveixen per mostrar la freqüència amb què apareixen els diferents valors o intervals de valors d'una variable.
Els histogrames són útils per visualitzar la distribució d'una variable i per determinar la forma de la distribució, com ara si és normal o no. També poden ajudar a identificar valors atípics (outliers) o valors que es desvien significativament de la resta, i a detectar la presència de múltiples modes o pics en la distribució.
En resum, els histogrames són una eina valuosa per explorar les dades numèriques i per obtenir una comprensió ràpida i visual de la distribució d'una variable.
Per convenció, les barres dels histogrames no s’han de separar entre si. La forma d’un histograma dependrà del rang de valors que representa cada barra. Aquest rang és important, ja que és el que ens permetrà agrupar els valors i, per tant, acabarà definint la forma de l’histograma. Generalment, els programes decideixen automàticament la mida d’aquest rang en funció del conjunt de barres, tot i que es pot editar. A continuació es mostren dues distribucions de les mateixes dades, utilitzant dos rangs diferents per agrupar els valors del conjunt de dades. El de l’esquerra fa servir un rang de 0,5, mentre que el de la dreta en fa servir un de 0,25.
No hi ha una fórmula exacta i ideal per calcular aquest rang, de manera que serà feina de l’analista de dades provar-ne de diferents per fer-se una idea de com es distribueixen les dades.
La forma és una manera de descriure ràpidament quins valors són més o menys comuns en un conjunt de dades. Alguns poden ocórrer amb molta freqüència, mentre que altres són rars. Aquesta descripció s'anomena distribució, perquè mostra on s'agrupen els punts de dades. Els científics de dades passen molt de temps mirant els gràfics per examinar-ne la forma! Si tot el que mires són els números, perds molta informació sobre el teu conjunt de dades.
Alguns dels aspectes que s'acostumen a observar en la distribució d'un histograma són:
Simetria: si la forma és simètrica, significa que les dades tenen una distribució normal o Gaussiana. És la forma més habitual. P.ex: És tan probable que un nen de 12 anys estigui un cert nombre de centímetres per sota de l'alçada mitjana com ho sigui aquest nombre de centímetres per sobre.
Asimetria: quan les dades són asimètriques, la majoria de dades s'ubiquen a la dreta o a l'esquerra de la gràfica. Significa que les dades no tenen una distribució normal. Això pot ser a causa de la presència de valors extremes o outliers. P.ex: Suposeu que teniu les dades del salari anual de 100 treballadors d'una empresa. Si la forma de l'histograma és asimètrica, significa que hi ha una gran desigualtat en els salaris, amb molts empleats guanyant poc i alguns empleats guanyant molt.
Pic: un pic alt a l'histograma indica que hi ha un gran nombre de dades concentrades en un rang específic. La barra més alta indica la moda, o el valor més freqüent, en les dades. P.ex: Suposeu que teniu les dades de la freqüència de compra de productes en una botiga en línia. Si hi ha un pic alt en l'histograma per a un producte específic, significa que aquest producte és molt popular i que moltes persones el compren de forma freqüent.
Diversos pics: un histograma amb diversos pics indica una distribució bimodal o multimodal en les dades. Aquest tipus de distribució pot ser un indicador de diverses realitats, com ara la presència de diferents grups en les dades. És important investigar les causes de la distribució bimodal o multimodal, ja que això pot ajudar a explicar les característiques de les dades i a prendre millors decisions. P.ex: la distribució dels preus de les habitacions d'hotel en una ciutat. Pot ser que hi hagi un grup d'hotels de gamma baixa, un grup d'hotels de gamma mitjana i un grup d'hotels de gamma alta, cada un amb preus diferents. Això resultaria en un histograma amb tres pics, un per a cada grup d'hotels.
Amplada: l'amplada de les barres en un histograma pot indicar la precisió o la resolució de les dades. Si les barres són molt estretes, significa que les dades són precises, mentre que si les barres són més àmplies, les dades poden ser menys precises.
Suposem que analitzem l'alçada dels alumnes de 12 anys i gairebé tots els valors estan agrupats entre 127 i 178 centímetres. Hi ha un valor atípic molt baix, però, a 15 centímetres. Hi ha realment un nen de 12 anys de 15 centímetres? Probablement no! Això podria ser una errada d'ortografia (potser algú volia escriure "150" en lloc de "15"?). Les dades "escombraries" són perjudicials, perquè poden canviar dràsticament els vostres resultats!
Suposem que analitzem el nombre de minuts que triguen els aficionats a trobar els seus seients en un estadi i gairebé tots els valors s'agrupen entre 4 i 16 minuts.
Hi ha un valor atípic molt alt, però, als 35 minuts. Realment algú va trigar 35 metres a trobar el seu seient? Bé, això és molt possible! Potser és algú que triga molt de temps a pujar les escales, o algú que s'ha hagut de desviar molt per utilitzar la rampa de la cadira de rodes!
Un valor atípic pot ser dades "escombraries" que heu d'eliminar, o pot ser una part molt important de la vostra anàlisi. Com a científic de dades, un valor atípic és un motiu per aturar-vos i observar-lo detingudament. I tant si decidiu conservar-lo com eliminar-lo, n'heu de saber explicar els motius.
A la vida real, sovint ens trobem en situacions on s'ha de resumir un conjunt de dades en un sol valor. P.ex: per accedir a la universitat els estudiants es resumeixen en la nota del seu expedient acadèmic.
Resumir un conjunt de dades gran significa que es perd part de la informació, per la qual cosa és important escollir un resum adequat. Escollir el resum incorrecte pot tenir greus implicacions! Cada tipus de resum té situacions on informa bé del que és típic, i d'altres en què realment no fa justícia a les dades. De fet, la forma de les dades pot tenir un paper molt important en si un tipus de resum és adequat o no!
Una de les maneres en què els científics de dades resumeixen les dades quantitatives és parlant del seu centre, preguntant literalment "quin és un valor típic d'aquesta mostra?", amb l'esperança d'inferir alguna cosa sobre una població més gran. Però hi ha moltes maneres diferents de definir "centre", i cada mètode té punts forts i febles.
Els més utilitzats són:
La mitjana: és l'indicador més utilitzat per resumir la tendència central de la distribució d’una variable quantitativa. La mitjana aritmètica correspon al centre matemàtic dels valors de la distribució. Es calcula sumant tots els valors de la distribució i dividint el resultat pel nombre de valors o dades.
La mediana: és el valor de la distribució que, un cop ordenades les dades de menor a major, deixa un 50% de dades per sota i l’altre 50% per sobre. La mediana té una característica que no té la mitjana aritmètica, i que en alguns casos la pot fer més representativa o útil que la mateixa mitjana. Aquesta característica és l'anomenada robustesa. La robustesa fa referència al fet que la mediana no es veu afectada per possibles valors extrems o atípics de la distribució de dades.
La moda: és el valor més freqüent d’una distribució de dades. La moda no és un indicador molt utilitzat per caracteritzar la tendència central de una distribució, però pot ser útil per obtenir un perfil característic d’una mostra de dades.
Alguns dels criteris per triar l'indicador de tendència central més adequat, són:
L'indicador de tendència central més utilitzat i més representatiu per a variables quantitatives és la mitjana.
De totes maneres, si la distribució de la variable estudiada és força asimètrica (o sigui, que tingui valors extrems o atípics), la mediana pot ser més representativa que la mitjana, ja que no es veu afectada pels valors extrems. En aquests casos, és aconsellable indicar els dos valors (mitjana i mediana) per interpretar de manera més adequada la centralitat de la distribució de dades.
La moda rarament s'utilitza per resumir dades quantitatives. És molt comú com a resum de dades categòriques, que ens indica quina categoria apareix amb més freqüència.