Un cop hem preparat i explorat les nostres dades per fer-nos una idea general dels valors de què disposem. Arriba l'hora d'analitzar-les per tal de respondre la pregunta o preguntes inicials.
En aquesta fase s'acostumen a:
Calcular noves variables, paràmetres o modificar els actuals.
Resumir el conjunt de dades complet amb taules dinàmiques.
Fer gràfics per trobar patrons i relacions entre variables.
Trobar tendències.
Sovint per poder analitzar les dades haureu de fer algun petit càlcul, com canviar les unitats d'alguna de les variables o crear una nova variable a partir de les que teniu que us sigui més útil a l'hora de fer comparacions o mostrar els resultats. També és habitual fer algun tipus de càlcul per obtenir un valor que us permeti respondre una pregunta.
El full de càlcul també té una altra potent eina d'anàlisi descriptiva anomenada taules dinàmiques. En poques paraules, això és el que fan:
Les taules dinàmiques resumeixen conjunts de dades complets sense haver d'escriure fórmules, crear columnes noves o organitzar les dades de cap manera en particular. Us permeten combinar dades de maneres que revelen les relacions que hi ha a les dades i us les mostren d'una forma més entenedora. No canvien les vostres dades, tenen una pila de funcions útils integrades i utilitzar-les de manera eficaç pot reduir moltes tasques repetitives, estalviant-vos temps.
Podríem fer el mateix manualment amb una combinació de diverses funcions, com ara ordenar i filtrar, i algunes fórmules, ja que us permeten reorganitzar i extreure petits fragments de dades. Les taules dinàmiques fan aquestes coses per al conjunt de dades complet i us el presenten perquè ho pugueu veure tot.
La visualització de dades no només consisteix a fer que el que heu trobat es vegi bé, sovint és una manera d'obtenir informació sobre les dades. Simplement les persones entenem millor els gràfics que els números i les taules. Mireu l'exemple següent: quant de temps es triga a veure la tendència a la taula, quant de temps al gràfic?
El gràfic de línies permet representar el canvi d’una variable al llarg del temps. La variable temporal o contínua se situa a l’eix x, i es construeix disposant una sèrie de punts connectats per una línia segons l’alçada que marca la variable col·locada a l’eix y.
Un gràfic de línies pot contenir una o més línies, de manera que permet comparar l’evolució de dades de diferents categories, sovint representades amb colors diferents. En cas que només hi hagi una línia, l’àrea que queda entre aquesta i l’eix x es pot pintar d’un color concret; així obtindrem el que s’anomena un gràfic d’àrea.
Exemple de gràfic de línies que representa l’evolució del total de vendes de dos productes d’una empresa:
Ja els vam veure a la part d'exploració de les variables categòriques. També s'utilitzen per comparar diverses columnes de dades:
Amb un gràfic combinat, podeu crear una visualització que mostri dos tipus diferents de dades, per exemple, tendències i categories. Combinen un gràfic de línies amb un gràfic de barres. Aquests gràfics es poden utilitzar per representar diferents tipus de dades en una sola imatge, i permeten veure les relacions entre les diferents variables de manera més clara i precisa.
Cal tenir present que els punts de dades de cada sèrie es representen a diferents escales. Per a més claredat, intenteu utilitzar unitats diferents per a la mesura en cada sèrie de dades.
Què passa si volem saber com depenen les diferents variables les unes de les altres? Bé, en aquest cas tenim els gràfics de dispersió. Els gràfics de dispersió revelen la relació entre dues variables quantitatives traçant-ne una a l'eix x i l'altra a l'eix y.
Mireu aquest diagrama de dispersió: tenim un valor numèric a l'eix X i un altre valor numèric a l'eix Y. Els punts són un punt de dades. Té certes deficiències: els punts se superposen i, per tant, si hi ha molts punts, no es veu realment on són. Això es podria resoldre afegint transparència o seleccionant un interval específic per mostrar. No obstant això, un patró o tendència es fa evident: per sobre d'una certa esperança de vida, els costos de l'assistència sanitària augmenten de manera espectacular.
Abans de poder dibuixar un diagrama de dispersió, hem de prendre una decisió important: quina variable és explicativa i quina és la resposta? És habitual utilitzar l'eix horitzontal per a la nostra variable explicativa i l'eix vertical per a la variable de resposta.
Si per exemple volem respondre a la pregunta:
"Creus que els animals més joves de la protectora s'adopten abans? "
En aquest cas, estem sospitant que el pes d'un animal pot explicar quant de temps triga a ser adoptat, o que quant de temps triga a ser adoptat pot explicar quant pesa un animal? El primer té sentit i reflecteix la nostra sospita que l'edat juga un paper en el temps d'adopció.
Algun punt de dades sembla inusualment llunyà del núvol de punts principal? Quins animals són aquests? Aquests punts s'anomenen observacions inusuals. Les observacions inusuals en un diagrama de dispersió són com els valors atípics d'un histograma, però més complicades perquè és la combinació de valors x i y el que els fa diferenciar de la resta del núvol.
En les observacions inusuals sempre val la pena pensar-hi!
De vegades són només aleatòries . Félix sembla haver estat adoptat ràpidament, tenint en compte el que pesa. Potser va conèixer la família adequada d'hora, o potser ens assabentem que viu a prop, es va perdre i la seva família va venir a buscar-lo. En aquest cas, potser hauríem de pensar a fons sobre si és o no adequat eliminar-lo del nostre conjunt de dades.
De vegades us poden donar una visió més profunda de les vostres dades. Potser Felix és una raça especial, popular (i pesada!) de gats, i descobrim que al nostre conjunt de dades li falta una columna important per a la raça!
De vegades, les observacions inusuals són els punts que busquem ! I si volguéssim saber quins restaurants tenen una bona relació qualitat-preu i quins són estafes? Podríem fer un diagrama de dispersió de ressenyes de restaurants en comparació amb els preus i buscar una observació que estigui molt per sobre de la resta de punts. Seria un restaurant les crítiques del qual són inusualment bones pel preu.
Ara mireu aquesta simulació. Els nombres i el diagrama de dispersió provenen dels mateixos conjunts de dades. Veiem que els patrons del diagrama de dispersió varien molt, però els números que resumeixen el conjunt de dades amb prou feines canvien!
Els científics de dades i els estadístics utilitzen els ulls constantment. De vegades s'amaga un patró a les dades, que no es pot veure només centrant-se en els números i les mesures. Fins que no mirem realment la forma de les dades, no veurem tota la imatge.
Quan es mira un diagrama de dispersió d'animals, sembla que la quantitat que pesa un animal pot tenir alguna cosa a veure amb el temps que triga a ser adoptat.
Però si etiquetem els punts per animal, observem que cada punt de dades després de 25 pounds pertany a un gos del refugi! Tots els gats estan agrupats en el rang de pes més baix, cosa que dificulta veure com les setmanes d'adopció poden relacionar-se amb el pes d'un gat.
Segons la pregunta que ens fem, de vegades té més sentit preguntar sobre "només els gats" o "només els gossos". Fer una mitjana de tots els animals junts ens donarà una resposta, però pot ser que no sigui una resposta útil.
De vegades, fets importants sobre mostres es perden si les barregem amb la resta de la població!
Abans d'establir les correlacions entre variables em d'aprendre a identificar patrons en els gràfics de dispersió, aprenent a caracteritzar-los com a lineals, corbats o que no mostren un patró clar. Determinar que una forma és lineal és un requisit previ per procedir a la correlació i la regressió lineal. La forma indica si una relació és lineal, no lineal o indefinida.
Alguns patrons són lineals i s'agrupen al voltant d'una línia recta inclinada cap amunt o cap avall.
Alguns patrons no són lineals i poden semblar una corba o un arc.
I de vegades no hi ha cap relació ni patró!
No ho veurem en aquest curs, però alguns patrons no lineals es poden convertir en lineals mitjançant una funció quadràtica, exponencial o logarítmica aplicada al seu eix X o Y.
També podem examinar la direcció d'una relació lineal.
Positiu: la línia s'inclina amunt mentre mirem d'esquerra a dreta. Les relacions positives són, amb diferència, les més comunes a causa de les tendències naturals de les variables a augmentar en tàndem. Per exemple, "com més gran és l'animal, més tendeix a pesar".
Negatiu: la línia baixa mentre mirem d'esquerra a dreta. També es poden produir relacions negatives. Per exemple, "com més gran és un nen, menys paraules noves aprèn cada dia".
Explorarem una altra qualitat d'una possible relació lineal: la seva força. La força indica fins a quin punt les dues variables estan correlacionades.
Una relació és forta si conèixer el valor x d'un punt de dades ens dóna una molt bona idea de quin serà el seu valor y (conèixer l'edat d'un estudiant ens dóna una idea molt bona de quin grau està fent). Una relació lineal forta significa que els punts del diagrama de dispersió estan agrupats de manera estreta al voltant d'una línia invisible.
Una relació és feble si x ens parla poc sobre y (l'edat d'un estudiant no ens diu gaire sobre el seu nombre de germans). Una relació lineal feble significa que el núvol de punts està dispers de manera molt fluixa al voltant de la línia.
Fins ara hem après que una correlació es pot descriure mitjançant tres paràmetres: Forma, Direcció i Força. Els estadístics i els científics de dades tenen una manera més curta de descriure els tres, anomenada valor r.
r és un valor entre -1 i 1. És positiva o negativa segons si la correlació és positiva o negativa. Zero significa que no hi ha cap correlació, i les correlacions més fortes estaran més properes a -1 o 1. Un valor d'aproximadament ±0,65 o ±0,70 o més es considera normalment una correlació forta, i qualsevol cosa entre ±0,35 i ±0,65 està "moderadament correlacionada". Qualsevol cosa inferior a uns ±0,25 o ±0,35 es pot considerar feble. Tanmateix, aquests talls no són una ciència exacta! En alguns contextos una r amb un valor de ±0,50 es podria considerar impressionantment fort!
La correlació NO implica causalitat!
Mira aquest gràfic:
Es veu clarament que, a mesura que el nombre de pirates s'ha reduït, la temperatura de l'atmosfera ha augmentat. Per tant, això significa que l'escassetat de pirates és la veritable causa de l'escalfament global!?
En AQUESTA web pots veure altres exemples divertits de correlacions entre variables.
La mitjana, la mediana i la moda són tres maneres diferents de mesurar el "centre" d'un conjunt de dades en una dimensió. Cadascun representa una manera diferent de resumir en un únic valor un munt de punts d'una recta numèrica. Si el "centre" dels punts d'una recta numèrica unidimensional és un únic punt, quin és el "centre" dels punts d'un núvol bidimensional ?
El que hem de fer és trobar una línia, anomenada línia de millor ajust o línia de regressió , que estigui al centre d'aquest núvol. Cada punt de la nostra gràfica de dispersió "tiba" la línia, els punts per sobre de la línia l'arrosseguen cap amunt i els punts per sota l'arrosseguen cap avall. Aquesta línia es pot representar matemàticament en forma d'equació, anomenada equació de predicció. Donat un valor a l'eix x, aquesta equació ens permet predir quin pot ser el valor corresponent a l'eix y. Això ens permet fer prediccions a partir de les nostres dades.
La línia recta que s'ajusta millor als punts d'una gràfica de dispersió té diversos noms, segons el context. Tots els termes següents fan referència al mateix concepte:
Línia de regressió
Línia de millor ajust
Línia de mínims quadrats
Predictor
Línia de tendència
En AQUESTA simulació podeu veure com canvia la línia de regressió i la seva equació en funció de la posició dels punts.