6 Distribucions de Probabilitat
6.1 De l’histograma a la corba de densitat
Alguna vegada t’has aturat a pensar com es distribueixen característiques com l’alçada, el pes o les notes d’un examen en una població molt gran? Si recollim les dades de l’alçada d’uns quants alumnes i construïm un histograma, obtindrem una sèrie de barres esglaonades.
Però, què passa si volem ser més precisos? Per millorar la representació geomètrica de les dades de la nostra població, podem jugar amb dues variables:
- La mida de la mostra (\(N\)): Augmenta els individus per a tenir dades més representatives[cite: 1].
- L’amplada de l’interval (\(w\)): Fes més estretes les classes per afinar el detall i evitar la pèrdua d’informació[cite: 1].
Perquè l’àrea de l’histograma tingui sentit probabilístic, calculem la densitat de probabilitat[cite: 1]:
\[f(x) \approx \frac{\text{Freqüència relativa}}{\text{Amplada interval } (w)}\]
Prova-ho tu mateix! Interactua amb la gràfica següent. Comença augmentant la mida de la mostra (\(N\)) de mica en mica, i després redueix l’amplada de la classe (\(w\)). Fixa’t què passa si fas clic a sobre d’una de les barres.
A mesura que la mostra tendeix a infinit (\(N \to \infty\)) i l’interval tendeix a zero (\(w \to 0\)), el perfil aspre de l’histograma s’adapta perfectament a una funció de densitat contínua i simètrica. Aquesta corba és la Campana de Gauss[cite: 1].
6.2 Més enllà de la Campana: Altres distribucions
Tot i que la Campana de Gauss és la distribució més famosa, no tots els fenòmens del món es comporten de manera simètrica ni contínua. De vegades, les dades tenen comportaments diferents, ja sigui perquè parlem de fets discrets (comptar coses) o perquè hi ha valors atípics que deformen la corba.
6.2.1 L’asimetria en la vida real: Els salaris
Pensa en la distribució dels salaris d’un país. Si fos una distribució normal pura, tindríem tanta gent cobrant per sota de la mitjana com gent cobrant per sobre (i simètricament allunyats). Però la realitat té un límit físic inferior (ningú pot cobrar menys de 0€), mentre que per dalt no hi ha un límit teòric (sempre hi ha algú que pot cobrar més milions).
Això fa que la gran majoria de la població s’agrupi al voltant d’un sou freqüent (la moda, desplaçada cap a l’esquerra), però existeix una minoria que cobra quantitats desorbitades. Aquest patró matemàtic s’anomena Distribució Log-Normal.
Un error molt comú és pensar que si la cua de la dreta s’allarga i cau lentament, significa que hi ha “molta gent”. És just al revés! L’alçada de la corba indica el nombre de persones. La cua de la dreta és molt baixeta (gairebé toca el zero) perquè hi ha molt poca gent cobrant aquests sous, però s’allarga tant perquè les quantitats que cobren arriben molt lluny en l’eix dels diners.
A continuació pots veure dues corbes que representen la distribució salarial de dues societats diferents. Les dues societats tenen exactament la mateixa mitjana salarial (marcada amb la línia de punts).
Observa detingudament el comportament de cada gràfica al voltant de la mitjana i al llarg de la cua de la dreta. Quina d’aquestes dues corbes creus que representa una societat més homogènia i igualitària, i quina una societat més desigual?
Solució: La Corba A (verda) és la societat homogènia i igualitària, i la Corba B (vermella) és la societat desigual.
La Corba A té una desviació típica (σ) petita. La gran majoria de la població cobra sous molt propers a la mitjana salarial i la cua cau molt ràpidament a la dreta perquè no hi ha grans fortunes que la distorsionin.
La Corba B té una desviació típica (σ) gran. Molta atenció aquí: encara que la mitjana sigui la mateixa que a la corba A, la immensa majoria de la població (el pic alt de l’esquerra) cobra bastant per sota de la mitjana. Com s’aguanta llavors aquesta mitjana tan alta? Gràcies a la llarga cua de la dreta: una petita minoria de la societat cobra sous tan extremadament alts que estiren la mitjana matemàtica cap amunt, distorsionant la realitat de la majoria.
6.2.2 Fenòmens rars: Les coces de cavall
La Distribució de Poisson es fa servir per predir fenòmens que passen de forma aïllada i infreqüent en el temps o l’espai (com ara trucades a un call-center d’emergències o accidents de trànsit).
Aquesta distribució va ser formulada pel matemàtic i físic francès Siméon Denis Poisson l’any 1837 (qui per cert va ser professor a l’École Polytechnique i a qui Napoleó va nomenar baró). Poisson va crear la fórmula per intentar predir les decisions dels jurats en els judicis penals.
Però l’aplicació més cèlebre d’aquesta fórmula no la va fer ell, sinó l’estadístic Ladislaus Bortkiewicz l’any 1898. Bortkiewicz volia demostrar que fins i tot els accidents atzarosos més estranys segueixen regles matemàtiques. Va recopilar dades de l’exèrcit prussià durant 20 anys per estudiar quants soldats morien a causa d’una coça de cavall. El resultat va ser sorprenent: les morts s’ajustaven a la perfecció a l’equació que Poisson havia creat seixanta anys enrere!
6.2.3 Explora l’univers de les distribucions
Interactua amb els botons per descobrir com són aquestes distribucions:
6.3 La distribució normal o Gaussiana: \(\mathcal{N}(\mu, \sigma)\)
La distribució normal és la distribució contínua més utilitzada, ja que descriu molts fenòmens naturals i socials on les dades s’agrupen al voltant d’un valor central i es dispersen simètricament. Diem que una variable \(X\) segueix una distribució normal, i ho denotem per \(X \sim \mathcal{N}(\mu, \sigma)\), quan la seva funció de densitat està determinada completament per dos paràmetres geomètrics[cite: 1]: la mitjana i la desviació típica.
1. La Mitjana (\(\mu\)): El centre d’equilibri La mitjana, \(\mu\) (la lletra grega mu), ens indica on està centrat el gràfic. Com que la distribució normal és perfectament simètrica, la mitjana coincideix amb la mediana (el valor que divideix la població en dues meitats iguals) i amb la moda (el valor més freqüent, el pic més alt de la campana). Si modifiques la mitjana, la campana es desplaça al llarg de l’eix horitzontal cap a la dreta o cap a l’esquerra, però manté intacta la seva forma[cite: 1].
2. La Desviació Típica (\(\sigma\)): La concentració de les dades La desviació típica, \(\sigma\) (la lletra grega minúscula sigma), mesura com de disperses o concentrades estan les dades al voltant de la mitjana. * Si \(\sigma\) és petita, vol dir que la majoria de les dades estan molt a prop de la mitjana. La campana serà molt estreta i punxeguda. Trobem poca variabilitat. * Si \(\sigma\) és gran, les dades estan molt més escampades. La campana serà més ampla i aplanada, reflectint una major variabilitat o desigualtat[cite: 1].
Geomètricament, els punts d’inflexió de la corba (on passa de ser convexa a còncava) es troben exactament a una distància d’una desviació típica de la mitjana, és a dir, a \(\mu - \sigma\) i a \(\mu + \sigma\).
La funció matemàtica que descriu aquesta corba (la funció de densitat de probabilitat) pot semblar complexa, però la seva forma només depèn dels valors que prenguin \(\mu\) i \(\sigma\)[cite: 1]. Explora com canvia la campana ajustant aquests paràmetres en la gràfica interactiva inferior:
La forma de la campana depèn de dos valors:
Una màquina envasadora omple bosses de taronges. Sabem que el pes d’aquestes bosses segueix una distribució normal. Utilitza la gràfica interactiva inferior com a calculadora per resoldre els següents reptes de producció[cite: 1]:
- Calibratge: Ajusta els lliscadors de la gràfica perquè les bosses pesin de mitjana 3 kg amb una desviació típica de 0.2 kg[cite: 1].
- Interval central: Mou els punts vermells sobre l’eix horitzontal per calcular quina és la probabilitat que una bossa pesi entre 2.8 i 3.2 kg[cite: 1].
- Defecte de pes: Quina és la probabilitat que pesi menys de 2.9 kg? (Pista: arrossega el punt de l’esquerra el més lluny possible cap al 0)[cite: 1].
- Excés de pes: Quina és la probabilitat que pesi més de 3.15 kg?[cite: 1]
- Gairebé segur: Quina és la probabilitat que pesi entre 1 kg i 5 kg?[cite: 1]
- Gairebé impossible: Quina és la probabilitat que pesi més de 4 kg?[cite: 1]
6.3.1 El càlcul de probabilitats: l’àrea sota la corba
Com passa amb qualsevol variable aleatòria contínua, la probabilitat equival a l’àrea sota la corba de la funció de densitat. Si volem saber la probabilitat que una variable \(X\) prengui un valor comprès entre \(a\) i \(b\), hem de calcular la integral definida de la funció entre aquests dos punts:
\[P(a \leq X \leq b) = \int_{a}^{b} \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2} dx\]
D’aquesta definició se’n deriven tres propietats fonamentals:
- L’àrea total és 1 (el 100%): La probabilitat que la variable prengui qualsevol valor possible és l’esdeveniment segur. \[\int_{-\infty}^{+\infty} f(x) dx = 1\]
- La probabilitat d’un valor exacte és zero: Com que una línia no té amplada, no té àrea. Per tant, en distribucions contínues, la probabilitat de trobar un valor exacte al mil·límetre és \(P(X=a) = 0\).
- Els extrems no canvien l’àrea: A conseqüència del punt anterior, incloure o no els extrems de l’interval no altera el resultat: \(P(a \leq X \leq b) = P(a < X < b)\).
Potser estàs pensant a aplicar la regla de Barrow per resoldre aquesta integral. Doncs tenim un problema! La funció de densitat de la distribució normal no té primitiva expressable mitjançant funcions elementals. És a dir, és matemàticament impossible trobar una funció analítica “fàcil” que, en derivar-la, ens doni aquesta fórmula.
Per sort, no ens quedarem encallats. Per calcular aquestes àrees es fan servir mètodes numèrics d’aproximació que ja venen programats en calculadores, fulls de càlcul i ordinadors, o bé mitjançant l’ús de taules de probabilitat estandarditzades (com veurem més endavant).
Abans d’aprendre a fer servir les taules i estandarditzar, anem a visualitzar què significa exactament buscar aquestes àrees.
Una màquina envasadora omple bosses de taronges. Sabem que el pes d’aquestes bosses segueix una distribució normal. Utilitza la gràfica interactiva inferior com a calculadora visual d’integrals per resoldre els següents reptes de producció:
- Calibratge: Ajusta els lliscadors perquè les bosses pesin de mitjana 3 kg amb una desviació típica de 0.2 kg.
- Interval central: Mou els punts vermells sobre l’eix horitzontal per calcular quina és la probabilitat que una bossa pesi entre 2.8 i 3.2 kg.
- Defecte de pes: Quina és la probabilitat que pesi menys de 2.9 kg? (Pista: arrossega el punt de l’esquerra el més lluny possible cap a prop del 0).
- Excés de pes: Quina és la probabilitat que pesi més de 3.15 kg?
- Gairebé segur: Quina és la probabilitat que pesi entre 1 kg i 5 kg? Què passa amb l’àrea?
Paràmetres del lot
0.0000
6.3.2 Propietats de la probabilitat sota la corba
Com hem vist, calcular probabilitats equival a calcular àrees. Sigui quina sigui la forma exacta de la nostra campana de Gauss, totes les distribucions normals comparteixen unes propietats geomètriques clau.
Si agafem una campana perfectament centrada al 0, la seva simetria ens regala unes dreceres visuals boníssimes per estalviar-nos càlculs. Explora les següents propietats interactuant amb la gràfica i observa els valors sobre les àrees:
1. Àrea Total
6.3.3 La Tipificació: De X a Z
Hi ha infinites distribucions normals, però només tenim una taula de probabilitats: la de la Normal Estàndard \(N(0,1)\).
Per poder utilitzar-la amb qualsevol distribució original \(X \sim N(\mu, \sigma)\), hem de tipificar la variable. Això significa “traslladar i escalar” la nostra campana original per fer-la coincidir de ple amb la campana estàndard (centrada al 0 i amb desviació 1).
La fórmula per fer aquest pas màgic és: \[ Z = \frac{X - \mu}{\sigma} \]
Fixa’t en l’eina interactiva següent. Observa com qualsevol àrea que vulguem calcular a la gràfica original (a dalt) té el seu reflex exacte a la gràfica tipificada (a baix). Pots moure el punt vermell directament sobre la gràfica o utilitzar els lliscadors per canviar la forma de la campana original; veuràs que la probabilitat final sempre es manté idèntica.
6.3.4 L’ús de la taula de la Normal Estàndard
Ja sabem que la tipificació ens converteix qualsevol problema a la variable universal \(Z \sim N(0,1)\). Però, com calculem l’àrea un cop tenim la nostra \(Z\)?
Fins fa poc, les calculadores no tenien aquesta funció integrada, així que els matemàtics van calcular totes les àrees possibles cap a l’esquerra i les van recopilar en un full: la taula de la distribució normal estàndard.
La taula sempre ens dona la probabilitat acumulada cap a l’esquerra d’un valor positiu, és a dir, \(P(Z \le z)\). Per llegir-la, només hem de “trossejar” el nostre número \(Z\) en dues parts:
- La fila: Busquem la part entera i el primer decimal (per exemple, si tenim \(Z = 1.25\), busquem la fila 1.2).
- La columna: Busquem el segon decimal (per al nostre exemple, busquem la columna 0.05).
El valor on es creuen la fila i la columna és la nostra probabilitat (l’àrea ombrejada).
Prova-ho amb la següent taula interactiva. Mou el lliscador per triar un valor de \(Z\) i observa com s’ha de llegir a la taula per obtenir l’àrea: