Estadística

Distribucions de Probabilitat: La Normal

Matemàtiques 2n Batxillerat

De l'Histograma a la Corba

Distribució de les alçades d'una població:

1. Mida de la mostra (N): Augmenta els individus per a tenir dades més representatives.

2. Amplada de l'interval (w): Fes més estretes les classes per afinar el detall i evitar la pèrdua d'informació.

Densitat de probabilitat

$f(x) \approx$ Freqüència relativa Amplada interval (w)

A mesura que la mostra tendeix a infinit ($N \to \infty$) i l'interval tendeix a zero ($w \to 0$), el perfil aspre de l'histograma s'adapta perfectament a una funció de densitat contínua i simètrica. Aquesta corba (en vermell) és la Campana de Gauss.

Mida Mostra ($N$): 100 Amplada classe ($w$): 5.0 cm

Més enllà de la Campana

La distribució normal o Gaussiana: $N(\mu, \sigma)$

La forma de la campana depèn de dos valors:

Mitjana ($\mu$): 0 Desplaça el centre de la distribució.

Desviació típica ($\sigma$): 1.0 Controla la concentració de les dades, l'amplada de la campana.

$$ f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2} $$

Reptes: El pes de les taronges

Paràmetres del lot

Mitjana ($\mu$): --- kg Desviació ($\sigma$): --- kg

Probabilitat = 0.0000

Càlcul de Probabilitats

$X \sim N(\mu, \sigma)$

La probabilitat es defineix com l'àrea sota la corba de densitat.

Prem la fletxa DRETA (→) per descobrir les propietats.

La Normal Tipificada: De X a Z

Com utilitzar la Taula Estàndard

Hi ha infinites distribucions normals, però només tenim una taula de probabilitats: la de la Normal Estàndard $N(0,1)$.

Per poder utilitzar-la amb qualsevol distribució $N(\mu, \sigma)$, hem de tipificar la variable.

Prem la fletxa DRETA (→) per descobrir els passos.

Original: $X \sim N(\mu, \sigma)$

Tipificada: $Z \sim N(0, 1)$

Exemple Pràctic: Despesa Turística

La despesa d'un turista a Barcelona segueix una distribució Normal amb $\mu = 180€$ i $\sigma = 30€$.

$X \sim N(180, 30)$

Prem la fletxa DRETA (→) per començar.

$z_1 = $ -4.00

$z_2 = $ 4.00

Probabilitat: 1.0000

Població vs. Mostra

1. La Població

És el conjunt total d'individus que volem estudiar (ex: tots els cotxes del país).

Mida: $N$ (molt gran)
Mitjana real: $\mu$ (desconeguda)
Desviació real: $\sigma$ (desconeguda)

El problema: Preguntar a tothom és massa car, lent o directament impossible.

2. La Mostra

Com que no podem mesurar a tothom, agafem un subgrup representatiu i a l'atzar.

Mida: $n$ (abastable, ex: 50)
Mitjana mostral: $\bar{x}$ (calculable)
Desviació mostral: $s$ (calculable)

L'avantatge: És ràpid i barat.

3. L'Estadística Inferencial

El nostre objectiu és fer servir les dades de la mostra ($\bar{x}, s$) per deduir els valors de la població ($\mu, \sigma$).

Com que la mostra s'agafa a l'atzar, la nostra $\bar{x}$ estarà a prop de la $\mu$ real, però gairebé mai serà idèntica.

Prem el botó per veure com cada mostra dóna una $\bar{x}$ lleugerament diferent!

La Mitjana Mostral: $\bar{X}$

1. L'estimació de paràmetres

A la vida real no coneixem la mitjana ($\mu$) ni la desviació típica ($\sigma$) de la població. Cal estimar-les mitjançant mostres:

Mitjana mostral:
$\bar{x} = \frac{\sum x_i}{n}$

Desviació típica mostral:
$s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}}$

Aquests valors són la nostra única eina per conèixer la població.

2. El Dilema

La mitjana que hem calculat, és realment la mitjana real? Fins a quin punt hi podem confiar?

La mitjana mostral és una variable aleatòria: si canviem la mostra (agafant uns altres 10 individus), el valor de $\bar{x}$ serà diferent.

Necessitem saber com es distribueixen aquestes mitjanes.

3. Teorema Central del Límit

Encara que cada mostra doni una $\bar{x}$ diferent, el conjunt de totes les mitjanes segueix una llei sorprenent:

$\bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)$

Això ens diu que la mitjana de les mostres estarà centrada en la real, però amb una dispersió molt menor ($\sigma/\sqrt{n}$).

El valor crític: $z_{\alpha/2}$

La gran pregunta

Agafem una mostra i calculem:
$\bar{x} = 140$

Amb quina seguretat podem dir que la mitjana real de la població ($\mu$) és exactament 140?

La resposta

Gairebé cap seguretat.

Com vam veure, la probabilitat d'encertar un punt exacte en una variable contínua és sempre 0.

Necessitem construir un interval on puguem garantir, amb una certa confiança, que la $\mu$ real s'hi troba a dins.

1. La Confiança i el Risc ($\alpha$)

Definim primer el Nivell de Confiança (ex. 95%), que és l'àrea central.

Confiança $= 1 - \alpha$
$= 0.95$

El risc d'equivocar-nos s'anomena Nivell de Significació ($\alpha$):

Risc $= \alpha$
$= 1 - 0.95 = 0.05$

2. La simetria ($\alpha/2$)

Ens podem equivocar per excés (dreta) o per defecte (esquerra).

Repartim el risc ($\alpha$) a les dues cues de la campana:

$\frac{\alpha}{2} = \frac{0.05}{2}$

$= 0.025 \text{ (2.5%)}$

Això deixa un "marge d'error" idèntic a cada costat.

3. El valor crític ($z_{\alpha/2}$)

Per trobar la frontera a la taula, sumem l'àrea central i la cua esquerra:

$P(Z < z) = 0.95 + 0.025$
$= 0.9750$

A la taula, $0.9750 \implies z = 1.96$

Aquest "multiplicador" determinarà l'amplada exacta del nostre interval.

4. L'Interval de Confiança

Ajuntant la nostra mitjana mostral ($\bar{x}$) i el marge d'error, la "xarxa" final es construeix així:

$IC = \left( \bar{x} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \, , \, \bar{x} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right)$

Els valors clàssics del multiplicador de confiança són:

Confiança	Risc ($\alpha$)	$z_{\alpha/2}$
90%	0.10	1.645
95%	0.05	1.96
99%	0.01	2.575

I a la pràctica... podem aplicar-ho?

Fins ara hem assumit que coneixíem la $\sigma$ de la població, però a la realitat gairebé mai és així.

Tenim 3 escenaris possibles.

1. Població Normal i $\sigma$ coneguda

Estem a l'escenari ideal! La distribució de les mitjanes també serà exactament normal. Podem aplicar la fórmula per a qualsevol mida de mostra ($n$).

$IC = \left( \bar{x} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \, , \, \bar{x} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right)$

1. Normal, $\sigma$ coneguda Qualsevol $n$ Ús: $\sigma$

2. Població NO Normal i $\sigma$ coneguda

Què passa si la població no és normal? El Teorema Central del Límit ens salva... però només si la mostra és gran ($n \ge 30$). Farem servir la mateixa fórmula.

$IC = \left( \bar{x} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \, , \, \bar{x} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right)$

1. Normal, $\sigma$ coneguda Qualsevol $n$ Ús: $\sigma$

2. NO Normal, $\sigma$ coneguda Si $\boldsymbol{n \ge 30}$ Ús: $\sigma$

3. Realitat ($\sigma$ desconeguda)

A la vida real gairebé mai tenim la $\sigma$. L'hem d'estimar fent servir la desviació de la mostra ($s$). Per fer aquest canvi d'incògnita, la regla de $n \ge 30$ és obligatòria.

$IC = \left( \bar{x} - z_{\alpha/2} \frac{\boldsymbol{s}}{\sqrt{n}} \, , \, \bar{x} + z_{\alpha/2} \frac{\boldsymbol{s}}{\sqrt{n}} \right)$

Taula de decisions (Resum definitiu):

1. Normal, $\sigma$ coneguda Qualsevol $n$ Fórmula amb $\sigma$

2. NO Normal, $\sigma$ coneguda Exigim $\boldsymbol{n \ge 30}$ Fórmula amb $\sigma$

3. NO Normal, $\sigma$ desconeguda Exigim $\boldsymbol{n \ge 30}$ Fórmula amb $s$

Resolució: Els cotxes de lloguer

1. Recollida de dades

Llegim l'enunciat i identifiquem les variables de la mostra i de la població:

Mida de la mostra: $n = 49$
Mitjana mostral: $\bar{x} = 140 \text{ km}$
Desviació poblacional: $\sigma = 30 \text{ km}$

L'error estàndard serà:
$\frac{\sigma}{\sqrt{n}} = \frac{30}{\sqrt{49}} = \frac{30}{7} \approx 4.28 \text{ km}$

2. Estructura de l'Interval

Sabem que la mitjana real $\mu$ estarà al voltant de 140, amb un marge d'error $E$:

$IC = \left( \bar{x} - E, \bar{x} + E \right)$

Aquest error es calcula amb el valor crític de la taula ($z_{\alpha/2}$):

$E = z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$

3. Nivell de Confiança: 95%

Per un 95%, $1-\alpha = 0.95$. Mirant la taula normal, $z_{\alpha/2} = 1.96$.

Calculem l'error:

$E = 1.96 \cdot \frac{30}{7} = 8.4$

$IC_{95\%} = (131.6, 148.4)$

4. Nivell de Confiança: 99%

Volem estar més segurs. Per a 99%, $z_{\alpha/2} = 2.575$.

El marge d'error creix:

$E = 2.575 \cdot \frac{30}{7} \approx 11.04$

$IC_{99\%} = (128.96, 151.04)$

Més seguretat implica un interval més ample (menys precisió).

La distribució binomial

Fins ara mesuràvem variables contínues (pes, alçada...).

Ara passem a l'estadística de comptar èxits.

1. L'Experiment de Bernoulli

És l'experiment aleatori més senzill que existeix: aquell on només hi ha dos resultats possibles i excloents.

Èxit: passa amb una probabilitat $p$
Fracàs: passa amb una probabilitat $q = 1 - p$

1. Exp. Bernoulli Només 2 resultats Prob.: $p$ i $q$

2. L'exemple i la mostra ($n$)

En unes eleccions, aturar a 1 persona per preguntar si ha votat la candidata és un exp. de Bernoulli (Ex: Èxit $\implies p=0.4$).

Si agafem una mostra de $n$ persones:
$x = \text{"nº de persones que l'han votat"}$ $x\sim B(n,p)$

1. Exp. Bernoulli Només 2 resultats Prob.: $p$ i $q$

2. La Mostra $n$ persones Variable $x$

3. La gran pregunta

Si $x$ és el nombre d'èxits...

Quina és la probabilitat d'aconseguir exactament $k$ èxits?
$P(x = k) = ?$

La Fórmula de la Binomial

Volem calcular la probabilitat d'obtenir exactament $k$ èxits en $n$ experiments.

$P(X = k) = ?$

Anem a construir la fórmula pas a pas.

1. Quantes combinacions possibles hi ha?

Els $k$ èxits poden aparèixer en qualsevol ordre al llarg dels $n$ experiments. Per comptar totes les maneres d'escollir $k$ posicions d'un total de $n$ (sense que n'importi l'ordre), fem servir el nombre combinatori:

$\binom{n}{k} = \frac{n!}{k!(n-k)!}$

1. Combinacions Ordre no importa Múltiple: $\binom{n}{k}$

2. La probabilitat de cada camí

A cada combinació concreta, l'èxit ($p$) es repeteix $k$ vegades, i el fracàs ($q$) es repeteix la resta de vegades ($n - k$). Com que són experiments independents, les probabilitats es multipliquen:

$p^k \cdot q^{n-k}$

1. Nombre de camins Combinatòria $\binom{n}{k}$

2. Probabilitat per camí Independents $p^k \cdot q^{n-k}$

3. La Fórmula Definitiva

Si multipliquem els camins possibles per la probabilitat de cadascun d'ells, obtenim la funció de probabilitat de la distribució Binomial.

$P(X = k) = \binom{n}{k} \cdot p^k \cdot q^{n-k}$

Exemple: Càlcul de probabilitats

Context del problema

El 10% dels telèfons d'un cert model s'espatllen durant el període de pgarantia. D'aquests, el 70% es pot reparar i, la resta, s'ha de canviar. Una empresa compra 20 telèfons mòbils d'aquest model. La probabilitat que un s'hagi de canviar és $p=0.1\cdot 0.3=0.03$ (i $q=0.97$).

$x \sim B(20 \, , \, 0.03)$

1. Cas puntual: $P(x=5)$

Quina probabilitat hi ha que s'hagin de canviar exactament 5 telèfons?

$P(x = 5) = \binom{20}{5} \cdot 0.03^5 \cdot 0.97^{15}$

$P(x = 5) \approx 0.00015$

Nota: Com que la $p$ és molt petita, és molt difícil que n'hi hagi 5 de defectuosos.

2. Escenaris múltiples: $P(x=1 \text{ o } 2)$

Quina probabilitat hi ha que n'haguem de canviar un o dos?

$P(x=1 \text{ o } 2) = P(x=1) + P(x=2)$

$\binom{20}{1} \cdot 0.03^1 \cdot 0.97^{19} + \binom{20}{2} \cdot 0.03^2 \cdot 0.97^{18}$

$\approx 0.3364 + 0.0988 = \mathbf{0.4352}$

3. Més dificultat: "Com a mínim dos" ($x \ge 2$)

Calcular $P(x=2) + P(x=3) + \dots + P(x=20)$ és massa llarg. Fem servir el contrari:

$P(x \ge 2) = 1 - P(x < 2) = 1 - [P(x=0) + P(x=1)]$

$1 - \left( \binom{20}{0} 0.97^{20} + \binom{20}{1} 0.03^1 0.97^{19} \right)$

$1 - (0.5438 + 0.3364) = \mathbf{0.1198}$

Com és la Distribució Binomial?

1. Naturalesa Discreta

La variable només pot prendre valors enters ($x = 0, 1, 2 \dots$).

Si preguntem a 20 persones, no en podem trobar "2,5" que votin un candidat. Per això el gràfic està fet de barres separades.

1. Discreta Només valors enters

2. La Mitjana o Esperança ($\mu$)

És el "centre" del gràfic. Indica quants èxits esperem aconseguir de mitjana.

$\mu = n \cdot p$

1. Discreta Només enters

2. Mitjana ($\mu$) $n \cdot p$

3. La Desviació Típica ($\sigma$)

Mesura l'amplada i la dispersió de les probabilitats respecte al valor central.

$\sigma = \sqrt{n \cdot p \cdot q}$

n = 20

p = 0.50

D'on surt la fórmula $\sigma = \sqrt{n \cdot p \cdot q}$ ?

1. La incertesa d'una sola persona ($p \cdot q$)

Matemàticament, la mesura d'incertesa (variància) d'un experiment de Bernoulli és la multiplicació de $p$ i $q$. Per què?

Si $p=0.99$, gairebé segur que sortirà Èxit. Hi ha poca incertesa ($0.99 \cdot 0.01 = 0.0099$).
Si $p=0.50$, és pura loteria. Hi ha la màxima incertesa possible ($0.5 \cdot 0.5 = 0.25$).

1. Variància individual Incertesa = $p \cdot q$

2. Variància de la suma

A l'estadística hi ha una regla inquebrantable: si sumem experiments independents, les seves variàncies se sumen.

Si enquestem a $n$ persones, la variància total de la mostra serà sumar $p \cdot q$ un total de $n$ vegades:

Variància total $= pq + pq + pq + \dots = \mathbf{n \cdot p \cdot q}$

1. Variància 1 persona $p \cdot q$

2. Regla de la suma ($n$) Var. Total = $n \cdot p \cdot q$

3. Retorn a les unitats reals ($\sigma$)

Com que la variància està elevada al quadrat (ens donaria "vots al quadrat" o "persones al quadrat"), hem de fer l'arrel quadrada per trobar la desviació típica i parlar en unitats normals.

$\sigma = \sqrt{n \cdot p \cdot q}$

De la Binomial a la Normal

1. El límit de la calculadora

Quan $n$ és molt gran, els càlculs es fan inviables perquè els nombres es fan enormes ($\binom{1000}{300}$ no es pot fer).

1. Problema $n$ gran = ERROR

2. Aproximació per una normal

Comprova-ho al gràfic de la dreta: a mesura que puges la $n$, els rectangles es fusionen i dibuixen una campana de Gauss gairebé perfecta.

1. Problema $n$ gran = ERROR

2. Solució Forma de campana

3. La Regla d'Aproximació

Si es compleix que $n \ge 30$, podem abandonar l'estadística discreta i utilitzar directament la distribució Normal:

$B(n, p) \leftrightarrow N(np \, , \sqrt{n p q})$

n = 30

p = 0.50

🟦 Distribució Binomial 🟥 Corba Normal

Distribució de la Proporció ($\hat{p}$)

1. Què és la proporció mostral?

En lloc de comptar quants "SÍ" tenim ($x$), calculem quin percentatge representen sobre el total ($n$):

$\hat{p} = \frac{x}{n}$

1. Definició $\hat{p} = x/n$

2. Aproximació a la Normal

Si $n \ge 30$, la proporció mostral també segueix una distribució Normal, però ara centrada en la probabilitat real $p$.

$\hat{p} \sim N\left( p \, , \, \sqrt{\frac{p \cdot q}{n}} \right)$

1. Definició $\hat{p} = x/n$

2. Model $\hat{p} \sim N(p, \sigma_{\hat{p}})$

3. Efecte de la mida ($n$)

Fixa't en el gràfic: com més gran és la mostra ($n$), més petita és la desviació típica.

Això significa que, amb mostres grans, la proporció que mesurem serà molt més precisa i propera a la realitat.

n = 30

p = 0.50

Eix X: Proporció (de 0 a 1)

Exemple: Enquestes electorals

L'Enunciat

En unes eleccions a l'alcaldia d'un municipi un candidat va obtenir el 54% dels vots.

Trobeu la probabilitat que, en una mostra de 200 votants escollits a l'atzar, obtingués majoria absoluta.

Dades $p=0.54$ i $q=0.46$ $n=200$

1. Comprovació i Model Normal

Com que $n = 200 \ge 30$, podem utilitzar la distribució Normal per a la proporció mostral $\hat{p}$:

$\hat{p} \sim N\left( p \, , \, \sqrt{\frac{p \cdot q}{n}} \right) \implies N\left( 0.54 \, , \, \sqrt{\frac{0.54 \cdot 0.46}{200}} \right)$

$\hat{p} \sim N(0.54 \, , \, 0.035)$

1. Model $\hat{p} \sim N(0.54 \, , \, 0.035)$

2. Plantejament i Tipificació

Per obtenir majoria absoluta, la proporció de la mostra ha de superar el 50% ($\hat{p} > 0.5$). Tipifiquem a $Z$:

$P(\hat{p} > 0.5) = P\left(Z > \frac{0.5 - 0.54}{0.035}\right)$

$P(Z > \mathbf{-1.14})$

2. Tipificació $P(Z > -1.14)$

3. Càlcul Final

Per buscar un valor de "més gran que un negatiu", fem servir la simetria de la campana de Gauss:

$P(Z > -1.14) = P(Z \le 1.14)$
$P(Z \le 1.14) = \mathbf{0.8729}$

La probabilitat d'obtenir majoria absoluta és del 87,29%.

Interval de Confiança per a una Proporció

1. Aproximació per la normal

Acabem de veure que, si la mostra és prou gran ($n \ge 30$), la proporció mostral $\hat{p}$ es comporta com una distribució Normal:

$\hat{p} \sim N\left( p \, , \, \sqrt{\frac{p \cdot q}{n}} \right)$

1. Base $\hat{p}$ segueix una Normal

2. Aplicar el que ja sabem

Com que és una Normal, podem aplicar exactament la mateixa lògica que fèiem servir per a les mitjanes.

Amb un nivell de confiança $1 - \alpha$, sabem que el valor real de la població ($p$) caurà a una certa distància (marge d'error) de la nostra $\hat{p}$, marcada pel valor crític $z_{\alpha/2}$.

1. Base Aproximació a la Normal

2. Marge d'error Ús del valor crític $z_{\alpha/2}$

3. La Fórmula de l'Interval

Substituint la $\sigma$ per la fórmula de la desviació típica de la proporció, obtenim l'interval on es troba la proporció poblacional $p$:

$IC = \left( \hat{p} - z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}\hat{q}}{n}} \, , \, \hat{p} + z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}\hat{q}}{n}} \right)$

Exemple: Interval de Confiança

L'Enunciat

Per estudiar el percentatge de peces defectuoses en una cadena de producció, s'analitza una mostra aleatòria de 100 peces i s'observa que dues són defectuoses.

Calcula un interval de confiança del 95% per a la proporció poblacional. (Feu servir que $P(-1.96 < Z < 1.96) = 0.95$).

Objectiu Interval al 95% $n=100$, $x=2$

1. Preparació de les Dades

Primer, calculem la proporció de la mostra ($\hat{p}$) i el seu contrari ($\hat{q}$):

$\hat{p} = \frac{2}{100} = \mathbf{0.02} \quad \implies \quad \hat{q} = 1 - 0.02 = \mathbf{0.98}$

I identifiquem el valor crític per a una confiança del 95%:

$z_{\alpha/2} = 1.96$

1. Dades $\hat{p} = 0.02$, $\hat{q} = 0.98$ $z_{\alpha/2} = 1.96$

2. Aplicació de la Fórmula

Substituïm els valors a l'estructura de l'Interval de Confiança:

$IC = \left( \hat{p} - z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}\hat{q}}{n}} \, , \, \hat{p} + z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}\hat{q}}{n}} \right)$

$IC = \left( 0.02 - 1.96 \cdot \sqrt{\frac{0.02 \cdot 0.98}{100}} \, , \, 0.02 + 1.96 \cdot \sqrt{\frac{0.02 \cdot 0.98}{100}} \right)$

2. Fórmula $0.02 \pm 1.96 \cdot 0.014$

3. Resultat i Interpretació

Fent els càlculs obtenim matemàticament l'interval $[-0.0074 \, , \, 0.0474]$.

⚠️ Atenció: Una proporció (un percentatge) mai pot ser negativa! Per tant, hem de truncar el límit inferior a zero.

$IC_{real} = [0 \, , \, 0.0474]$

El percentatge de peces defectuoses de tota la fàbrica es troba entre el 0% i el 4,74%.

Resum d'Inferència Estadística

Estudi de Mitjanes

1. Variable de la població:

$x \sim N(\mu \, , \, \sigma)$

2. Distribució de la mitjana ($\bar{x}$):

$\bar{x} \sim N\left( \mu \, , \, \frac{\sigma}{\sqrt{n}} \right)$

3. Interval de Confiança:

$IC = \left( \bar{x} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \, , \, \bar{x} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right)$

Estudi de Proporcions

1. Variable de la població:

$x \sim B(n \, , \, p) \xrightarrow{n \ge 30} N(np \, , \sqrt{npq})$

2. Distribució de la proporció ($\hat{p}$):

$\hat{p} \sim N\left( p \, , \, \sqrt{\frac{pq}{n}} \right)$

3. Interval de Confiança:

$IC = \left( \hat{p} - z_{\alpha/2} \sqrt{\frac{\hat{p}\hat{q}}{n}} \, , \, \hat{p} + z_{\alpha/2} \sqrt{\frac{\hat{p}\hat{q}}{n}} \right)$