User Tools

Site Tools


ro:course:math:recap:statistics

Statistică

Fără îndoială, pentru a fi un practician de top în învățarea profundă, abilitatea de a antrena modele de ultimă generație și de înaltă acuratețe este crucială. Totuși, este adesea neclar când îmbunătățirile sunt semnificative, sau doar rezultatul fluctuațiilor aleatoare în procesul de antrenare. Pentru a putea discuta despre incertitudinea în valorile estimate, trebuie să învățăm niște statistică.

Cea mai timpurie referință a statisticii poate fi urmărită înapoi la un savant arab Al-Kindi în secolul al IX-lea, care a oferit o descriere detaliată a modului de utilizare a statisticii și analizei de frecvență pentru a descifra mesaje criptate. După 800 de ani, statistica modernă a apărut din Germania în anii 1700, când cercetătorii s-au concentrat pe colectarea și analiza datelor demografice și economice. Astăzi, statistica este subiectul științific care privește colectarea, procesarea, analiza, interpretarea și vizualizarea datelor. Mai mult, teoria de bază a statisticii a fost utilizată pe scară largă în cercetarea din mediul academic, industrie și guvern.

Mai specific, statistica poate fi împărțită în statistică descriptivă și inferență statistică. Prima se concentrează pe rezumarea și ilustrarea caracteristicilor unei colecții de date observate, care este referită ca un eșantion. Eșantionul este extras dintr-o populație, denotă setul total de indivizi similari, elemente sau evenimente ale intereselor experimentului nostru. Contrar statisticii descriptive, inferența statistică deduce mai departe caracteristicile unei populații din eșantioanele date, bazat pe presupunerile că distribuția eșantionului poate replica distribuția populației într-un anumit grad.

Vă puteți întreba: “Care este diferența esențială dintre învățarea automată și statistică?” Fundamental vorbind, statistica se concentrează pe problema inferenței. Acest tip de probleme include modelarea relației dintre variabile, cum ar fi inferența cauzală, și testarea semnificației statistice a parametrilor modelului, cum ar fi testarea A/B. În contrast, învățarea automată pune accent pe realizarea de predicții precise, fără a programa explicit și a înțelege funcționalitatea fiecărui parametru.

În această secțiune, vom introduce trei tipuri de metode de inferență statistică: evaluarea și compararea estimatorilor, efectuarea testelor de ipoteză și construirea intervalelor de încredere. Aceste metode ne pot ajuta să inferăm caracteristicile unei populații date, i.e., parametrul adevărat $\theta$. Pentru concizie, presupunem că parametrul adevărat $\theta$ al unei populații date este o valoare scalară. Este simplu de extins la cazul în care $\theta$ este un vector sau un tensor, astfel îl omitem în discuția noastră.

Evaluarea și Compararea Estimatorilor

În statistică, un estimator este o funcție de eșantioane date folosită pentru a estima parametrul adevărat $\theta$. Vom scrie $\hat{\theta}_n = \hat{f}(x_1, \ldots, x_n)$ pentru estimarea lui $\theta$ după observarea eșantioanelor {$x_1, x_2, \ldots, x_n$}.

Am văzut exemple simple de estimatori înainte în secțiunea . Dacă aveți un număr de eșantioane de la o variabilă aleatoare Bernoulli, atunci estimarea verosimilității maxime pentru probabilitatea ca variabila aleatoare să fie unu poate fi obținută prin numărarea numărului de unu observați și împărțirea la numărul total de eșantioane. Similar, un exercițiu v-a cerut să arătați că estimarea verosimilității maxime a mediei unei Gaussiene date fiind un număr de eșantioane este dată de valoarea medie a tuturor eșantioanelor. Acești estimatori nu vor da aproape niciodată valoarea adevărată a parametrului, dar ideal pentru un număr mare de eșantioane estimarea va fi aproape.

Ca un exemplu, arătăm mai jos densitatea adevărată a unei variabile aleatoare Gaussiene cu medie zero și varianță unu, împreună cu o colecție de eșantioane din acea Gaussiană. Am construit coordonata $y$ astfel încât fiecare punct să fie vizibil și relația cu densitatea originală să fie mai clară.

#@tab pytorch
from d2l import torch as d2l
import torch
 
torch.pi = torch.acos(torch.zeros(1)) * 2  #define pi in torch
 
# Sample datapoints and create y coordinate
epsilon = 0.1
torch.manual_seed(8675309)
xs = torch.randn(size=(300,))
 
ys = torch.tensor(
    [torch.sum(torch.exp(-(xs[:i] - xs[i])**2 / (2 * epsilon**2))\
               / torch.sqrt(2*torch.pi*epsilon**2)) / len(xs)\
     for i in range(len(xs))])
 
# Compute true density
xd = torch.arange(torch.min(xs), torch.max(xs), 0.01)
yd = torch.exp(-xd**2/2) / torch.sqrt(2 * torch.pi)
 
# Plot the results
d2l.plot(xd, yd, 'x', 'density')
d2l.plt.scatter(xs, ys)
d2l.plt.axvline(x=0)
d2l.plt.axvline(x=torch.mean(xs), linestyle='--', color='purple')
d2l.plt.title(f'sample mean: {float(torch.mean(xs).item()):.2f}')
d2l.plt.show()

Pot exista multe moduri de a calcula un estimator al unui parametru $\hat{\theta}_n$. În această secțiune, introducem trei metode comune de a evalua și compara estimatori: eroarea pătratică medie, deviația standard și biasul statistic.

Eroarea Pătratică Medie

Poate cea mai simplă metrică folosită pentru a evalua estimatori este estimatorul eroare pătratică medie (MSE) (sau pierderea $l_2$) care poate fi definit ca

$$\textrm{MSE} (\hat{\theta}_n, \theta) = E[(\hat{\theta}_n - \theta)^2].$$

Aceasta ne permite să cuantificăm deviația pătratică medie de la valoarea adevărată. MSE este întotdeauna non-negativ. Dacă ați citit , o veți recunoaște ca cea mai frecvent utilizată funcție de pierdere pentru regresie. Ca o măsură pentru a evalua un estimator, cu cât valoarea sa este mai aproape de zero, cu atât estimatorul este mai aproape de parametrul adevărat $\theta$.

Bias Statistic

MSE oferă o metrică naturală, dar ne putem imagina cu ușurință multiple fenomene diferite care l-ar putea face mare. Două fundamental importante sunt fluctuația în estimator datorită aleatorului în setul de date, și eroarea sistematică în estimator datorită procedurii de estimare.

Mai întâi, să măsurăm eroarea sistematică. Pentru un estimator $\hat{\theta}_n$, ilustrarea matematică a biasului statistic poate fi definită ca

$$\textrm{bias}(\hat{\theta}_n) = E(\hat{\theta}_n - \theta) = E(\hat{\theta}_n) - \theta.$$

Notați că atunci când $\textrm{bias}(\hat{\theta}_n) = 0$, așteptarea estimatorului $\hat{\theta}_n$ este egală cu valoarea adevărată a parametrului. În acest caz, spunem că $\hat{\theta}_n$ este un estimator nedeplasat (unbiased). În general, un estimator nedeplasat este mai bun decât un estimator deplasat (biased) deoarece așteptarea sa este aceeași cu parametrul adevărat.

Merită să fim conștienți, totuși, că estimatorii deplasați sunt utilizați frecvent în practică. Există cazuri unde estimatorii nedeplasați nu există fără presupuneri suplimentare, sau sunt greu de calculat. Acest lucru poate părea ca un defect semnificativ într-un estimator, totuși majoritatea estimatorilor întâlniți în practică sunt cel puțin asimptotic nedeplasați în sensul că biasul tinde la zero pe măsură ce numărul de eșantioane disponibile tinde la infinit: $\lim_{n \rightarrow \infty} \textrm{bias}(\hat{\theta}_n) = 0$.

Varianța și Deviația Standard

În al doilea rând, să măsurăm aleatoriul în estimator. Reamintiți-vă din , deviația standard (sau eroarea standard) este definită ca rădăcina pătrată a varianței. Putem măsura gradul de fluctuație al unui estimator măsurând deviația standard sau varianța acelui estimator.

$$\sigma_{\hat{\theta}_n} = \sqrt{\textrm{Var} (\hat{\theta}_n )} = \sqrt{E[(\hat{\theta}_n - E(\hat{\theta}_n))^2]}.$$

Este important să comparăm :eqref:eq_var_est cu :eqref:eq_mse_est. În această ecuație nu comparăm cu valoarea adevărată a populației $\theta$, ci în schimb cu $E(\hat{\theta}_n)$, media eșantionului așteptată. Astfel nu măsurăm cât de departe tinde estimatorul să fie de la valoarea adevărată, ci în schimb măsurăm fluctuația estimatorului însuși.

Compromisul Bias-Varianță

Este intuitiv clar că aceste două componente principale contribuie la eroarea pătratică medie. Ceea ce este oarecum șocant este că putem arăta că aceasta este de fapt o descompunere a erorii pătratice medii în aceste două contribuții plus o a treia. Adică putem scrie eroarea pătratică medie ca suma pătratului biasului, varianța și eroarea ireductibilă.

$$ \begin{aligned} \textrm{MSE} (\hat{\theta}_n, \theta) &= E[(\hat{\theta}_n - \theta)^2] \\ &= E[(\hat{\theta}_n)^2] + E[\theta^2] - 2E[\hat{\theta}_n\theta] \\ &= \textrm{Var} [\hat{\theta}_n] + E[\hat{\theta}_n]^2 + \textrm{Var} [\theta] + E[\theta]^2 - 2E[\hat{\theta}_n]E[\theta] \\ &= (E[\hat{\theta}_n] - E[\theta])^2 + \textrm{Var} [\hat{\theta}_n] + \textrm{Var} [\theta] \\ &= (E[\hat{\theta}_n - \theta])^2 + \textrm{Var} [\hat{\theta}_n] + \textrm{Var} [\theta] \\ &= (\textrm{bias} [\hat{\theta}_n])^2 + \textrm{Var} (\hat{\theta}_n) + \textrm{Var} [\theta].\\ \end{aligned} $$

Ne referim la formula de mai sus ca compromisul bias-varianță. Eroarea pătratică medie poate fi împărțită în trei surse de eroare: eroarea din bias mare, eroarea din varianță mare și eroarea ireductibilă. Eroarea de bias este frecvent văzută într-un model simplu (cum ar fi un model de regresie liniară), care nu poate extrage relații de dimensiuni mari între caracteristici și ieșiri. Dacă un model suferă de eroare de bias mare, spunem adesea că este sub-adaptat (underfitting) sau lipsit de flexibilitate așa cum a fost introdus în (). Varianța mare rezultă de obicei dintr-un model prea complex, care supra-adaptează datele de antrenare. Ca rezultat, un model supra-adaptat (overfitting) este sensibil la mici fluctuații în date. Dacă un model suferă de varianță mare, spunem adesea că este supra-adaptat și lipsit de generalizare așa cum a fost introdus în (). Eroarea ireductibilă este rezultatul zgomotului în $\theta$ însuși.

Evaluarea Estimatorilor în Cod

Deoarece deviația standard a unui estimator a fost implementată prin simpla apelare a a.std() pentru un tensor a, o vom sări dar vom implementa biasul statistic și eroarea pătratică medie.

#@tab pytorch
# Statistical bias
def stat_bias(true_theta, est_theta):
    return(torch.mean(est_theta) - true_theta)
 
# Mean squared error
def mse(data, true_theta):
    return(torch.mean(torch.square(data - true_theta)))

Pentru a ilustra ecuația compromisului bias-varianță, să simulăm distribuția normală $\mathcal{N}(\theta, \sigma^2)$ cu $10,000$ eșantioane. Aici, folosim $\theta = 1$ și $\sigma = 4$. Deoarece estimatorul este o funcție de eșantioanele date, aici folosim media eșantioanelor ca un estimator pentru $\theta$ adevărat în această distribuție normală $\mathcal{N}(\theta, \sigma^2)$ .

#@tab pytorch
theta_true = 1
sigma = 4
sample_len = 10000
samples = torch.normal(theta_true, sigma, size=(sample_len, 1))
theta_est = torch.mean(samples)
theta_est

Să validăm ecuația compromisului calculând suma biasului pătratic și varianța estimatorului nostru. Mai întâi, calculați MSE a estimatorului nostru.

#@tab all
mse(samples, theta_true)

Urmează să calculăm $\textrm{Var} (\hat{\theta}_n) + [\textrm{bias} (\hat{\theta}_n)]^2$ ca mai jos. Așa cum puteți vedea, cele două valori sunt de acord la precizia numerică.

#@tab pytorch
bias = stat_bias(theta_true, theta_est)
torch.square(samples.std(unbiased=False)) + torch.square(bias)

Efectuarea Testelor de Ipoteză

Cel mai frecvent întâlnit subiect în inferența statistică este testarea ipotezelor. Deși testarea ipotezelor a fost popularizată la începutul secolului al XX-lea, prima utilizare poate fi urmărită la John Arbuthnot în anii 1700. John a urmărit înregistrările nașterilor pe 80 de ani în Londra și a concluzionat că se nășteau mai mulți bărbați decât femei în fiecare an. După aceea, testarea semnificației modernă este moștenirea inteligenței lui Karl Pearson care a inventat valoarea $p$ și testul chi-pătrat al lui Pearson, William Gosset care este tatăl distribuției t Student, și Ronald Fisher care a inițiat ipoteza nulă și testul de semnificație.

Un test de ipoteză este o modalitate de a evalua o dovadă împotriva afirmației implicite despre o populație. Ne referim la afirmația implicită ca ipoteza nulă $H_0$, pe care încercăm să o respingem folosind datele observate. Aici, folosim $H_0$ ca punct de plecare pentru testarea semnificației statistice. Ipoteza alternativă $H_A$ (sau $H_1$) este o afirmație care este contrară ipotezei nule. O ipoteză nulă este adesea afirmată într-o formă declarativă care propune o relație între variabile. Ar trebui să reflecte instrucțiunea cât mai explicit posibil, și să fie testabilă prin teoria statistică.

Imaginați-vă că sunteți un chimist. După ce petreceți mii de ore în laborator, dezvoltați un nou medicament care poate îmbunătăți dramatic abilitatea cuiva de a înțelege matematica. Pentru a-i arăta puterea magică, trebuie să îl testați. Natural, s-ar putea să aveți nevoie de niște voluntari să ia medicamentul și să vedeți dacă îi poate ajuta să învețe matematica mai bine. Cum începeți?

Mai întâi, veți avea nevoie de două grupuri de voluntari selectați aleatoriu cu grijă, astfel încât să nu existe nicio diferență între abilitatea lor de înțelegere a matematicii măsurată prin niște metrici. Cele două grupuri sunt cunoscute în mod obișnuit ca grupul de test și grupul de control. Grupul de test (sau grupul de tratament) este un grup de indivizi care vor experimenta medicamentul, în timp ce grupul de control reprezintă grupul de utilizatori care sunt puși deoparte ca un punct de referință, i.e., setări identice de mediu cu excepția luării acestui medicament. În acest fel, influența tuturor variabilelor este minimizată, cu excepția impactului variabilei independente în tratament.

În al doilea rând, după o perioadă de a lua medicamentul, veți avea nevoie să măsurați înțelegerea matematică a celor două grupuri prin aceleași metrici, cum ar fi lăsarea voluntarilor să facă aceleași teste după învățarea unei noi formule matematice. Apoi, puteți colecta performanța lor și compara rezultatele. În acest caz, ipoteza noastră nulă va fi că nu există nicio diferență între cele două grupuri, și alternativa noastră va fi că există.

Acest lucru nu este încă complet formal. Există multe detalii la care trebuie să vă gândiți cu grijă. De exemplu, care este metrica potrivită pentru a testa abilitatea lor de înțelegere a matematicii? Câți voluntari pentru testul vostru astfel încât să puteți fi încrezători să pretindeți eficacitatea medicamentului vostru? Cât timp ar trebui să rulați testul? Cum decideți dacă există o diferență între cele două grupuri? Vă pasă de performanța medie doar, sau și de intervalul de variație a scorurilor? Și tot așa.

În acest fel, testarea ipotezelor oferă un cadru pentru designul experimental și raționamentul despre certitudinea în rezultatele observate. Dacă putem arăta acum că ipoteza nulă este foarte improbabil să fie adevărată, o putem respinge cu încredere.

Pentru a completa povestea despre cum să lucrăm cu testarea ipotezelor, trebuie acum să introducem o terminologie suplimentară și să facem unele dintre conceptele noastre de mai sus formale.

Semnificația Statistică

Semnificația statistică măsoară probabilitatea de a respinge eronat ipoteza nulă, $H_0$, când nu ar trebui respinsă, i.e.,

$$ \textrm{statistic significance }= 1 - \alpha = 1 - P(\textrm{reject } H_0 \mid H_0 \textrm{ is true} ).$$

Este de asemenea referită ca eroare de tip I sau pozitiv fals. $\alpha$, este numit ca nivel de semnificație și valoarea sa utilizată în mod obișnuit este $5\%$, i.e., $1-\alpha = 95\%$. Nivelul de semnificație poate fi explicat ca nivelul de risc pe care suntem dispuși să ni-l asumăm, când respingem o ipoteză nulă adevărată.

arată valorile observațiilor și probabilitatea unei distribuții normale date într-un test de ipoteză cu două eșantioane. Dacă exemplul de date de observație este localizat în afara pragului de $95\%$, va fi o observație foarte improbabilă sub presupunerea ipotezei nule. Prin urmare, ar putea fi ceva în neregulă cu ipoteza nulă și o vom respinge.

Semnificația statistică.

Puterea Statistică

Puterea statistică (sau sensibilitatea) măsoară probabilitatea de a respinge ipoteza nulă, $H_0$, când ar trebui respinsă, i.e.,

$$ \textrm{statistical power }= 1 - \beta = 1 - P(\textrm{ fail to reject } H_0 \mid H_0 \textrm{ is false} ).$$

Reamintiți-vă că o eroare de tip I este eroarea cauzată de respingerea ipotezei nule când este adevărată, în timp ce o eroare de tip II a rezultat din eșecul de a respinge ipoteza nulă când este falsă. O eroare de tip II este de obicei denotată ca $\beta$, și prin urmare puterea statistică corespunzătoare este $1-\beta$.

Intuitiv, puterea statistică poate fi interpretată ca cât de probabil testul nostru va detecta o discrepanță reală de o anumită magnitudine minimă la un nivel de semnificație statistică dorit. $80\%$ este un prag de putere statistică utilizat în mod obișnuit. Cu cât puterea statistică este mai mare, cu atât suntem mai susceptibili să detectăm diferențe adevărate.

Una dintre cele mai comune utilizări ale puterii statistice este în determinarea numărului de eșantioane necesare. Probabilitatea de a respinge ipoteza nulă când este falsă depinde de gradul în care este falsă (cunoscut ca mărimea efectului) și numărul de eșantioane pe care le aveți. Așa cum v-ați aștepta, mărimile mici ale efectului vor necesita un număr foarte mare de eșantioane pentru a fi detectabile cu probabilitate mare. Deși este dincolo de sfera acestei scurte anexe să derivăm în detaliu, ca un exemplu, dorim să putem respinge o ipoteză nulă că eșantionul nostru a venit dintr-o Gaussiană cu medie zero și varianță unu, și credem că media eșantionului nostru este de fapt aproape de unu, putem face asta cu rate de eroare acceptabile cu o mărime a eșantionului de doar $8$. Totuși, dacă credem că media adevărată a populației eșantionului nostru este aproape de $0.01$, atunci am avea nevoie de o mărime a eșantionului de aproape $80000$ pentru a detecta diferența.

Ne putem imagina puterea ca un filtru de apă. În această analogie, un test de ipoteză de putere mare este ca un sistem de filtrare a apei de înaltă calitate care va reduce substanțele dăunătoare din apă cât mai mult posibil. Pe de altă parte, o discrepanță mai mică este ca un filtru de apă de calitate scăzută, unde unele substanțe relativ mici pot scăpa ușor prin goluri. Similar, dacă puterea statistică nu este de putere suficient de mare, atunci testul poate să nu prindă discrepanța mai mică.

Statistici de Test

O statistică de test $T(x)$ este un scalar care rezumă o anumită caracteristică a datelor eșantionului. Scopul definirii unei astfel de statistici este că ar trebui să ne permită să distingem între diferite distribuții și să efectuăm testul nostru de ipoteză. Gândindu-ne înapoi la exemplul nostru cu chimistul, dacă dorim să arătăm că o populație performează mai bine decât cealaltă, ar putea fi rezonabil să luăm media ca statistică de test. Diferite alegeri de statistică de test pot duce la test statistic cu putere statistică drastic diferită.

Adesea, $T(X)$ (distribuția statisticii de test sub ipoteza noastră nulă) va urma, cel puțin aproximativ, o distribuție de probabilitate comună, cum ar fi o distribuție normală când este considerată sub ipoteza nulă. Dacă putem deriva explicit o astfel de distribuție, și apoi măsura statistica noastră de test pe setul nostru de date, putem respinge în siguranță ipoteza nulă dacă statistica noastră este mult în afara intervalului pe care l-am aștepta. Făcând acest lucru cantitativ ne duce la noțiunea de valori $p$.

Valoarea p

Valoarea $p$ (sau valoarea de probabilitate) este probabilitatea ca $T(X)$ să fie cel puțin la fel de extrem ca statistica de test observată $T(x)$ presupunând că ipoteza nulă este adevărată, i.e.,

$$ p\textrm{-value} = P_{H_0}(T(X) \geq T(x)).$$

Dacă valoarea $p$ este mai mică sau egală cu un nivel de semnificație statistică predefinit și fix $\alpha$, putem respinge ipoteza nulă. Altfel, vom concluziona că suntem lipsiți de dovezi pentru a respinge ipoteza nulă. Pentru o distribuție a populației dată, regiunea de respingere va fi intervalul conținut de toate punctele care au o valoare $p$ mai mică decât nivelul de semnificație statistică $\alpha$.

Test Unilateral și Test Bilateral

În mod normal există două tipuri de test de semnificație: testul unilateral și testul bilateral. Testul unilateral (sau one-tailed test) este aplicabil când ipoteza nulă și ipoteza alternativă au o singură direcție. De exemplu, ipoteza nulă poate afirma că parametrul adevărat $\theta$ este mai mic sau egal cu o valoare $c$. Ipoteza alternativă ar fi că $\theta$ este mai mare decât $c$. Adică, regiunea de respingere este doar pe o parte a distribuției de eșantionare. Contrar testului unilateral, testul bilateral (sau two-tailed test) este aplicabil când regiunea de respingere este pe ambele părți ale distribuției de eșantionare. Un exemplu în acest caz poate avea o ipoteză nulă care afirmă că parametrul adevărat $\theta$ este egal cu o valoare $c$. Ipoteza alternativă ar fi că $\theta$ nu este egal cu $c$.

Pași Generali ai Testării Ipotezelor

După ce ne familiarizăm cu conceptele de mai sus, să trecem prin pașii generali ai testării ipotezelor.

  1. Afirmați întrebarea și stabiliți o ipoteză nulă $H_0$.
  2. Setați nivelul de semnificație statistică $\alpha$ și o putere statistică ($1 - \beta$).
  3. Obțineți eșantioane prin experimente. Numărul de eșantioane necesare va depinde de puterea statistică, și mărimea efectului așteptată.
  4. Calculați statistica de test și valoarea $p$.
  5. Luați decizia de a păstra sau respinge ipoteza nulă bazat pe valoarea $p$ și nivelul de semnificație statistică $\alpha$.

Pentru a efectua un test de ipoteză, începem prin definirea unei ipoteze nule și un nivel de risc pe care suntem dispuși să ni-l asumăm. Apoi calculăm statistica de test a eșantionului, luând o valoare extremă a statisticii de test ca dovadă împotriva ipotezei nule. Dacă statistica de test cade în regiunea de respingere, putem respinge ipoteza nulă în favoarea celei alternative.

Testarea ipotezelor este aplicabilă într-o varietate de scenarii, cum ar fi studiile clinice și testarea A/B.

Construirea Intervalelor de Încredere

Când estimăm valoarea unui parametru $\theta$, estimatorii punctuali precum $\hat \theta$ sunt de utilitate limitată deoarece nu conțin nicio noțiune de incertitudine. Mai degrabă, ar fi mult mai bine dacă am putea produce un interval care ar conține parametrul adevărat $\theta$ cu probabilitate mare. Dacă ați fi fost interesați de astfel de idei acum un secol, atunci ați fi fost încântați să citiți “Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability” de Jerzy Neyman 1), care a introdus primul conceptul de interval de încredere în 1937.

Pentru a fi util, un interval de încredere ar trebui să fie cât mai mic posibil pentru un grad dat de certitudine. Să vedem cum să îl derivăm.

Definiție

Matematic, un interval de încredere pentru parametrul adevărat $\theta$ este un interval $C_n$ care calculat din datele eșantionului astfel încât

$$P_{\theta} (C_n \ni \theta) \geq 1 - \alpha, \forall \theta.$$

Aici $\alpha \in (0, 1)$, și $1 - \alpha$ este numit nivelul de încredere sau acoperirea intervalului. Acesta este același $\alpha$ ca nivelul de semnificație despre care am discutat mai sus.

Notați că :eqref:eq_confidence este despre variabila $C_n$, nu despre $\theta$ fix. Pentru a sublinia asta, scriem $P_{\theta} (C_n \ni \theta)$ mai degrabă decât $P_{\theta} (\theta \in C_n)$.

Interpretare

Este foarte tentant să interpretăm un interval de încredere de $95\%$ ca un interval unde puteți fi $95\%$ sigur că parametrul adevărat se află, totuși acest lucru nu este din păcate adevărat. Parametrul adevărat este fix, și intervalul este cel care este aleatoriu. Astfel o interpretare mai bună ar fi să spunem că dacă ați generat un număr mare de intervale de încredere prin această procedură, $95\%$ din intervalele generate ar conține parametrul adevărat.

Acest lucru poate părea pedant, dar poate avea implicații reale pentru interpretarea rezultatelor. În particular, putem satisface :eqref:eq_confidence prin construirea intervalelor despre care suntem aproape siguri că nu conțin valoarea adevărată, atâta timp cât facem asta doar suficient de rar. Încheiem această secțiune oferind trei afirmații tentante dar false. O discuție aprofundată a acestor puncte poate fi găsită în 2).

  • Eroarea 1. Intervale de încredere înguste înseamnă că putem estima parametrul precis.
  • Eroarea 2. Valorile din interiorul intervalului de încredere sunt mai susceptibile să fie valoarea adevărată decât cele din afara intervalului.
  • Eroarea 3. Probabilitatea ca un anumit interval de încredere de $95\%$ observat să conțină valoarea adevărată este $95\%$.

Suficient de spus, intervalele de încredere sunt obiecte subtile. Totuși, dacă păstrați interpretarea clară, ele pot fi instrumente puternice.

Un Exemplu Gaussian

Să discutăm cel mai clasic exemplu, intervalul de încredere pentru media unei Gaussiene cu medie și varianță necunoscute. Să presupunem că colectăm $n$ eșantioane $\{x_i\}_{i=1}^n$ din Gaussiana noastră $\mathcal{N}(\mu, \sigma^2)$. Putem calcula estimatori pentru medie și varianță luând

$$\hat\mu_n = \frac{1}{n}\sum_{i=1}^n x_i \;\textrm{și}\; \hat\sigma^2_n = \frac{1}{n-1}\sum_{i=1}^n (x_i - \hat\mu)^2.$$

Dacă considerăm acum variabila aleatoare

$$ T = \frac{\hat\mu_n - \mu}{\hat\sigma_n/\sqrt{n}}, $$

obținem o variabilă aleatoare urmând o distribuție bine cunoscută numită distribuția t Student pe $n-1$ grade de libertate.

Această distribuție este foarte bine studiată, și este cunoscut, de exemplu, că pe măsură ce $n\rightarrow \infty$, este aproximativ o Gaussiană standard, și astfel căutând valorile c.d.f. Gaussiene într-un tabel, putem concluziona că valoarea lui $T$ este în intervalul $[-1.96, 1.96]$ cel puțin $95\%$ din timp. Pentru valori finite ale lui $n$, intervalul trebuie să fie ceva mai mare, dar sunt bine cunoscute și precalculate în tabele.

Astfel, putem concluziona că pentru $n$ mare,

$$ P\left(\frac{\hat\mu_n - \mu}{\hat\sigma_n/\sqrt{n}} \in [-1.96, 1.96]\right) \ge 0.95. $$

Rearanjând asta prin înmulțirea ambelor părți cu $\hat\sigma_n/\sqrt{n}$ și apoi adăugând $\hat\mu_n$, obținem

$$ P\left(\mu \in \left[\hat\mu_n - 1.96\frac{\hat\sigma_n}{\sqrt{n}}, \hat\mu_n + 1.96\frac{\hat\sigma_n}{\sqrt{n}}\right]\right) \ge 0.95. $$

Astfel știm că am găsit intervalul nostru de încredere de $95\%$: $$\left[\hat\mu_n - 1.96\frac{\hat\sigma_n}{\sqrt{n}}, \hat\mu_n + 1.96\frac{\hat\sigma_n}{\sqrt{n}}\right].$$

Este sigur de spus că :eqref:eq_gauss_confidence este una dintre cele mai folosite formule în statistică. Să încheiem discuția noastră despre statistică implementând-o. Pentru simplitate, presupunem că suntem în regimul asimptotic. Valori mici ale lui $N$ ar trebui să includă valoarea corectă a lui t_star obținută fie programatic fie dintr-un tabel $t$.

#@tab pytorch
# PyTorch uses Bessel's correction by default, which means the use of ddof=1
# instead of default ddof=0 in numpy. We can use unbiased=False to imitate
# ddof=0.
 
# Number of samples
N = 1000
 
# Sample dataset
samples = torch.normal(0, 1, size=(N,))
 
# Lookup Students's t-distribution c.d.f.
t_star = 1.96
 
# Construct interval
mu_hat = torch.mean(samples)
sigma_hat = samples.std(unbiased=True)
(mu_hat - t_star*sigma_hat/torch.sqrt(torch.tensor(N, dtype=torch.float32)),\
 mu_hat + t_star*sigma_hat/torch.sqrt(torch.tensor(N, dtype=torch.float32)))

Rezumat

  • Statistica se concentrează pe probleme de inferență, în timp ce învățarea profundă pune accent pe realizarea de predicții precise fără programare explicită și înțelegere.
  • Există trei metode comune de inferență statistică: evaluarea și compararea estimatorilor, efectuarea testelor de ipoteză și construirea intervalelor de încredere.
  • Există trei estimatori cei mai comuni: biasul statistic, deviația standard și eroarea pătratică medie.
  • Un interval de încredere este un interval estimat al unui parametru adevărat al populației pe care îl putem construi date fiind eșantioanele.
  • Testarea ipotezelor este o modalitate de a evalua o dovadă împotriva afirmației implicite despre o populație.

Exerciții

  1. Fie $X_1, X_2, \ldots, X_n \overset{\textrm{iid}}{\sim} \textrm{Unif}(0, \theta)$, unde “iid” înseamnă independent și identic distribuit. Considerați următorii estimatori ai $\theta$: $$\hat{\theta} = \max \{X_1, X_2, \ldots, X_n \};$$ $$\tilde{\theta} = 2 \bar{X_n} = \frac{2}{n} \sum_{i=1}^n X_i.$$
    • Găsiți biasul statistic, deviația standard și eroarea pătratică medie a lui $\hat{\theta}.$
    • Găsiți biasul statistic, deviația standard și eroarea pătratică medie a lui $\tilde{\theta}.$
    • Care estimator este mai bun?
  2. Pentru exemplul nostru cu chimistul din introducere, puteți deriva cei 5 pași pentru a efectua un test de ipoteză bilateral? Dat fiind nivelul de semnificație statistică $\alpha = 0.05$ și puterea statistică $1 - \beta = 0.8$.
  3. Rulați codul intervalului de încredere cu $N=2$ și $\alpha = 0.5$ pentru $100$ seturi de date generate independent, și reprezentați grafic intervalele rezultate (în acest caz t_star = 1.0). Veți vedea câteva intervale foarte scurte care sunt foarte departe de a conține media adevărată $0$. Contrazice aceasta interpretarea intervalului de încredere? Vă simțiți confortabil folosind intervale scurte pentru a indica estimări de înaltă precizie?

Discuții

1)
Neyman.1937
2)
Morey.Hoekstra.Rouder.ea.2016
ro/course/math/recap/statistics.txt · Last modified: by 127.0.0.1

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki