====== Variabile Aleatoare ======
În am văzut elementele de bază despre cum să lucrăm cu variabile aleatoare discrete, care în cazul nostru se referă la acele variabile aleatoare care iau fie un set finit de valori posibile, fie numerele întregi. În această secțiune, dezvoltăm teoria //variabilelor aleatoare continue//, care sunt variabile aleatoare care pot lua orice valoare reală.
===== Variabile Aleatoare Continue =====
Variabilele aleatoare continue sunt un subiect semnificativ mai subtil decât variabilele aleatoare discrete. O analogie corectă de făcut este că saltul tehnic este comparabil cu saltul dintre adunarea listelor de numere și integrarea funcțiilor. Ca atare, va trebui să ne luăm ceva timp pentru a dezvolta teoria.
==== De la Discret la Continuu ====
Pentru a înțelege provocările tehnice suplimentare întâlnite atunci când lucrăm cu variabile aleatoare continue, să efectuăm un experiment gândit. Să presupunem că aruncăm o săgeată la ținta de darts, și vrem să știm probabilitatea ca ea să lovească exact la $2 \textrm{cm}$ de centrul țintei.
Pentru început, ne imaginăm măsurarea cu o singură cifră de precizie, adică cu coșuri pentru $0 \textrm{cm}$, $1 \textrm{cm}$, $2 \textrm{cm}$, și așa mai departe. Aruncăm să zicem $100$ de săgeți la țintă, și dacă $20$ dintre ele cad în coșul pentru $2\textrm{cm}$ concluzionăm că $20\%$ din săgețile pe care le aruncăm lovesc ținta la $2 \textrm{cm}$ distanță de centru.
Totuși, când ne uităm mai atent, acest lucru nu se potrivește cu întrebarea noastră! Am vrut egalitate exactă, în timp ce aceste coșuri țin tot ce a căzut între să zicem $1.5\textrm{cm}$ și $2.5\textrm{cm}$.
Nedescurajați, continuăm mai departe. Măsurăm chiar mai precis, să zicem $1.9\textrm{cm}$, $2.0\textrm{cm}$, $2.1\textrm{cm}$, și acum vedem că poate $3$ din cele $100$ de săgeți au lovit ținta în găleata de $2.0\textrm{cm}$. Astfel concluzionăm că probabilitatea este $3\%$.
Totuși, acest lucru nu rezolvă nimic! Tocmai am împins problema cu o cifră mai departe. Să abstractizăm puțin. Imaginați-vă că știm probabilitatea ca primele $k$ cifre să se potrivească cu $2.00000\ldots$ și vrem să știm probabilitatea ca ea să se potrivească pentru primele $k+1$ cifre. Este destul de rezonabil să presupunem că a ${k+1}^{\textrm{a}}$ cifră este esențial o alegere aleatoare din mulțimea $\{0, 1, 2, \ldots, 9\}$. Cel puțin, nu putem concepe un proces semnificativ fizic care ar forța numărul de micrometri distanță de centru să prefere să se termine într-un $7$ vs un $3$.
Ceea ce înseamnă acest lucru este că în esență fiecare cifră suplimentară de precizie pe care o cerem ar trebui să scadă probabilitatea de potrivire cu un factor de $10$. Sau pus altfel, ne-am aștepta ca
$$
P(\textrm{distanța este}\; 2.00\ldots, \;\textrm{la}\; k \;\textrm{cifre} ) \approx p\cdot10^{-k}.
$$
Valoarea $p$ codifică esențial ce se întâmplă cu primele câteva cifre, iar $10^{-k}$ se ocupă de restul.
Observați că dacă știm poziția precisă la $k=4$ cifre după zecimală, asta înseamnă că știm că valoarea cade în intervalul să zicem $[1.99995,2.00005]$ care este un interval de lungime $2.00005-1.99995 = 10^{-4}$. Astfel, dacă numim lungimea acestui interval $\epsilon$, putem spune
$$
P(\textrm{distanța este într-un interval de mărime}\; \epsilon \textrm{ în jurul lui}\; 2 ) \approx \epsilon \cdot p.
$$
Să ducem asta cu un ultim pas mai departe. Ne-am gândit la punctul $2$ tot timpul, dar nu ne-am gândit niciodată la alte puncte. Nimic nu este diferit acolo fundamental, dar este cazul că valoarea $p$ va fi probabil diferită. Am spera cel puțin ca un aruncător de săgeți să fie mai probabil să lovească un punct lângă centru, precum $2\textrm{cm}$ mai degrabă decât $20\textrm{cm}$. Astfel, valoarea $p$ nu este fixă, ci mai degrabă ar trebui să depindă de punctul $x$. Aceasta ne spune că ar trebui să ne așteptăm la
$$P(\textrm{distanța este într-un interval de mărime}\; \epsilon \textrm{ în jurul lui}\; x ) \approx \epsilon \cdot p(x).$$
Într-adevăr, :eqref:''%%eq_pdf_deriv%%'' definește precis //funcția de densitate a probabilității//. Este o funcție $p(x)$ care codifică probabilitatea relativă de a lovi lângă un punct vs. altul. Să vizualizăm cum ar putea arăta o astfel de funcție.
#@tab pytorch
%matplotlib inline
from d2l import torch as d2l
from IPython import display
import torch
torch.pi = torch.acos(torch.zeros(1)).item() * 2 # Define pi in torch
# Plot the probability density function for some random variable
x = torch.arange(-5, 5, 0.01)
p = 0.2*torch.exp(-(x - 3)**2 / 2)/torch.sqrt(2 * torch.tensor(torch.pi)) + \
0.8*torch.exp(-(x + 1)**2 / 2)/torch.sqrt(2 * torch.tensor(torch.pi))
d2l.plot(x, p, 'x', 'Density')
Locațiile unde valoarea funcției este mare indică regiuni unde suntem mai susceptibili să găsim valoarea aleatoare. Porțiunile joase sunt zone unde este puțin probabil să găsim valoarea aleatoare.
==== Funcții de Densitate a Probabilității ====
Să investigăm acum acest lucru mai departe. Am văzut deja ce este o funcție de densitate a probabilității intuitiv pentru o variabilă aleatoare $X$, anume funcția de densitate este o funcție $p(x)$ astfel încât
$$P(X \; \textrm{este într-un interval de mărime}\; \epsilon \textrm{ în jurul lui}\; x ) \approx \epsilon \cdot p(x).$$
Dar ce implică asta pentru proprietățile lui $p(x)$?
Mai întâi, probabilitățile nu sunt niciodată negative, astfel ar trebui să ne așteptăm ca $p(x) \ge 0$ de asemenea.
În al doilea rând, să ne imaginăm că feliem $\mathbb{R}$ într-un număr infinit de felii care sunt $\epsilon$ de late, să zicem cu felii $(\epsilon\cdot i, \epsilon \cdot (i+1)]$. Pentru fiecare dintre acestea, știm din :eqref:''%%eq_pdf_def%%'' că probabilitatea este aproximativ
$$
P(X \; \textrm{este într-un interval de mărime}\; \epsilon\textrm{ în jurul lui}\; x ) \approx \epsilon \cdot p(\epsilon \cdot i),
$$
deci însumate peste toate ar trebui să fie
$$
P(X\in\mathbb{R}) \approx \sum_i \epsilon \cdot p(\epsilon\cdot i).
$$
Aceasta nu este nimic mai mult decât aproximarea unei integrale discutată în , astfel putem spune că
$$
P(X\in\mathbb{R}) = \int_{-\infty}^{\infty} p(x) \; dx.
$$
Știm că $P(X\in\mathbb{R}) = 1$, deoarece variabila aleatoare trebuie să ia //un// număr, putem concluziona că pentru orice densitate
$$
\int_{-\infty}^{\infty} p(x) \; dx = 1.
$$
Într-adevăr, săpând în asta mai departe arată că pentru orice $a$, și $b$, vedem că
$$
P(X\in(a, b]) = \int _ {a}^{b} p(x) \; dx.
$$
Putem aproxima asta în cod folosind aceleași metode discrete de aproximare ca înainte. În acest caz putem aproxima probabilitatea de a cădea în regiunea albastră.
#@tab pytorch
# Approximate probability using numerical integration
epsilon = 0.01
x = torch.arange(-5, 5, 0.01)
p = 0.2*torch.exp(-(x - 3)**2 / 2) / torch.sqrt(2 * torch.tensor(torch.pi)) +\
0.8*torch.exp(-(x + 1)**2 / 2) / torch.sqrt(2 * torch.tensor(torch.pi))
d2l.set_figsize()
d2l.plt.plot(x, p, color='black')
d2l.plt.fill_between(x.tolist()[300:800], p.tolist()[300:800])
d2l.plt.show()
f'approximate Probability: {torch.sum(epsilon*p[300:800])}'
Se pare că aceste două proprietăți descriu exact spațiul posibilelor funcții de densitate a probabilității (sau //p.d.f.// pentru abrevierea comun întâlnită). Ele sunt funcții non-negative $p(x) \ge 0$ astfel încât
$$\int_{-\infty}^{\infty} p(x) \; dx = 1.$$
Interpretăm această funcție folosind integrarea pentru a obține probabilitatea ca variabila noastră aleatoare să fie într-un interval specific:
$$P(X\in(a, b]) = \int _ {a}^{b} p(x) \; dx.$$
În vom vedea un număr de distribuții comune, dar să continuăm să lucrăm în abstract.
==== Funcții de Distribuție Cumulativă ====
În secțiunea anterioară, am văzut noțiunea de p.d.f. În practică, aceasta este o metodă comun întâlnită pentru a discuta variabile aleatoare continue, dar are o capcană semnificativă: că valorile p.d.f. nu sunt ele însele probabilități, ci mai degrabă o funcție pe care trebuie să o integrăm pentru a obține probabilități. Nu este nimic greșit cu o densitate fiind mai mare de $10$, atâta timp cât nu este mai mare de $10$ pentru mai mult de un interval de lungime $1/10$. Acest lucru poate fi contra-intuitiv, așa că oamenii gândesc adesea și în termeni de //funcție de distribuție cumulativă//, sau c.d.f., care //este// o probabilitate.
În particular, folosind :eqref:''%%eq_pdf_int_int%%'', definim c.d.f. pentru o variabilă aleatoare $X$ cu densitatea $p(x)$ prin
$$
F(x) = \int _ {-\infty}^{x} p(x) \; dx = P(X \le x).
$$
Să observăm câteva proprietăți.
* $F(x) \rightarrow 0$ când $x\rightarrow -\infty$.
* $F(x) \rightarrow 1$ când $x\rightarrow \infty$.
* $F(x)$ este nedescrescătoare ($y > x \implies F(y) \ge F(x)$).
* $F(x)$ este continuă (nu are salturi) dacă $X$ este o variabilă aleatoare continuă.
Cu al patrulea punct, rețineți că acest lucru nu ar fi adevărat dacă $X$ ar fi discretă, să zicem luând valorile $0$ și $1$ ambele cu probabilitate $1/2$. În acel caz
$$
F(x) = \begin{cases}
0 & x < 0, \\
\frac{1}{2} & x < 1, \\
1 & x \ge 1.
\end{cases}
$$
În acest exemplu, vedem unul dintre beneficiile lucrului cu c.d.f., abilitatea de a ne ocupa de variabile aleatoare continue sau discrete în același cadru, sau într-adevăr amestecuri ale celor două (aruncă o monedă: dacă e cap returnează aruncarea unui zar, dacă e pajură returnează distanța unei aruncări de darts de la centrul unei ținte de darts).
==== Medii ====
Să presupunem că avem de-a face cu o variabilă aleatoare $X$. Distribuția însăși poate fi greu de interpretat. Este adesea util să putem rezuma comportamentul unei variabile aleatoare concis. Numerele care ne ajută să capturăm comportamentul unei variabile aleatoare sunt numite //statistici rezumative//. Cele mai frecvent întâlnite sunt //media//, //varianța// și //deviația standard//.
//Media// codifică valoarea medie a unei variabile aleatoare. Dacă avem o variabilă aleatoare discretă $X$, care ia valorile $x_i$ cu probabilitățile $p_i$, atunci media este dată de media ponderată: sumează valorile înmulțite cu probabilitatea ca variabila aleatoare să ia acea valoare:
$$\mu_X = E[X] = \sum_i x_i p_i.$$
Modul în care ar trebui să interpretăm media (deși cu precauție) este că ne spune esențial unde tinde să fie localizată variabila aleatoare.
Ca un exemplu minimalist pe care îl vom examina pe parcursul acestei secțiuni, să luăm $X$ ca fiind variabila aleatoare care ia valoarea $a-2$ cu probabilitatea $p$, $a+2$ cu probabilitatea $p$ și $a$ cu probabilitatea $1-2p$. Putem calcula folosind :eqref:''%%eq_exp_def%%'' că, pentru orice alegere posibilă a lui $a$ și $p$, media este
$$
\mu_X = E[X] = \sum_i x_i p_i = (a-2)p + a(1-2p) + (a+2)p = a.
$$
Astfel vedem că media este $a$. Aceasta se potrivește cu intuiția deoarece $a$ este locația în jurul căreia am centrat variabila noastră aleatoare.
Deoarece sunt utile, să rezumăm câteva proprietăți.
* Pentru orice variabilă aleatoare $X$ și numere $a$ și $b$, avem că $\mu_{aX+b} = a\mu_X + b$.
* Dacă avem două variabile aleatoare $X$ și $Y$, avem $\mu_{X+Y} = \mu_X+\mu_Y$.
Mediile sunt utile pentru înțelegerea comportamentului mediu al unei variabile aleatoare, totuși media nu este suficientă nici măcar pentru a avea o înțelegere intuitivă completă. A face un profit de $\$10 \pm \$1$ per vânzare este foarte diferit de a face $\$10 \pm \$15$ per vânzare în ciuda faptului că au aceeași valoare medie. A doua are un grad mult mai mare de fluctuație, și astfel reprezintă un risc mult mai mare. Astfel, pentru a înțelege comportamentul unei variabile aleatoare, vom avea nevoie de minim încă o măsură: o măsură a cât de larg fluctuează o variabilă aleatoare.
==== Varianțe ====
Acest lucru ne duce la considerarea //varianței// unei variabile aleatoare. Aceasta este o măsură cantitativă a cât de departe o variabilă aleatoare deviază de la medie. Considerați expresia $X - \mu_X$. Aceasta este deviația variabilei aleatoare de la media sa. Această valoare poate fi pozitivă sau negativă, deci trebuie să facem ceva pentru a o face pozitivă astfel încât să măsurăm magnitudinea deviației.
Un lucru rezonabil de încercat este să ne uităm la $\left|X-\mu_X\right|$, și într-adevăr asta duce la o cantitate utilă numită //deviație absolută medie//, totuși datorită conexiunilor cu alte zone ale matematicii și statisticii, oamenii folosesc adesea o soluție diferită.
În particular, ei se uită la $(X-\mu_X)^2.$ Dacă ne uităm la dimensiunea tipică a acestei cantități luând media, ajungem la varianță
$$\sigma_X^2 = \textrm{Var}(X) = E\left[(X-\mu_X)^2\right] = E[X^2] - \mu_X^2.$$
Ultima egalitate în :eqref:''%%eq_var_def%%'' se menține prin extinderea definiției din mijloc, și aplicând proprietățile așteptării.
Să ne uităm la exemplul nostru unde $X$ este variabila aleatoare care ia valoarea $a-2$ cu probabilitatea $p$, $a+2$ cu probabilitatea $p$ și $a$ cu probabilitatea $1-2p$. În acest caz $\mu_X = a$, deci tot ce trebuie să calculăm este $E\left[X^2\right]$. Acest lucru poate fi făcut cu ușurință:
$$
E\left[X^2\right] = (a-2)^2p + a^2(1-2p) + (a+2)^2p = a^2 + 8p.
$$
Astfel, vedem că prin :eqref:''%%eq_var_def%%'' varianța noastră este
$$
\sigma_X^2 = \textrm{Var}(X) = E[X^2] - \mu_X^2 = a^2 + 8p - a^2 = 8p.
$$
Acest rezultat are sens din nou. Cel mai mare $p$ poate fi este $1/2$ care corespunde alegerii $a-2$ sau $a+2$ cu o aruncare de monedă. Varianța acesteia fiind $4$ corespunde faptului că atât $a-2$ cât și $a+2$ sunt la $2$ unități distanță de medie, și $2^2 = 4$. La celălalt capăt al spectrului, dacă $p=0$, această variabilă aleatoare ia întotdeauna valoarea $0$ și deci nu are varianță deloc.
Vom lista câteva proprietăți ale varianței mai jos:
* Pentru orice variabilă aleatoare $X$, $\textrm{Var}(X) \ge 0$, cu $\textrm{Var}(X) = 0$ dacă și numai dacă $X$ este o constantă.
* Pentru orice variabilă aleatoare $X$ și numere $a$ și $b$, avem că $\textrm{Var}(aX+b) = a^2\textrm{Var}(X)$.
* Dacă avem două variabile aleatoare //independente// $X$ și $Y$, avem $\textrm{Var}(X+Y) = \textrm{Var}(X) + \textrm{Var}(Y)$.
Când interpretăm aceste valori, poate fi un mic hop. În particular, să încercăm să ne imaginăm ce se întâmplă dacă ținem evidența unităților prin acest calcul. Să presupunem că lucrăm cu ratingul de stele atribuit unui produs pe pagina web. Atunci $a$, $a-2$, și $a+2$ sunt toate măsurate în unități de stele. Similar, media $\mu_X$ este atunci măsurată de asemenea în stele (fiind o medie ponderată). Totuși, dacă ajungem la varianță, întâmpinăm imediat o problemă, care este că vrem să ne uităm la $(X-\mu_X)^2$, care este în unități de //stele pătrate//. Asta înseamnă că varianța însăși nu este comparabilă cu măsurătorile originale. Pentru a o face interpretabilă, va trebui să ne întoarcem la unitățile noastre originale.
==== Deviații Standard ====
Aceste statistici rezumative pot fi deduse întotdeauna din varianță luând rădăcina pătrată! Astfel definim //deviația standard// a fi
$$
\sigma_X = \sqrt{\textrm{Var}(X)}.
$$
În exemplul nostru, asta înseamnă că acum avem deviația standard este $\sigma_X = 2\sqrt{2p}$. Dacă ne ocupăm cu unități de stele pentru exemplul nostru de recenzie, $\sigma_X$ este din nou în unități de stele.
Proprietățile pe care le-am avut pentru varianță pot fi reafirmate pentru deviația standard.
* Pentru orice variabilă aleatoare $X$, $\sigma_{X} \ge 0$.
* Pentru orice variabilă aleatoare $X$ și numere $a$ și $b$, avem că $\sigma_{aX+b} = |a|\sigma_{X}$
* Dacă avem două variabile aleatoare //independente// $X$ și $Y$, avem $\sigma_{X+Y} = \sqrt{\sigma_{X}^2 + \sigma_{Y}^2}$.
Este natural în acest moment să întrebăm, „Dacă deviația standard este în unitățile variabilei noastre aleatoare originale, reprezintă ceva ce putem desena în ceea ce privește acea variabilă aleatoare?” Răspunsul este un da răsunător! Într-adevăr mult ca media care ne-a spus locația tipică a variabilei noastre aleatoare, deviația standard oferă intervalul tipic de variație al acelei variabile aleatoare. Putem face acest lucru riguros cu ceea ce este cunoscut sub numele de inegalitatea lui Chebyshev:
$$P\left(X \not\in [\mu_X - \alpha\sigma_X, \mu_X + \alpha\sigma_X]\right) \le \frac{1}{\alpha^2}.$$
Sau pentru a o afirma verbal în cazul $\alpha=10$, $99\%$ din eșantioanele de la o variabilă aleatoare cad în $10$ deviații standard de la medie. Acest lucru oferă o interpretare imediată statisticilor noastre rezumative standard.
Pentru a vedea cum această afirmație este destul de subtilă, să aruncăm o privire la exemplul nostru curent din nou unde $X$ este variabila aleatoare care ia valoarea $a-2$ cu probabilitatea $p$, $a+2$ cu probabilitatea $p$ și $a$ cu probabilitatea $1-2p$. Am văzut că media a fost $a$ și deviația standard a fost $2\sqrt{2p}$. Asta înseamnă, dacă luăm inegalitatea lui Chebyshev :eqref:''%%eq_chebyshev%%'' cu $\alpha = 2$, vedem că expresia este
$$
P\left(X \not\in [a - 4\sqrt{2p}, a + 4\sqrt{2p}]\right) \le \frac{1}{4}.
$$
Asta înseamnă că $75\%$ din timp, această variabilă aleatoare va cădea în acest interval pentru orice valoare a lui $p$. Acum, observați că pe măsură ce $p \rightarrow 0$, acest interval converge de asemenea la singurul punct $a$. Dar știm că variabila noastră aleatoare ia valorile $a-2, a$, și $a+2$ doar deci eventual putem fi siguri că $a-2$ și $a+2$ vor cădea în afara intervalului! Întrebarea este, la ce $p$ se întâmplă asta. Deci vrem să rezolvăm: pentru ce $p$ face $a+4\sqrt{2p} = a+2$, care este rezolvat când $p=1/8$, care este //exact// primul $p$ unde s-ar putea întâmpla posibil fără a încălca afirmația noastră că nu mai mult de $1/4$ din eșantioanele din distribuție ar cădea în afara intervalului ($1/8$ la stânga, și $1/8$ la dreapta).
Să vizualizăm asta. Vom arăta probabilitatea de a obține cele trei valori ca trei bare verticale cu înălțime proporțională cu probabilitatea. Intervalul va fi desenat ca o linie orizontală în mijloc. Primul grafic arată ce se întâmplă pentru $p > 1/8$ unde intervalul conține în siguranță toate punctele.
#@tab pytorch
# Define a helper to plot these figures
def plot_chebyshev(a, p):
d2l.set_figsize()
d2l.plt.stem([a-2, a, a+2], [p, 1-2*p, p], use_line_collection=True)
d2l.plt.xlim([-4, 4])
d2l.plt.xlabel('x')
d2l.plt.ylabel('p.m.f.')
d2l.plt.hlines(0.5, a - 4 * torch.sqrt(2 * p),
a + 4 * torch.sqrt(2 * p), 'black', lw=4)
d2l.plt.vlines(a - 4 * torch.sqrt(2 * p), 0.53, 0.47, 'black', lw=1)
d2l.plt.vlines(a + 4 * torch.sqrt(2 * p), 0.53, 0.47, 'black', lw=1)
d2l.plt.title(f'p = {p:.3f}')
d2l.plt.show()
# Plot interval when p > 1/8
plot_chebyshev(0.0, torch.tensor(0.2))
Al doilea arată că la $p = 1/8$, intervalul atinge exact cele două puncte. Acest lucru arată că inegalitatea este //ascuțită//, deoarece niciun interval mai mic nu ar putea fi luat păstrând inegalitatea adevărată.
#@tab pytorch
# Plot interval when p = 1/8
plot_chebyshev(0.0, torch.tensor(0.125))
Al treilea arată că pentru $p < 1/8$ intervalul conține doar centrul. Acest lucru nu invalidează inegalitatea deoarece trebuia doar să ne asigurăm că nu mai mult de $1/4$ din probabilitate cade în afara intervalului, ceea ce înseamnă că odată ce $p < 1/8$, cele două puncte la $a-2$ și $a+2$ pot fi eliminate.
#@tab pytorch
# Plot interval when p < 1/8
plot_chebyshev(0.0, torch.tensor(0.05))
==== Medii și Varianțe în Continuu ====
Toate acestea au fost în termeni de variabile aleatoare discrete, dar cazul variabilelor aleatoare continue este similar. Pentru a înțelege intuitiv cum funcționează asta, imaginați-vă că împărțim linia numerică reală în intervale de lungime $\epsilon$ date de $(\epsilon i, \epsilon (i+1)]$. Odată ce facem asta, variabila noastră aleatoare continuă a fost făcută discretă și putem folosi :eqref:''%%eq_exp_def%%'' spunem că
$$
\begin{aligned}
\mu_X & \approx \sum_{i} (\epsilon i)P(X \in (\epsilon i, \epsilon (i+1)]) \\
& \approx \sum_{i} (\epsilon i)p_X(\epsilon i)\epsilon, \\
\end{aligned}
$$
unde $p_X$ este densitatea lui $X$. Aceasta este o aproximare a integralei lui $xp_X(x)$, deci putem concluziona că
$$
\mu_X = \int_{-\infty}^\infty xp_X(x) \; dx.
$$
Similar, folosind :eqref:''%%eq_var_def%%'' varianța poate fi scrisă ca
$$
\sigma^2_X = E[X^2] - \mu_X^2 = \int_{-\infty}^\infty x^2p_X(x) \; dx - \left(\int_{-\infty}^\infty xp_X(x) \; dx\right)^2.
$$
Tot ce s-a afirmat mai sus despre medie, varianță și deviația standard se aplică încă în acest caz. De exemplu, dacă considerăm variabila aleatoare cu densitatea
$$
p(x) = \begin{cases}
1 & x \in [0,1], \\
0 & \textrm{altfel}.
\end{cases}
$$
putem calcula
$$
\mu_X = \int_{-\infty}^\infty xp(x) \; dx = \int_0^1 x \; dx = \frac{1}{2}.
$$
și
$$
\sigma_X^2 = \int_{-\infty}^\infty x^2p(x) \; dx - \left(\frac{1}{2}\right)^2 = \frac{1}{3} - \frac{1}{4} = \frac{1}{12}.
$$
Ca un avertisment, să examinăm încă un exemplu, cunoscut sub numele de //distribuția Cauchy//. Aceasta este distribuția cu p.d.f. dată de
$$
p(x) = \frac{1}{1+x^2}.
$$
#@tab pytorch
# Plot the Cauchy distribution p.d.f.
x = torch.arange(-5, 5, 0.01)
p = 1 / (1 + x**2)
d2l.plot(x, p, 'x', 'p.d.f.')
Această funcție pare nevinovată, și într-adevăr consultând un tabel de integrale va arăta că are aria unu sub ea, și astfel definește o variabilă aleatoare continuă.
Pentru a vedea ce merge prost, să încercăm să calculăm varianța acesteia. Aceasta ar implica folosirea :eqref:''%%eq_var_def%%'' calculând
$$
\int_{-\infty}^\infty \frac{x^2}{1+x^2}\; dx.
$$
Funcția din interior arată așa:
#@tab pytorch
# Plot the integrand needed to compute the variance
x = torch.arange(-20, 20, 0.01)
p = x**2 / (1 + x**2)
d2l.plot(x, p, 'x', 'integrand')
Această funcție are clar arie infinită sub ea deoarece este esențial constanta unu cu o mică adâncitură lângă zero, și într-adevăr am putea arăta că
$$
\int_{-\infty}^\infty \frac{x^2}{1+x^2}\; dx = \infty.
$$
Asta înseamnă că nu are o varianță finită bine definită.
Totuși, privind mai profund arată un rezultat chiar mai tulburător. Să încercăm să calculăm media folosind :eqref:''%%eq_exp_def%%''. Folosind formula schimbării de variabilă, vedem
$$
\mu_X = \int_{-\infty}^{\infty} \frac{x}{1+x^2} \; dx = \frac{1}{2}\int_1^\infty \frac{1}{u} \; du.
$$
Integrala din interior este definiția logaritmului, deci asta este în esență $\log(\infty) = \infty$, deci nu există nicio valoare medie bine definită nici ea!
Oamenii de știință din învățarea automată își definesc modelele astfel încât de cele mai multe ori nu avem nevoie să ne ocupăm de aceste probleme, și vom avea de-a face în marea majoritate a cazurilor cu variabile aleatoare cu medii și varianțe bine definite. Totuși, din când în când variabile aleatoare cu //cozi grele// (adică acele variabile aleatoare unde probabilitățile de a obține valori mari sunt suficient de mari pentru a face lucruri precum media sau varianța nedefinite) sunt utile în modelarea sistemelor fizice, astfel merită știut că ele există.
==== Funcții de Densitate Comune ====
Munca de mai sus presupune că lucrăm cu o singură variabilă aleatoare reală. Dar ce se întâmplă dacă avem de-a face cu două sau mai multe variabile aleatoare potențial foarte corelate? Această circumstanță este norma în învățarea automată: imaginați-vă variabile aleatoare precum $R_{i, j}$ care codifică valoarea roșie a pixelului la coordonata $(i, j)$ într-o imagine, sau $P_t$ care este o variabilă aleatoare dată de prețul unei acțiuni la momentul $t$. Pixelii apropiați tind să aibă culori similare, și momentele apropiate tind să aibă prețuri similare. Nu le putem trata ca variabile aleatoare separate, și să ne așteptăm să creăm un model de succes (vom vedea în un model care sub-performază datorită unei astfel de presupuneri). Trebuie să dezvoltăm limbajul matematic pentru a gestiona aceste variabile aleatoare continue corelate.
Din fericire, cu integralele multiple în putem dezvolta un astfel de limbaj. Să presupunem că avem, pentru simplitate, două variabile aleatoare $X, Y$ care pot fi corelate. Atunci, similar cu cazul unei singure variabile, putem pune întrebarea:
$$
P(X \;\textrm{este într-un interval de mărime}\; \epsilon \textrm{ în jurul lui}\; x \; \textrm{și} \;Y \;\textrm{este într-un interval de mărime}\; \epsilon \textrm{ în jurul lui}\; y ).
$$
Raționamentul similar cazului variabilei unice arată că aceasta ar trebui să fie aproximativ
$$
P(X \;\textrm{este într-un interval de mărime}\; \epsilon \textrm{ în jurul lui}\; x \; \textrm{și} \;Y \;\textrm{este într-un interval de mărime}\; \epsilon \textrm{ în jurul lui}\; y ) \approx \epsilon^{2}p(x, y),
$$
pentru o funcție $p(x, y)$. Aceasta este referită ca densitatea comună a lui $X$ și $Y$. Proprietăți similare sunt adevărate pentru aceasta așa cum am văzut în cazul variabilei unice. Anume:
* $p(x, y) \ge 0$;
* $\int _ {\mathbb{R}^2} p(x, y) \;dx \;dy = 1$;
* $P((X, Y) \in \mathcal{D}) = \int _ {\mathcal{D}} p(x, y) \;dx \;dy$.
În acest fel, putem trata multiple variabile aleatoare potențial corelate. Dacă dorim să lucrăm cu mai mult de două variabile aleatoare, putem extinde densitatea multivariată la câte coordonate dorim considerând $p(\mathbf{x}) = p(x_1, \ldots, x_n)$. Aceleași proprietăți de a fi non-negative, și având integrala totală unu încă se mențin.
==== Distribuții Marginale ====
Când lucrăm cu variabile multiple, de multe ori vrem să putem ignora relațiile și să întrebăm, „cum este distribuită această singură variabilă?” O astfel de distribuție se numește //distribuție marginală//.
Pentru a fi concreți, să presupunem că avem două variabile aleatoare $X, Y$ cu densitatea comună dată de $p _ {X, Y}(x, y)$. Vom folosi indicele pentru a indica pentru ce variabile aleatoare este densitatea. Întrebarea găsirii distribuției marginale este luarea acestei funcții, și folosirea ei pentru a găsi $p _ X(x)$.
Ca în majoritatea lucrurilor, cel mai bine este să ne întoarcem la imaginea intuitivă pentru a ne da seama ce ar trebui să fie adevărat. Reamintiți-vă că densitatea este funcția $p _ X$ astfel încât
$$
P(X \in [x, x+\epsilon]) \approx \epsilon \cdot p _ X(x).
$$
Nu există nicio mențiune a lui $Y$, dar dacă tot ce ni se dă este $p _{X, Y}$, trebuie să includem $Y$ cumva. Putem observa mai întâi că aceasta este la fel ca
$$
P(X \in [x, x+\epsilon] \textrm{, și } Y \in \mathbb{R}) \approx \epsilon \cdot p _ X(x).
$$
Densitatea noastră nu ne spune direct despre ce se întâmplă în acest caz, trebuie să împărțim în intervale mici în $y$ de asemenea, deci putem scrie asta ca
$$
\begin{aligned}
\epsilon \cdot p _ X(x) & \approx \sum _ {i} P(X \in [x, x+\epsilon] \textrm{, și } Y \in [\epsilon \cdot i, \epsilon \cdot (i+1)]) \\
& \approx \sum _ {i} \epsilon^{2} p _ {X, Y}(x, \epsilon\cdot i).
\end{aligned}
$$
{{:wiki:img:marginal.svg|Prin însumarea de-a lungul coloanelor matricei noastre de probabilități, suntem capabili să obținem distribuția marginală doar pentru variabila aleatoare reprezentată de-a lungul axei $\mathit{x}$.}}
Acest lucru ne spune să adunăm valoarea densității de-a lungul unei serii de pătrate într-o linie așa cum este arătat în . Într-adevăr, după anularea unui factor de epsilon din ambele părți, și recunoscând suma din dreapta este integrala peste $y$, putem concluziona că
$$
\begin{aligned}
p _ X(x) & \approx \sum _ {i} \epsilon p _ {X, Y}(x, \epsilon\cdot i) \\
& \approx \int_{-\infty}^\infty p_{X, Y}(x, y) \; dy.
\end{aligned}
$$
Astfel vedem
$$
p _ X(x) = \int_{-\infty}^\infty p_{X, Y}(x, y) \; dy.
$$
Aceasta ne spune că pentru a obține o distribuție marginală, integrăm peste variabilele de care nu ne pasă. Acest proces este adesea referit ca //integrarea în afară// sau //marginalizarea în afară// a variabilelor inutile.
==== Covarianță ====
Când avem de-a face cu multiple variabile aleatoare, există o statistică rezumativă suplimentară care este util de știut: //covarianța//. Aceasta măsoară gradul în care două variabile aleatoare fluctuează împreună.
Să presupunem că avem două variabile aleatoare $X$ și $Y$, pentru început, să presupunem că sunt discrete, luând valori $(x_i, y_j)$ cu probabilitatea $p_{ij}$. În acest caz, covarianța este definită ca
$$\sigma_{XY} = \textrm{Cov}(X, Y) = \sum_{i, j} (x_i - \mu_X) (y_j-\mu_Y) p_{ij}. = E[XY] - E[X]E[Y].$$
Pentru a ne gândi la asta intuitiv: considerați următoarea pereche de variabile aleatoare. Să presupunem că $X$ ia valorile $1$ și $3$, și $Y$ ia valorile $-1$ și $3$. Să presupunem că avem următoarele probabilități
$$
\begin{aligned}
P(X = 1 \; \textrm{și} \; Y = -1) & = \frac{p}{2}, \\
P(X = 1 \; \textrm{și} \; Y = 3) & = \frac{1-p}{2}, \\
P(X = 3 \; \textrm{și} \; Y = -1) & = \frac{1-p}{2}, \\
P(X = 3 \; \textrm{și} \; Y = 3) & = \frac{p}{2},
\end{aligned}
$$
unde $p$ este un parametru în $[0,1]$ pe care îl alegem. Observați că dacă $p=1$ atunci ele sunt ambele întotdeauna valorile lor minime sau maxime simultan, și dacă $p=0$ ele sunt garantate să ia valorile lor inversate simultan (una este mare când cealaltă este mică și viceversa). Dacă $p=1/2$, atunci cele patru posibilități sunt toate egal probabile, și niciuna nu ar trebui să fie corelată. Să calculăm covarianța. Mai întâi, notați $\mu_X = 2$ și $\mu_Y = 1$, deci putem calcula folosind :eqref:''%%eq_cov_def%%'':
$$
\begin{aligned}
\textrm{Cov}(X, Y) & = \sum_{i, j} (x_i - \mu_X) (y_j-\mu_Y) p_{ij} \\
& = (1-2)(-1-1)\frac{p}{2} + (1-2)(3-1)\frac{1-p}{2} + (3-2)(-1-1)\frac{1-p}{2} + (3-2)(3-1)\frac{p}{2} \\
& = 4p-2.
\end{aligned}
$$
Când $p=1$ (cazul unde sunt ambele maxim pozitive sau negative în același timp) are o covarianță de $2$. Când $p=0$ (cazul unde sunt inversate) covarianța este $-2$. În final, când $p=1/2$ (cazul unde sunt necorelate), covarianța este $0$. Astfel vedem că covarianța măsoară cum sunt corelate aceste două variabile aleatoare.
O notă rapidă despre covarianță este că măsoară doar aceste relații liniare. Relații mai complexe precum $X = Y^2$ unde $Y$ este ales aleatoriu din $\{-2, -1, 0, 1, 2\}$ cu probabilitate egală pot fi ratate. Într-adevăr un calcul rapid arată că aceste variabile aleatoare au covarianță zero, în ciuda faptului că una este o funcție deterministă a celeilalte.
Pentru variabile aleatoare continue, povestea este în mare parte aceeași. În acest punct, suntem destul de confortabili cu a face tranziția între discret și continuu, deci vom oferi analogul continuu al :eqref:''%%eq_cov_def%%'' fără nicio derivare.
$$
\sigma_{XY} = \int_{\mathbb{R}^2} (x-\mu_X)(y-\mu_Y)p(x, y) \;dx \;dy.
$$
Pentru vizualizare, să aruncăm o privire la o colecție de variabile aleatoare cu covarianță ajustabilă.
#@tab pytorch
# Plot a few random variables adjustable covariance
covs = [-0.9, 0.0, 1.2]
d2l.plt.figure(figsize=(12, 3))
for i in range(3):
X = torch.randn(500)
Y = covs[i]*X + torch.randn(500)
d2l.plt.subplot(1, 4, i+1)
d2l.plt.scatter(X.numpy(), Y.numpy())
d2l.plt.xlabel('X')
d2l.plt.ylabel('Y')
d2l.plt.title(f'cov = {covs[i]}')
d2l.plt.show()
Să vedem câteva proprietăți ale covarianței:
* Pentru orice variabilă aleatoare $X$, $\textrm{Cov}(X, X) = \textrm{Var}(X)$.
* Pentru orice variabile aleatoare $X, Y$ și numere $a$ și $b$, $\textrm{Cov}(aX+b, Y) = \textrm{Cov}(X, aY+b) = a\textrm{Cov}(X, Y)$.
* Dacă $X$ și $Y$ sunt independente atunci $\textrm{Cov}(X, Y) = 0$.
În plus, putem folosi covarianța pentru a extinde o relație pe care am văzut-o înainte. Reamintiți-vă că este $X$ și $Y$ sunt două variabile aleatoare independente atunci
$$
\textrm{Var}(X+Y) = \textrm{Var}(X) + \textrm{Var}(Y).
$$
Cu cunoașterea covarianței, putem extinde această relație. Într-adevăr, puțină algebră poate arăta că în general,
$$
\textrm{Var}(X+Y) = \textrm{Var}(X) + \textrm{Var}(Y) + 2\textrm{Cov}(X, Y).
$$
Aceasta ne permite să generalizăm regula însumării varianței pentru variabile aleatoare corelate.
==== Corelație ====
Așa cum am făcut în cazul mediilor și varianțelor, să considerăm acum unitățile. Dacă $X$ este măsurată într-o unitate (să zicem inci), și $Y$ este măsurată în alta (să zicem dolari), covarianța este măsurată în produsul acestor două unități $\textrm{inci} \times \textrm{dolari}$. Aceste unități pot fi greu de interpretat. Ceea ce vom dori adesea în acest caz este o măsurătoare fără unități a gradului de legătură. Într-adevăr, adesea nu ne pasă de corelația cantitativă exactă, ci mai degrabă întrebăm dacă corelația este în aceeași direcție, și cât de puternică este relația.
Pentru a vedea ce are sens, să efectuăm un experiment mental. Să presupunem că convertim variabilele noastre aleatoare în inci și dolari pentru a fi în inci și cenți. În acest caz variabila aleatoare $Y$ este înmulțită cu $100$. Dacă lucrăm prin definiție, asta înseamnă că $\textrm{Cov}(X, Y)$ va fi înmulțită cu $100$. Astfel vedem că în acest caz o schimbare a unităților schimbă covarianța cu un factor de $100$. Astfel, pentru a găsi măsura noastră invariantă la unități a corelației, va trebui să împărțim la altceva care primește de asemenea scalare cu $100$. Într-adevăr avem un candidat clar, deviația standard! Într-adevăr dacă definim //coeficientul de corelație// a fi
$$\rho(X, Y) = \frac{\textrm{Cov}(X, Y)}{\sigma_{X}\sigma_{Y}},$$
vedem că aceasta este o valoare fără unitate. Puțină matematică poate arăta că acest număr este între $-1$ și $1$ cu $1$ însemnând maximal corelat pozitiv, în timp ce $-1$ înseamnă maximal corelat negativ.
Întorcându-ne la exemplul nostru discret explicit de mai sus, putem vedea că $\sigma_X = 1$ și $\sigma_Y = 2$, deci putem calcula corelația dintre cele două variabile aleatoare folosind :eqref:''%%eq_cor_def%%'' pentru a vedea că
$$
\rho(X, Y) = \frac{4p-2}{1\cdot 2} = 2p-1.
$$
Aceasta variază acum între $-1$ și $1$ cu comportamentul așteptat de $1$ însemnând cel mai corelat, și $-1$ însemnând minimal corelat.
Ca un alt exemplu, considerați $X$ ca orice variabilă aleatoare, și $Y=aX+b$ ca orice funcție liniară deterministă de $X$. Atunci, se poate calcula că
$$\sigma_{Y} = \sigma_{aX+b} = |a|\sigma_{X},$$
$$\textrm{Cov}(X, Y) = \textrm{Cov}(X, aX+b) = a\textrm{Cov}(X, X) = a\textrm{Var}(X),$$
și astfel prin :eqref:''%%eq_cor_def%%'' că
$$
\rho(X, Y) = \frac{a\textrm{Var}(X)}{|a|\sigma_{X}^2} = \frac{a}{|a|} = \textrm{sign}(a).
$$
Astfel vedem că corelația este $+1$ pentru orice $a > 0$, și $-1$ pentru orice $a < 0$ ilustrând că corelația măsoară gradul și direcționalitatea legăturii celor două variabile aleatoare, nu scala pe care o ia variația.
Să reprezentăm din nou o colecție de variabile aleatoare cu corelație ajustabilă.
#@tab pytorch
# Plot a few random variables adjustable correlations
cors = [-0.9, 0.0, 1.0]
d2l.plt.figure(figsize=(12, 3))
for i in range(3):
X = torch.randn(500)
Y = cors[i] * X + torch.sqrt(torch.tensor(1) -
cors[i]**2) * torch.randn(500)
d2l.plt.subplot(1, 4, i + 1)
d2l.plt.scatter(X.numpy(), Y.numpy())
d2l.plt.xlabel('X')
d2l.plt.ylabel('Y')
d2l.plt.title(f'cor = {cors[i]}')
d2l.plt.show()
Să listăm câteva proprietăți ale corelației mai jos.
* Pentru orice variabilă aleatoare $X$, $\rho(X, X) = 1$.
* Pentru orice variabile aleatoare $X, Y$ și numere $a$ și $b$, $\rho(aX+b, Y) = \rho(X, aY+b) = \rho(X, Y)$.
* Dacă $X$ și $Y$ sunt independente cu varianță nenulă atunci $\rho(X, Y) = 0$.
Ca o notă finală, ați putea simți că unele dintre aceste formule sunt familiare. Într-adevăr, dacă extindem totul presupunând că $\mu_X = \mu_Y = 0$, vedem că aceasta este
$$
\rho(X, Y) = \frac{\sum_{i, j} x_iy_ip_{ij}}{\sqrt{\sum_{i, j}x_i^2 p_{ij}}\sqrt{\sum_{i, j}y_j^2 p_{ij}}}.
$$
Aceasta arată ca o sumă a unui produs de termeni împărțită la rădăcina pătrată a sumelor de termeni. Aceasta este exact formula pentru cosinusul unghiului dintre doi vectori $\mathbf{v}, \mathbf{w}$ cu coordonatele diferite ponderate de $p_{ij}$:
$$
\cos(\theta) = \frac{\mathbf{v}\cdot \mathbf{w}}{\|\mathbf{v}\|\|\mathbf{w}\|} = \frac{\sum_{i} v_iw_i}{\sqrt{\sum_{i}v_i^2}\sqrt{\sum_{i}w_i^2}}.
$$
Într-adevăr dacă ne gândim la norme ca fiind legate de deviații standard, și corelații ca fiind cosinusuri de unghiuri, mult din intuiția pe care o avem din geometrie poate fi aplicată la gândirea despre variabile aleatoare.
===== Rezumat =====
* Variabilele aleatoare continue sunt variabile aleatoare care pot lua un continuu de valori. Ele au unele dificultăți tehnice care le fac mai provocator de lucrat cu ele comparativ cu variabilele aleatoare discrete.
* Funcția de densitate a probabilității ne permite să lucrăm cu variabile aleatoare continue oferind o funcție unde aria de sub curbă pe un anumit interval dă probabilitatea de a găsi un punct eșantion în acel interval.
* Funcția de distribuție cumulativă este probabilitatea de a observa variabila aleatoare să fie mai mică decât un prag dat. Poate oferi un punct de vedere alternativ util care unifică variabilele discrete și continue.
* Media este valoarea medie a unei variabile aleatoare.
* Varianța este pătratul așteptat al diferenței dintre variabila aleatoare și media sa.
* Deviația standard este rădăcina pătrată a varianței. Poate fi gândită ca măsurând intervalul de valori pe care variabila aleatoare le poate lua.
* Inegalitatea lui Chebyshev ne permite să facem această intuiție riguroasă oferind un interval explicit care conține variabila aleatoare de cele mai multe ori.
* Densitatile comune ne permit să lucrăm cu variabile aleatoare corelate. Putem marginaliza densitățile comune integrând peste variabilele aleatoare nedorite pentru a obține distribuția variabilei aleatoare dorite.
* Covarianța și coeficientul de corelație oferă o modalitate de a măsura orice relație liniară între două variabile aleatoare corelate.
===== Exerciții =====
- Să presupunem că avem variabila aleatoare cu densitatea dată de $p(x) = \frac{1}{x^2}$ pentru $x \ge 1$ și $p(x) = 0$ altfel. Cât este $P(X > 2)$?
- Distribuția Laplace este o variabilă aleatoare a cărei densitate este dată de $p(x = \frac{1}{2}e^{-|x|}$. Care este media și deviația standard a acestei funcții? Ca un indiciu, $\int_0^\infty xe^{-x} \; dx = 1$ și $\int_0^\infty x^2e^{-x} \; dx = 2$.
- Mă apropii de tine pe stradă și spun „Am o variabilă aleatoare cu media $1$, deviația standard $2$, și am observat $25\%$ din eșantioanele mele luând o valoare mai mare decât $9$.” Mă crezi? De ce da sau de ce nu?
- Să presupunem că ai două variabile aleatoare $X, Y$, cu densitatea comună dată de $p_{XY}(x, y) = 4xy$ pentru $x, y \in [0,1]$ și $p_{XY}(x, y) = 0$ altfel. Care este covarianța lui $X$ și $Y$?
[[https://discuss.d2l.ai/t/1094|Discuții]]