====== Distribuții ====== Acum că am învățat cum să lucrăm cu probabilitatea atât în setarea discretă cât și în cea continuă, să cunoaștem unele dintre distribuțiile comune întâlnite. În funcție de domeniul învățării automate, s-ar putea să trebuiască să fim familiari cu mult mai multe dintre acestea, sau pentru unele domenii ale învățării profunde posibil deloc. Aceasta este, totuși, o listă de bază bună cu care să fim familiari. Să importăm mai întâi unele biblioteci comune.


#@tab pytorch
%matplotlib inline
from d2l import torch as d2l
from IPython import display
from math import erf, factorial
import torch

torch.pi = torch.acos(torch.zeros(1)) * 2  # Define pi in torch

===== Bernoulli ===== Aceasta este cea mai simplă variabilă aleatoare întâlnită de obicei. Această variabilă aleatoare codifică o aruncare de monedă care iese $1$ cu probabilitatea $p$ și $0$ cu probabilitatea $1-p$. Dacă avem o variabilă aleatoare $X$ cu această distribuție, vom scrie $$ X \sim \textrm{Bernoulli}(p). $$ Funcția de distribuție cumulativă este $$F(x) = \begin{cases} 0 & x < 0, \\ 1-p & 0 \le x < 1, \\ 1 & x >= 1 . \end{cases}$$ Funcția de masă a probabilității este reprezentată grafic mai jos.


#@tab all
p = 0.3

d2l.set_figsize()
d2l.plt.stem([0, 1], [1 - p, p], use_line_collection=True)
d2l.plt.xlabel('x')
d2l.plt.ylabel('p.m.f.')
d2l.plt.show()

Acum, să reprezentăm grafic funcția de distribuție cumulativă :eqref:''%%eq_bernoulli_cdf%%''.


#@tab pytorch
x = torch.arange(-1, 2, 0.01)

def F(x):
    return 0 if x < 0 else 1 if x > 1 else 1 - p

d2l.plot(x, torch.tensor([F(y) for y in x]), 'x', 'c.d.f.')

Dacă $X \sim \textrm{Bernoulli}(p)$, atunci: * $\mu_X = p$, * $\sigma_X^2 = p(1-p)$. Putem eșantiona un tablou de formă arbitrară dintr-o variabilă aleatoare Bernoulli după cum urmează.


#@tab pytorch
1*(torch.rand(10, 10) < p)

===== Uniformă Discretă ===== Următoarea variabilă aleatoare întâlnită frecvent este o uniformă discretă. Pentru discuția noastră aici, vom presupune că este suportată pe întregii $\{1, 2, \ldots, n\}$, totuși orice alt set de valori poate fi ales liber. Înțelesul cuvântului //uniform// în acest context este că fiecare valoare posibilă este egal plauzibilă. Probabilitatea pentru fiecare valoare $i \in \{1, 2, 3, \ldots, n\}$ este $p_i = \frac{1}{n}$. Vom denota o variabilă aleatoare $X$ cu această distribuție ca $$ X \sim U(n). $$ Funcția de distribuție cumulativă este $$F(x) = \begin{cases} 0 & x < 1, \\ \frac{k}{n} & k \le x < k+1 \textrm{ cu } 1 \le k < n, \\ 1 & x >= n . \end{cases}$$ Să reprezentăm grafic mai întâi funcția de masă a probabilității.


#@tab all
n = 5

d2l.plt.stem([i+1 for i in range(n)], n*[1 / n], use_line_collection=True)
d2l.plt.xlabel('x')
d2l.plt.ylabel('p.m.f.')
d2l.plt.show()

Acum, să reprezentăm grafic funcția de distribuție cumulativă :eqref:''%%eq_discrete_uniform_cdf%%''.


#@tab pytorch
x = torch.arange(-1, 6, 0.01)

def F(x):
    return 0 if x < 1 else 1 if x > n else torch.floor(x) / n

d2l.plot(x, torch.tensor([F(y) for y in x]), 'x', 'c.d.f.')

Dacă $X \sim U(n)$, atunci: * $\mu_X = \frac{1+n}{2}$, * $\sigma_X^2 = \frac{n^2-1}{12}$. Putem eșantiona un tablou de formă arbitrară dintr-o variabilă aleatoare uniformă discretă după cum urmează.


#@tab pytorch
torch.randint(1, n, size=(10, 10))

===== Uniformă Continuă ===== Mai departe, să discutăm distribuția uniformă continuă. Ideea din spatele acestei variabile aleatoare este că dacă creștem $n$-ul din distribuția uniformă discretă, și apoi o scalăm pentru a se potrivi în intervalul $[a, b]$, ne vom apropia de o variabilă aleatoare continuă care doar alege o valoare arbitrară în $[a, b]$ toate cu probabilitate egală. Vom denota această distribuție ca $$ X \sim U(a, b). $$ Funcția de densitate a probabilității este $$p(x) = \begin{cases} \frac{1}{b-a} & x \in [a, b], \\ 0 & x \not\in [a, b].\end{cases}$$ Funcția de distribuție cumulativă este $$F(x) = \begin{cases} 0 & x < a, \\ \frac{x-a}{b-a} & x \in [a, b], \\ 1 & x >= b . \end{cases}$$ Să reprezentăm grafic mai întâi funcția de densitate a probabilității :eqref:''%%eq_cont_uniform_pdf%%''.


#@tab pytorch
a, b = 1, 3

x = torch.arange(0, 4, 0.01)
p = (x > a).type(torch.float32)*(x < b).type(torch.float32)/(b-a)
d2l.plot(x, p, 'x', 'p.d.f.')

Acum, să reprezentăm grafic funcția de distribuție cumulativă :eqref:''%%eq_cont_uniform_cdf%%''.


#@tab pytorch
def F(x):
    return 0 if x < a else 1 if x > b else (x - a) / (b - a)

d2l.plot(x, torch.tensor([F(y) for y in x]), 'x', 'c.d.f.')

Dacă $X \sim U(a, b)$, atunci: * $\mu_X = \frac{a+b}{2}$, * $\sigma_X^2 = \frac{(b-a)^2}{12}$. Putem eșantiona un tablou de formă arbitrară dintr-o variabilă aleatoare uniformă după cum urmează. Notați că implicit eșantionează din $U(0,1)$, deci dacă vrem un interval diferit trebuie să îl scalăm.


#@tab pytorch
(b - a) * torch.rand(10, 10) + a

===== Binomială ===== Să facem lucrurile puțin mai complexe și să examinăm variabila aleatoare //binomială//. Această variabilă aleatoare provine din efectuarea unei secvențe de $n$ experimente independente, fiecare dintre care are probabilitatea $p$ de a reuși, și întrebând câte succese ne așteptăm să vedem. Să exprimăm asta matematic. Fiecare experiment este o variabilă aleatoare independentă $X_i$ unde vom folosi $1$ pentru a codifica succesul, și $0$ pentru a codifica eșecul. Deoarece fiecare este o aruncare independentă de monedă care este de succes cu probabilitatea $p$, putem spune că $X_i \sim \textrm{Bernoulli}(p)$. Atunci, variabila aleatoare binomială este $$ X = \sum_{i=1}^n X_i. $$ În acest caz, vom scrie $$ X \sim \textrm{Binomial}(n, p). $$ Pentru a obține funcția de distribuție cumulativă, trebuie să observăm că obținerea exactă a $k$ succese poate apărea în $\binom{n}{k} = \frac{n!}{k!(n-k)!}$ moduri fiecare dintre care are o probabilitate de $p^k(1-p)^{n-k}$ de a apărea. Astfel funcția de distribuție cumulativă este $$F(x) = \begin{cases} 0 & x < 0, \\ \sum_{m \le k} \binom{n}{m} p^m(1-p)^{n-m} & k \le x < k+1 \textrm{ cu } 0 \le k < n, \\ 1 & x >= n . \end{cases}$$ Să reprezentăm grafic mai întâi funcția de masă a probabilității.


#@tab pytorch
n, p = 10, 0.2

# Compute binomial coefficient
def binom(n, k):
    comb = 1
    for i in range(min(k, n - k)):
        comb = comb * (n - i) // (i + 1)
    return comb

pmf = d2l.tensor([p**i * (1-p)**(n - i) * binom(n, i) for i in range(n + 1)])

d2l.plt.stem([i for i in range(n + 1)], pmf, use_line_collection=True)
d2l.plt.xlabel('x')
d2l.plt.ylabel('p.m.f.')
d2l.plt.show()

Acum, să reprezentăm grafic funcția de distribuție cumulativă :eqref:''%%eq_binomial_cdf%%''.


#@tab pytorch
x = torch.arange(-1, 11, 0.01)
cmf = torch.cumsum(pmf, dim=0)

def F(x):
    return 0 if x < 0 else 1 if x > n else cmf[int(x)]

d2l.plot(x, torch.tensor([F(y) for y in x.tolist()]), 'x', 'c.d.f.')

Dacă $X \sim \textrm{Binomial}(n, p)$, atunci: * $\mu_X = np$, * $\sigma_X^2 = np(1-p)$. Acest lucru rezultă din liniaritatea valorii așteptate peste suma a $n$ variabile aleatoare Bernoulli, și faptul că varianța sumei variabilelor aleatoare independente este suma varianțelor. Aceasta poate fi eșantionată după cum urmează.


#@tab pytorch
m = torch.distributions.binomial.Binomial(n, p)
m.sample(sample_shape=(10, 10))

===== Poisson ===== Să efectuăm acum un experiment mental. Stăm într-o stație de autobuz și vrem să știm câte autobuze vor ajunge în următorul minut. Să începem prin considerarea $X^{(1)} \sim \textrm{Bernoulli}(p)$ care este pur și simplu probabilitatea ca un autobuz să ajungă în fereastra de un minut. Pentru stațiile de autobuz departe de un centru urban, aceasta ar putea fi o aproximare destul de bună. S-ar putea să nu vedem niciodată mai mult de un autobuz într-un minut. Totuși, dacă suntem într-o zonă aglomerată, este posibil sau chiar probabil ca două autobuze să ajungă. Putem modela asta prin împărțirea variabilei noastre aleatoare în două părți pentru primele 30 de secunde, sau secundele 30 de secunde. În acest caz putem scrie $$ X^{(2)} \sim X^{(2)}_1 + X^{(2)}_2, $$ unde $X^{(2)}$ este suma totală, și $X^{(2)}_i \sim \textrm{Bernoulli}(p/2)$. Distribuția totală este atunci $X^{(2)} \sim \textrm{Binomial}(2, p/2)$. De ce să ne oprim aici? Să continuăm să împărțim acel minut în $n$ părți. Prin același raționament ca mai sus, vedem că $$X^{(n)} \sim \textrm{Binomial}(n, p/n).$$ Considerați aceste variabile aleatoare. Prin secțiunea anterioară, știm că :eqref:''%%eq_eq_poisson_approx%%'' are media $\mu_{X^{(n)}} = n(p/n) = p$, și varianța $\sigma_{X^{(n)}}^2 = n(p/n)(1-(p/n)) = p(1-p/n)$. Dacă luăm $n \rightarrow \infty$, putem vedea că numerele se stabilizează la $\mu_{X^{(\infty)}} = p$, și varianța $\sigma_{X^{(\infty)}}^2 = p$. Acest lucru indică faptul că //ar putea exista// vreo variabilă aleatoare pe care o putem defini în această limită de subdiviziune infinită. Acest lucru nu ar trebui să vină ca o surpriză prea mare, deoarece în lumea reală putem pur și simplu număra numărul de sosiri ale autobuzelor, totuși este drăguț să vedem că modelul nostru matematic este bine definit. Această discuție poate fi făcută formală ca //legea evenimentelor rare//. Urmărind acest raționament cu atenție, putem ajunge la următorul model. Vom spune că $X \sim \textrm{Poisson}(\lambda)$ dacă este o variabilă aleatoare care ia valorile $\{0,1,2, \ldots\}$ cu probabilitatea $$p_k = \frac{\lambda^ke^{-\lambda}}{k!}.$$ Valoarea $\lambda > 0$ este cunoscută ca //rata// (sau parametrul de //formă//), și denotă numărul mediu de sosiri pe care le așteptăm într-o unitate de timp. Putem însuma această funcție de masă a probabilității pentru a obține funcția de distribuție cumulativă. $$F(x) = \begin{cases} 0 & x < 0, \\ e^{-\lambda}\sum_{m = 0}^k \frac{\lambda^m}{m!} & k \le x < k+1 \textrm{ cu } 0 \le k. \end{cases}$$ Să reprezentăm grafic mai întâi funcția de masă a probabilității :eqref:''%%eq_poisson_mass%%''.


#@tab pytorch
lam = 5.0

xs = [i for i in range(20)]
pmf = torch.tensor([torch.exp(torch.tensor(-lam)) * lam**k
                    / factorial(k) for k in xs])

d2l.plt.stem(xs, pmf, use_line_collection=True)
d2l.plt.xlabel('x')
d2l.plt.ylabel('p.m.f.')
d2l.plt.show()

Acum, să reprezentăm grafic funcția de distribuție cumulativă :eqref:''%%eq_poisson_cdf%%''.


#@tab pytorch
x = torch.arange(-1, 21, 0.01)
cmf = torch.cumsum(pmf, dim=0)
def F(x):
    return 0 if x < 0 else 1 if x > n else cmf[int(x)]

d2l.plot(x, torch.tensor([F(y) for y in x.tolist()]), 'x', 'c.d.f.')

Așa cum am văzut mai sus, mediile și varianțele sunt particular concise. Dacă $X \sim \textrm{Poisson}(\lambda)$, atunci: * $\mu_X = \lambda$, * $\sigma_X^2 = \lambda$. Aceasta poate fi eșantionată după cum urmează.


#@tab pytorch
m = torch.distributions.poisson.Poisson(lam)
m.sample((10, 10))

===== Gaussiană ===== Acum să încercăm un experiment diferit, dar legat. Să spunem că efectuăm din nou $n$ măsurători independente $\textrm{Bernoulli}(p)$ $X_i$. Distribuția sumei acestora este $X^{(n)} \sim \textrm{Binomial}(n, p)$. Mai degrabă decât să luăm o limită pe măsură ce $n$ crește și $p$ scade, să fixăm $p$, și apoi să trimitem $n \rightarrow \infty$. În acest caz $\mu_{X^{(n)}} = np \rightarrow \infty$ și $\sigma_{X^{(n)}}^2 = np(1-p) \rightarrow \infty$, deci nu există niciun motiv să credem că această limită ar trebui să fie bine definită. Totuși, nu toată speranța este pierdută! Să facem doar ca media și varianța să se comporte bine definind $$ Y^{(n)} = \frac{X^{(n)} - \mu_{X^{(n)}}}{\sigma_{X^{(n)}}}. $$ Se poate vedea că aceasta are media zero și varianța unu, și deci este plauzibil să credem că va converge la o anumită distribuție limită. Dacă reprezentăm grafic cum arată aceste distribuții, vom deveni și mai convinși că va funcționa.


#@tab pytorch
p = 0.2
ns = [1, 10, 100, 1000]
d2l.plt.figure(figsize=(10, 3))
for i in range(4):
    n = ns[i]
    pmf = torch.tensor([p**i * (1-p)**(n-i) * binom(n, i)
                        for i in range(n + 1)])
    d2l.plt.subplot(1, 4, i + 1)
    d2l.plt.stem([(i - n*p)/torch.sqrt(torch.tensor(n*p*(1 - p)))
                  for i in range(n + 1)], pmf,
                 use_line_collection=True)
    d2l.plt.xlim([-4, 4])
    d2l.plt.xlabel('x')
    d2l.plt.ylabel('p.m.f.')
    d2l.plt.title("n = {}".format(n))
d2l.plt.show()

Un lucru de notat: comparativ cu cazul Poisson, acum împărțim la deviația standard ceea ce înseamnă că strângem rezultatele posibile în zone din ce în ce mai mici. Acesta este un indiciu că limita noastră nu va mai fi discretă, ci mai degrabă continuă. O derivare a ceea ce se întâmplă este dincolo de sfera acestui document, dar //teorema limitei centrale// afirmă că pe măsură ce $n \rightarrow \infty$, aceasta va produce Distribuția Gaussiană (sau uneori distribuția normală). Mai explicit, pentru orice $a, b$: $$ \lim_{n \rightarrow \infty} P(Y^{(n)} \in [a, b]) = P(\mathcal{N}(0,1) \in [a, b]), $$ unde spunem că o variabilă aleatoare este distribuită normal cu media dată $\mu$ și varianța $\sigma^2$, scris $X \sim \mathcal{N}(\mu, \sigma^2)$ dacă $X$ are densitatea $$p_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}.$$ Să reprezentăm grafic mai întâi funcția de densitate a probabilității :eqref:''%%eq_gaussian_pdf%%''.


#@tab pytorch
mu, sigma = 0, 1

x = torch.arange(-3, 3, 0.01)
p = 1 / torch.sqrt(2 * torch.pi * sigma**2) * torch.exp(
    -(x - mu)**2 / (2 * sigma**2))

d2l.plot(x, p, 'x', 'p.d.f.')

Acum, să reprezentăm grafic funcția de distribuție cumulativă. Este dincolo de sfera acestei anexe, dar c.d.f. Gaussian nu are o formulă în formă închisă în termeni de funcții mai elementare. Vom folosi ''%%erf%%'' care oferă o modalitate de a calcula această integrală numeric.


#@tab pytorch
def phi(x):
    return (1.0 + erf((x - mu) / (sigma * torch.sqrt(d2l.tensor(2.))))) / 2.0

d2l.plot(x, torch.tensor([phi(y) for y in x.tolist()]), 'x', 'c.d.f.')

Cititorii cu ochi ageri vor recunoaște unii dintre acești termeni. Într-adevăr, am întâlnit această integrală în . Într-adevăr avem nevoie exact de acel calcul pentru a vedea că acest $p_X(x)$ are aria totală unu și este astfel o densitate validă. Alegerea noastră de a lucra cu aruncări de monedă a făcut calculele mai scurte, dar nimic despre acea alegere nu a fost fundamental. Într-adevăr, dacă luăm orice colecție de variabile aleatoare independente identic distribuite $X_i$, și formăm $$ X^{(N)} = \sum_{i=1}^N X_i. $$ Atunci $$ \frac{X^{(N)} - \mu_{X^{(N)}}}{\sigma_{X^{(N)}}} $$ va fi aproximativ Gaussiană. Există cerințe suplimentare necesare pentru a face să funcționeze, cel mai comun $E[X^4] < \infty$, dar filozofia este clară. Teorema limitei centrale este motivul pentru care Gaussiana este fundamentală pentru probabilitate, statistică, și învățare automată. Ori de câte ori putem spune că ceva ce am măsurat este o sumă de multe contribuții mici independente, putem presupune că lucrul măsurat va fi aproape de Gaussian. Există multe alte proprietăți fascinante ale Gaussianelor, și am dori să discutăm încă una aici. Gaussiana este ceea ce este cunoscut ca o //distribuție de entropie maximă//. Vom intra în entropie mai profund în , totuși tot ce trebuie să știm în acest punct este că este o măsură a aleatorului. Într-un sens matematic riguros, ne putem gândi la Gaussiană ca la //cea mai// aleatoare alegere de variabilă aleatoare cu medie și varianță fixă. Astfel, dacă știm că variabila noastră aleatoare are o anumită medie și varianță, Gaussiana este într-un sens cea mai conservatoare alegere de distribuție pe care o putem face. Pentru a închide secțiunea, să reamintim că dacă $X \sim \mathcal{N}(\mu, \sigma^2)$, atunci: * $\mu_X = \mu$, * $\sigma_X^2 = \sigma^2$. Putem eșantiona din distribuția Gaussiană (sau normală standard) așa cum se arată mai jos.


#@tab pytorch
torch.normal(mu, sigma, size=(10, 10))

===== Familia Exponențială ===== O proprietate comună pentru toate distribuțiile listate mai sus este că toate aparțin la ceea ce este cunoscut ca //familia exponențială//. Familia exponențială este un set de distribuții a căror densitate poate fi exprimată în următoarea formă: $$p(\mathbf{x} \mid \boldsymbol{\eta}) = h(\mathbf{x}) \cdot \exp \left( \boldsymbol{\eta}^{\top} \cdot T(\mathbf{x}) - A(\boldsymbol{\eta}) \right)$$ Deoarece această definiție poate fi puțin subtilă, să o examinăm îndeaproape. Mai întâi, $h(\mathbf{x})$ este cunoscută ca //măsura subiacentă// sau //măsura de bază//. Aceasta poate fi văzută ca o alegere originală de măsură pe care o modificăm cu ponderea noastră exponențială. În al doilea rând, avem vectorul $\boldsymbol{\eta} = (\eta_1, \eta_2, ..., \eta_l) \in \mathbb{R}^l$ numit //parametrii naturali// sau //parametrii canonici//. Aceștia definesc cum măsura de bază va fi modificată. Parametrii naturali intră în noua măsură luând produsul scalar al acestor parametri cu o anumită funcție $T(\cdot)$ de $\mathbf{x}= (x_1, x_2, ..., x_n) \in \mathbb{R}^n$ și exponențiat. Vectorul $T(\mathbf{x})= (T_1(\mathbf{x}), T_2(\mathbf{x}), ..., T_l(\mathbf{x}))$ este numit //statistici suficiente// pentru $\boldsymbol{\eta}$. Acest nume este folosit deoarece informația reprezentată de $T(\mathbf{x})$ este suficientă pentru a calcula densitatea probabilității și nicio altă informație din eșantionul $\mathbf{x}$ nu este necesară. În al treilea rând, avem $A(\boldsymbol{\eta})$, care este referită ca //funcția cumulant//, care asigură că distribuția de mai sus :eqref:''%%eq_exp_pdf%%'' se integrează la unu, i.e., $$A(\boldsymbol{\eta}) = \log \left[\int h(\mathbf{x}) \cdot \exp \left(\boldsymbol{\eta}^{\top} \cdot T(\mathbf{x}) \right) d\mathbf{x} \right].$$ Pentru a fi concreți, să considerăm Gaussiana. Presupunând că $\mathbf{x}$ este o variabilă univariată, am văzut că avea o densitate de $$ \begin{aligned} p(x \mid \mu, \sigma) &= \frac{1}{\sqrt{2 \pi \sigma^2}} \cdot \exp \left\{ \frac{-(x-\mu)^2}{2 \sigma^2} \right\} \\ &= \frac{1}{\sqrt{2 \pi}} \cdot \exp \left\{ \frac{\mu}{\sigma^2}x -\frac{1}{2 \sigma^2} x^2 - \left( \frac{1}{2 \sigma^2} \mu^2 +\log(\sigma) \right) \right\}. \end{aligned} $$ Aceasta se potrivește cu definiția familiei exponențiale cu: * //măsura subiacentă//: $h(x) = \frac{1}{\sqrt{2 \pi}}$, * //parametrii naturali//: $\boldsymbol{\eta} = \begin{bmatrix} \eta_1 \\ \eta_2 \end{bmatrix} = \begin{bmatrix} \frac{\mu}{\sigma^2} \\ \frac{1}{2 \sigma^2} \end{bmatrix}$, * //statistici suficiente//: $T(x) = \begin{bmatrix}x\\-x^2\end{bmatrix}$, și * //funcția cumulant//: $A({\boldsymbol\eta}) = \frac{1}{2 \sigma^2} \mu^2 + \log(\sigma) = \frac{\eta_1^2}{4 \eta_2} - \frac{1}{2}\log(2 \eta_2)$. Merită notat că alegerea exactă a fiecăruia dintre termenii de mai sus este oarecum arbitrară. Într-adevăr, caracteristica importantă este că distribuția poate fi exprimată în această formă, nu forma exactă în sine. Așa cum facem aluzie în , o tehnică utilizată pe scară largă este de a presupune că ieșirea finală $\mathbf{y}$ urmează o distribuție din familia exponențială. Familia exponențială este o familie comună și puternică de distribuții întâlnită frecvent în învățarea automată. ===== Rezumat ===== * Variabilele aleatoare Bernoulli pot fi folosite pentru a modela evenimente cu un rezultat da/nu. * Distribuțiile uniforme discrete modelează selecția dintr-un set finit de posibilități. * Distribuțiile uniforme continue selectează dintr-un interval. * Distribuțiile binomiale modelează o serie de variabile aleatoare Bernoulli, și numără numărul de succese. * Variabilele aleatoare Poisson modelează sosirea evenimentelor rare. * Variabilele aleatoare Gaussiene modelează rezultatul adunării unui număr mare de variabile aleatoare independente împreună. * Toate distribuțiile de mai sus aparțin familiei exponențiale. ===== Exerciții ===== - Care este deviația standard a unei variabile aleatoare care este diferența $X-Y$ a două variabile aleatoare binomiale independente $X, Y \sim \textrm{Binomial}(16, 1/2)$. - Dacă luăm o variabilă aleatoare Poisson $X \sim \textrm{Poisson}(\lambda)$ și considerăm $(X - \lambda)/\sqrt{\lambda}$ când $\lambda \rightarrow \infty$, putem arăta că aceasta devine aproximativ Gaussiană. De ce are sens acest lucru? - Care este funcția de masă a probabilității pentru o sumă a două variabile aleatoare uniforme discrete pe $n$ elemente? [[https://discuss.d2l.ai/t/1098|Discuții]]