| Simbol | Semnificație |
|---|---|
| $\mathbf{x}$ | Instanță de intrare (de obicei $\in \mathbb{R}^d$) |
| $\mathbf{y}$ | Ieșire / Etichetă (de obicei $\in \mathbb{R}^{d_\text{o}}$) |
| $\mathbf{z}$ | Pereche exemplu $(\mathbf{x}, \mathbf{y})$ |
| $d$ | Dimensiunea intrării |
| $d_{\text{o}}$ | Dimensiunea ieșirii |
| $n$ | Numărul de eșantioane |
| $\mathcal{X}$ | Domeniul instanțelor (mulțime) |
| $\mathcal{Y}$ | Domeniul etichetelor (mulțime) |
| $\mathcal{Z}$ | Domeniul exemplelor ($\mathcal{X}\times\mathcal{Y}$) |
| $\mathcal{D}$ | Distribuție peste $\mathcal{Z}$ |
| $S$ | Eșantion de date $\{(\mathbf{x}_i,\mathbf{y}_i)\}_{i=1}^n$ |
| Simbol | Semnificație |
|---|---|
| $\mathcal{H}$ | Spațiul ipotezelor |
| $f_{\mathbf{\theta}}$ | Funcția ipoteză (Model) $f: \mathcal{X}\to\mathcal{Y}$ |
| $\mathbf{\theta}$ | Mulțimea parametrilor modelului |
| $f^*$ | Funcția țintă (Adevărul de bază) |
| $\sigma$ | Funcție de activare (ex., ReLU, sigmoid) |
| $\ell$ | Funcție de pierdere $\ell(f_{\mathbf{\theta}}(\mathbf{x}), \mathbf{y})$ |
| Simbol | Semnificație |
|---|---|
| $L_S(\mathbf{\theta})$ | Risc Empiric (Pierdere de Antrenare) pe mulțimea $S$ |
| $L_\mathcal{D}(\mathbf{\theta})$ | Risc Populațional (Pierdere Așteptată) |
| $\eta$ | Rată de învățare |
| $B$ | Mulțime batch |
| $|B|$ | Dimensiune batch |
| $\text{GD}$ | Gradient Descent |
| $\text{SGD}$ | Stochastic Gradient Descent |
| $\text{VCdim}(\mathcal{H})$ | Dimensiunea VC a clasei de ipoteze |
| $\text{Rad}_S(\mathcal{H})$ | Complexitate Rademacher pe $S$ |
| Simbol | Semnificație |
|---|---|
| $m$ | Numărul de neuroni într-un strat ascuns |
| $L$ | Numărul total de straturi (excluzând intrarea) |
| $\mathbf{w}_j, \mathbf{b}_j$ | Ponderi și bias pentru neuronul specific $j$ |
| $\mathbf{W}^{[l]}$ | Matricea de ponderi pentru stratul $l$ |
| $\mathbf{b}^{[l]}$ | Vectorul de bias pentru stratul $l$ |
| $f^{[l]}$ | Ieșirea stratului $l$ |
| $\circ$ | Operație element cu element (produs Hadamard) |
| $*$ | Operație de convoluție |
Risc Empiric: $$ L_S(\mathbf{\theta})=\frac{1}{n}\sum^n_{i=1}\ell(f_{\mathbf{\theta}}(\mathbf{x}_i),\mathbf{y}_i) $$
Rețea cu 2 Straturi: $$ f_{\mathbf{\theta}}(\mathbf{x})=\sum^m_{j=1}a_j\sigma(\mathbf{w}_j\cdot\mathbf{x}+b_j) $$
Rețea Profundă Generală (Recursivă): $$ f^{[l]}_{\mathbf{\theta}}(\mathbf{x})=\sigma\circ(\mathbf{W}^{[l-1]}f^{[l-1]}_{\mathbf{\theta}}(\mathbf{x})+\mathbf{b}^{[l-1]}) $$
Credit: Adaptat din Suggested Notation for Machine Learning