L_{LASSO} = \sum_{i = 1}^{N}(y_i - \hat{y_i})^2+\lambda ||\mathbf{W} ||_1
|| \mathbf{W}||_1 = \sum_{i = 1}^D|w_i|
p(x) = \frac{1}{\sigma \sqrt{2\pi }} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
这是我们熟悉的钟形曲线,正态分布,均值和方差决定了曲线的形状。
p(x_1, x_2, \ldots, x_n) = \prod_{i = 1}^np(x_i)= \frac{e^{-\frac{1}{2} [ \frac{(x_1-\mu_1)^2}{\sigma_1^2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}+\ldots+\frac{(x_n-\mu_n)^2}{\sigma_n^2} ]}}{(2\pi)^{\frac{n}{2}}\sigma_1 \sigma_2 \ldots \sigma_n}
其中,,,和,, 分别是第一维、第二维、的均值和方差。
给出严谨的定义以后,我接下来就用稍微生动一些的语言说一下这个回归:
简单来说就是我们在每一个取值都有一个对应的高斯分布,这个维度可能是许许多多维,然后,我们在其中通过大量的样本找出,最后回归成方程。这是我的理解,应该在组会上继续讨论。
H = - \sum_{i = 1}^N p(x_i)log_?p(x_i)
当我们使用log2时,可以将熵解释为“编码信息所需的最小比特数”
熵没有告诉我们如何实现这种编码,但我们可以通过熵来量化数据中所含有的信息,并且知道当我们将其替换为参数化的近似值时我们丢失了多少信息。
D_{KL}(p||q) = \sum_{i = 1}^Np(x_i)(log\frac {p(x_i)}{q(x_i)})
一般p表示观测值,q表示近似值
本文章使用limfx的vscode插件快速发布