线性回归基本问题:
随机变量$y$与多个变量$x_1,x_2,...,x_p$相关,我们感兴趣的是其线性关系:
$$ y=b_0+b_1x_1+b_2x_2+...+b_px_p+\epsilon, \ \epsilon\sim N(0,\sigma^2) $$
采用极大似然估计来求出参数B,即$(b_0,b_1,b_2,...b_n)$
$$\hat{B}=(X^TX)^{-1}X^TY$$
决定性系数(Coefficient of Determination, R-Squared):
$$R^2=1-\frac{\sum (y_i-f(x_i))^2}{\sum (y_i-\bar{y})^2}$$
线性回归配合阈值建模的局限性和不足
$$log(\frac{P(x)}{1-P(x)})=\sum_{i=0}^{n}\beta_ix_i, \ 令z=\sum_{i=0}^{n}\beta_ix_i;$$
$$P(z)=\frac{e^z}{1+e^z}=\frac{1}{1+e^{-z}}=e^z(1+e^z)^{-1}$$
$$dP(z)/dz=P(z)(1-P(z))$$
Bernoulli分布:$P(y=k)=p^k(1-p)^{1-k}, \ k=0或1$
逻辑回归中我们需要预测的变量 $y$ 可以认为服从以 $p(y=1)$ 为参数的Bernoulli分布,
其似然函数为: $L(\theta) = \prod\limits_{i=1}^{n}(sigm(\theta x^{(i)}))^{y^{(i)}}(1-sigm(\theta x^{(i)}))^{1-y^{(i)}}$
对数似然函数为: $\mathcal{L}(\theta) = \sum\limits_{i=1}^{n}(y^{(i)}log(sigm(\theta x^{(i)}))+ (1-y^{(i)})log(1-sigm(\theta x^{(i)})))$
损失函数为: $J(\theta)=-\mathcal{L}(\theta)$
最大似然解即为使似然函数最大或者损失函数最小的$\theta$
回想逻辑回归中的损失函数:$$J(\theta)=-\sum\limits_{i=1}^{n}(y^{(i)}log(sigm(\theta x^{(i)}))+ (1-y^{(i)})log(1-sigm(\theta x^{(i)})))$$
交叉熵定义为:$$H(p,q)=\displaystyle\sum _{x}p(x)log\frac{1}{q(x)}$$
广义线性模型解释 $$\begin{align}f(y) &= p^y (1 - p)^{1 - y} \\&= (1 - p) \exp \left \{ y \log \left ( \frac{p}{1 - p} \right ) \right \} .\end{align}$$
在逻辑回归中,我们实际上是对$log(\frac{P(y=1|x)}{P(y=0|x)})$建模
$P(y=1|x),P(y=0|x)$分别代表在给定输入特征$x$下,我们预测其为正样本或负样本的概率。
一般的业务环境下,我们会对正样本更加感兴趣。正样本预测正确会给我们带来收益,同时预测错误会带来风险。
所以,逻辑回归帮助我们对收益风险比建模,最小化损失函数也就意味着最大化收益风险比,这在金融领域有一个类似概念称为夏普比率。
在企业用户价值评估模型中的评分卡模型;在互联网运营中的广告点击率预测中,逻辑回归都有着非常广泛的运用。