Machine Learning - Applications

夏普比率最大化分类器

信息量衡量一个随机事件所包含的信息大小：$I(X)=-log(p(X))$
熵用来衡量随机变量所包含的信息的不确定性：$H(X)=E[-log(p(x_i))]=-\sum_{i=1}^{n}p(x_i)log(p(x_i))$
推广到多个随机变量的联合熵：$H(X,Y)=-\sum_{i=1}^{n}p(x_i,y_i)log(p(x_i,y_i))$
类似于条件概率，条件熵度量给定一个随机变量后另一个随机变量的不确定性：$H(Y|X)=-\sum_{i=1}^{n}p(x_i,y_i)log(p(y_i|x_i))$ $$H(Y|X)=H(Y,X)-H(X)$$

相对熵 (Relative entropy)，也称KL散度 (Kullback–Leibler divergence)。设$p(x),q(x)$是离散随机变量的概率分布函数，则$p对q$的相对熵为： $$D_{KL}(p||q)=\displaystyle\sum_{x}p(x)log\frac{p(x)}{q(x)}=E_{p(x)}[log\frac{p(x)}{q(x)}]$$ 相对熵可以用来衡量两个概率分布之间的差异，上面公式的意义就是求p与q之间的对数差在p上的期望值
交叉熵 (Cross entropy), 现在有关于样本集的两个概率分布p(x)和q(x)，其中p(x)为真实分布，q(x)为非真实分布，如果用非真实分布q(x)来表示p(x)，所需的编码长度定义为交叉熵：$$H(p,q)=\displaystyle\sum _{x}p(x)log\frac{1}{q(x)}$$ $$D_{KL}(p||q)=H(p,q)-H(p)$$

回想逻辑回归中的损失函数：$$J(\theta)=-\sum\limits_{i=1}^{n}(y^{(i)}log(sigm(\theta x^{(i)}))+ (1-y^{(i)})log(1-sigm(\theta x^{(i)})))$$

交叉熵定义为：$$H(p,q)=\displaystyle\sum _{x}p(x)log\frac{1}{q(x)}$$

广义线性模型解释 $$\begin{align}f(y) &= p^y (1 - p)^{1 - y} \\&= (1 - p) \exp \left \{ y \log \left ( \frac{p}{1 - p} \right ) \right \} .\end{align}$$

在逻辑回归中，我们实际上是对$log(\frac{P(y=1|x)}{P(y=0|x)})$建模

$P(y=1|x),P(y=0|x)$分别代表在给定输入特征$x$下，我们预测其为正样本或负样本的概率。

一般的业务环境下，我们会对正样本更加感兴趣。正样本预测正确会给我们带来收益，同时预测错误会带来风险。

所以，逻辑回归帮助我们对收益风险比建模，最小化损失函数也就意味着最大化收益风险比，这在金融领域有一个类似概念称为夏普比率。

在企业用户价值评估模型中的评分卡模型；在互联网运营中的广告点击率预测中，逻辑回归都有着非常广泛的运用。

$R^2$ ，即决定性系数，用来衡量线性回归模型对待估测的随机变量拟合的好坏程度。
一个通用的解释是：待估随机变量的波动性有百分之多少可以由模型解释。
在逻辑回归中，由于引入了非线性转换，且所预测的是分类变量。所以引入了$pseudoR^2$的概念。
$Pseudo-R^2$的一种常用计算方法为：$$Pseudo R^2=1-\frac{ln(L_M)}{ln(L_0)}$$，其中$L_M$指的是模型的最大似然值，$L_0$是指无模型的情况下的似然值。

Machine Learning Applications and practices