介绍
通过最大似然估计值来衡量损失。
最大似然估计的原理是:找到一组估计值,使得未知参数取该组估计值时,观察值以最大概率出现。
设总体 XXX 为离散型随机变量,其分布律为 P(X=xk)=p(xk,θ),k=1,2…P(X=x_k)=p(x_k,\theta), k=1,2\dotsP(X=xk)=p(xk,θ),k=1,2…,其中 θ\thetaθ 是待估参数,则 X1=x−1,X2=x2,…,XN=xnX_1=x-1,X_2=x_2,\dots,X_N=x_nX1=x−1,X2=x2,…,XN=xn 的概率为:
P(X1=x−1,X2=x2,…,XN=xn)=∏k=1nP(Xk=xk)=∏k=1np(xk,θ)P(X_1=x-1,X_2=x_2,\dots,X_N=x_n)=\prod\limits_{k=1}\limits^{n}P(X_k=x_k)=\prod\limits_{k=1}\limits^{n}p(x_k,\theta)P(X1=x−1,X2=x2,…,XN=xn)=k=1∏nP(Xk=xk)=k=1∏np(xk,θ).
上式是 θ\thetaθ 的函数,称为 似然函数,记为 L(θ)L(\theta)L(θ),即
L(θ)=L(θ;x1,x2,⋯,xn)=∏k=1np(xk,θ)L(\theta)=L(\theta;x_1,x_2,\cdots,x_n)=\prod\limits_{k=1}\limits^{n}p(x_k,\theta)L(θ)=L(θ;x1,x2,⋯,xn)=k=1∏np(xk,θ)
上式完全是乘积的形式,大多数情况下会取个对数,方便求解或者不会溢出。
从另外一个角度来理解似然函数:当似然函数取最大值时,意味着这组参数一定程度上非常贴合所给数据分布,也就是说,在这组参数下,模型预测的值和真实值相对来说比较接近,也就是损失函数较小。
为了能够直接利用上述似然函数来表达损失函数的定义【损失值越小越好】,对取了对数的似然函数再取个负号。
参考资料
[1] 对数损失函数是如何度量损失的?-知乎
[2]《概率统计与数据处理》-曹菊生;魏国强