Hoeffding霍夫丁不等式及其在集成学习理论的应用

The Application of Hoeffding Inequality in Ensemble Learning

Posted by xhhszc on April 17, 2018

Hoeffding霍夫丁不等式及其在集成学习理论的应用


Hoeffding霍夫丁不等式

机器学习中,算法的泛化能力往往是通过研究泛化误差的概率上界所进行的,这个就称为泛化误差上界。直观的说,在有限的训练数据中得到的规律,则认为真实的总体数据中也是近似这个规律的。比如一个大罐子里装满了红球和白球,各一半,我随手抓了一把,然后根据这些红球白球的比例预测整个罐子也是这样的比例,这样做不一定很准确,但结果总是近似的,而且如果抓出的球越多,预测结果也就越可信。

对于两种不同的学习方法,通常比较他们的误差上界来决定他们的优劣。hoeffding不等式于1963年被Wassily Hoeffding提出并证明,用于计算随机变量的和与其期望值偏差的概率上限。下面我们理清hoeffding 不等式的来龙去脉。

1.伯努利随机变量的特例

我们假定一个硬币A面朝上的概率为pp,则B面朝上的概率为1p1p。抛n次硬币,A面朝上次数的期望值为npnp。则A面朝上的次数不超过k次的概率为: P(H(n)k)=ki=0Cinpi(1p)ni=ki=0n!i!(ni)!pi(1p)ni 其中H(n)为抛n次硬币A面朝上的次数。

对某一ε>0k=(pε)n时,有Hoeffding不等式 P(H(n)(pε)n)e2ε2n 对应的,当k=(p+ε)n时, P(H(n)(p+ε)n)e2ε2n 由此我们可以推导出 P((pε)nH(n)(p+ε)n)12e2ε2n 特别的,当ε=lnnn时, P(|H(n)pn|nlnn)12e2lnn=12n2

2.伯努利随机变量的一般情况

令独立同分布随机变量X1,X2,,Xn,其中Xi[ai,bi],则这些变量的经验均值为:ˉX=X1+X2+,,+Xnn 对于任意t>0P(|ˉXE(ˉX)|t)2e2n2t2ni=1(biai)2Sn=X1+X2+,,+Xn P(|SnE(Sn)|t)2e2t2ni=1(biai)2

证明如下: 霍夫丁引理:假设X为均值为0的随机变量且满足P(X[a,b])=1,有以下不等式成立: E(esX)es2(ba)28 则对于独立随机变量X1,X2,,Xn满足P(Xi[ai,bi])=1,对于t>0P(SnE(Sn)t)=P(es(SnE(Sn))est)estE(es(SnE(Sn)))=estni=1E(es(XiE(Xi)))estni=1E(es2(biai)28)=exp(st+0.125s2ni=1(biai)2)g(s)=st+0.125s2ni=1(biai)2,则g(s)为二次函数,当s=4tni=1(biai)2时函数获得最小值。因此: P(SnE(Sn)t)e2t2ni=1(biai)2

3.集成学习的错误率上界

类似于抛硬币的例子,对于集成学习中基学习器的错误率ϵ, P(H(n)k)=ki=0Cin(1ϵ)iϵni 表示n个基学习器中分类正确的个数小于k的概率。若假定集成通过简单投票法结合n个分类器,超过半数的基学习器正确,则集成分类就正确,即k=n/2=(1ϵε)nP()=P(H(n)n2)=n2i=0Cin(1ϵ)iϵniexp(n2(12ϵ2))(ε=12ϵ) 其中,ε=12ϵ>0,也就是说,当错误率ε<0.5时,随着集成中基学习器的数目n的增大,集成的错误率将指数级下降,最终趋向于0。而当错误率ε0.5时,以上式子不成立。


参考文章:

【1】机器学习数学原理(8)——霍夫丁不等式

【2】Hoeffding不等式的认识以及泛化误差上界的证明


Related Issues not found

Please contact @xhhszc to initialize the comment