Hoeffding霍夫丁不等式及其在集成学习理论的应用
Hoeffding霍夫丁不等式
机器学习中,算法的泛化能力往往是通过研究泛化误差的概率上界所进行的,这个就称为泛化误差上界。直观的说,在有限的训练数据中得到的规律,则认为真实的总体数据中也是近似这个规律的。比如一个大罐子里装满了红球和白球,各一半,我随手抓了一把,然后根据这些红球白球的比例预测整个罐子也是这样的比例,这样做不一定很准确,但结果总是近似的,而且如果抓出的球越多,预测结果也就越可信。
对于两种不同的学习方法,通常比较他们的误差上界来决定他们的优劣。hoeffding不等式于1963年被Wassily Hoeffding提出并证明,用于计算随机变量的和与其期望值偏差的概率上限。下面我们理清hoeffding 不等式的来龙去脉。
1.伯努利随机变量的特例
我们假定一个硬币A面朝上的概率为pp,则B面朝上的概率为1−p1−p。抛n次硬币,A面朝上次数的期望值为n∗pn∗p。则A面朝上的次数不超过k次的概率为: P(H(n)≤k)=k∑i=0Cinpi(1−p)n−i=k∑i=0n!i!(n−i)!pi(1−p)n−i 其中H(n)为抛n次硬币A面朝上的次数。
对某一ε>0当k=(p−ε)n时,有Hoeffding不等式 P(H(n)≤(p−ε)n)≤e−2ε2n 对应的,当k=(p+ε)n时, P(H(n)≥(p+ε)n)≤e−2ε2n 由此我们可以推导出 P((p−ε)n≤H(n)≤(p+ε)n)≥1−2e−2ε2n 特别的,当ε=√lnnn时, P(|H(n)−pn|≤√nlnn)≥1−2e−2lnn=1−2n2
2.伯努利随机变量的一般情况
令独立同分布随机变量X1,X2,…,Xn,其中Xi∈[ai,bi],则这些变量的经验均值为:ˉX=X1+X2+,…,+Xnn 对于任意t>0有 P(|ˉX−E(ˉX)|≥t)≤2e−2n2t2∑ni=1(bi−ai)2 或Sn=X1+X2+,…,+Xn P(|Sn−E(Sn)|≥t)≤2e−2t2∑ni=1(bi−ai)2
证明如下: 霍夫丁引理:假设X为均值为0的随机变量且满足P(X∈[a,b])=1,有以下不等式成立: E(esX)≤es2(b−a)28 则对于独立随机变量X1,X2,…,Xn满足P(Xi∈[ai,bi])=1,对于t>0: P(Sn−E(Sn)≥t)=P(es(Sn−E(Sn))≥est)≤e−stE(es(Sn−E(Sn)))=e−st∏ni=1E(es(Xi−E(Xi)))≤e−st∏ni=1E(es2(bi−ai)28)=exp(−st+0.125s2∑ni=1(bi−ai)2) 令g(s)=−st+0.125s2∑ni=1(bi−ai)2,则g(s)为二次函数,当s=4t∑ni=1(bi−ai)2时函数获得最小值。因此: P(Sn−E(Sn)≥t)≤e−2t2∑ni=1(bi−ai)2
3.集成学习的错误率上界
类似于抛硬币的例子,对于集成学习中基学习器的错误率ϵ, P(H(n)≤k)=k∑i=0Cin(1−ϵ)iϵn−i 表示n个基学习器中分类正确的个数小于k的概率。若假定集成通过简单投票法结合n个分类器,超过半数的基学习器正确,则集成分类就正确,即k=n/2=(1−ϵ−ε)n: P(集成分类错误)=P(H(n)≤n2)=∑n2i=0Cin(1−ϵ)iϵn−i≤exp(−n2(1−2ϵ2))(由ε=12−ϵ可得) 其中,ε=12−ϵ>0,也就是说,当错误率ε<0.5时,随着集成中基学习器的数目n的增大,集成的错误率将指数级下降,最终趋向于0。而当错误率ε≥0.5时,以上式子不成立。
参考文章:
Related Issues not found
Please contact @xhhszc to initialize the comment