博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
优化中的subgradient方法
阅读量:6908 次
发布时间:2019-06-27

本文共 2302 字,大约阅读时间需要 7 分钟。

哎。刚刚submit上paper比較心虚啊。无心学习。还是好好码码文字吧。

subgradient介绍

subgradient中文名叫次梯度。和梯度一样,全然能够多放梯度使用。至于为什么叫子梯度,是由于有一些凸函数是不可导的,没法用梯度。所以subgradient就在这里使用了。

注意到。子梯度也是求解凸函数的。仅仅是凸函数不是处处可导。

f:XR是一个凸函数,XRn是一个凸集。

若是f在xf(x)可导。考虑一阶泰勒展开式:

f(x)f(x)+(f(x)T(xx),xX
能够得到
f(x)的一个下届(f(x)是一个凸函数)
若是
f(x)
x处不可导,仍然。能够得到一个
f(x)的下届
f(x)f(x)+gT(xx),xX
这个
g就叫做
f(x)的子梯度。
gRn
非常明显。在一个点会有不止一个次梯度,在点
x全部
f(x)的次梯度集合叫做此微分
f(x)
f(x)在此处可导,仅仅有一个次梯度
这里写图片描写叙述
f(x)不可导,
这里写图片描写叙述
这里写图片描写叙述
这里写图片描写叙述
这里写图片描写叙述
f(x)不可导
我们能够看出,当
f(x)是凸集而且在
x附近有界时,
f(x)是非空的,而且
f(x)是一个闭凸集。

次梯度性质

f(x)={
g}f(x)g=f(x)
满足:
1)scaling:
(αf(x))=αf(x),if α>0
2)addition:
(f1(x)+f2(x))=fz(x)+f2(x)
3)point-wise maximum:
f(x)=maxi=1,...,mfi(x)而且
fi(x)是可微的,那么:
f(x)=Co{
fi(x)fi(x)=f(x)}
即全部该点函数值等于最大值的函数的梯度的凸包。

在非约束最优化问题中。要求解一个凸函数f:RnR的最小值

xargminxRnf(x)
非常显然,若是f可导。那么我们仅仅须要求解导数为0的点
f(x=minxRn0=f(x)
当f不可导的时候,上述条件就能够一般化成
f(x)=minxRn0f(x)
也即
0满足次梯度的定义

f(x)f(x)+0T(xx),xRn

以下是次梯度法的一般方法:

1.t=1选择有限的正的迭代步长{

αt}t=1
2.计算一个次梯度gf(xt)
3.更新xt+1=xtαtgt
4.若是算法没有收敛。则t=t+1返回第二步继续计算

次梯度方法性质:

1.简单通用性:就是说第二步中,f(xt)不论什么一个次梯度都是能够的.

2.收敛性:仅仅要选择的步长合适。总会收敛的
3.收敛慢:须要大量的迭代才干收敛
4.非单调收敛:gt不须要是下降方向。在这样的情况下,不能使用线性搜索选择合适的αt
5.没有非常好的停止准则

对于不同步长的序列的收敛结果

最好还是设ftbest=min{

f(x1),..,f(xt)}是t次迭代中的最优结果
1.步长和不可消时(Non-summable diminishing step size):
limtαt=0 而且t=1αt==
这样的情况能够收敛到最优解:limtftbestf(x)=0
2.Constant step size:
αt=γ,where γ>0
收敛到次优解:limtftbestf(x)αG2/2
3.Constant step length:
αt=γ||gt||(i.e. ||xt+1xt||=γ),||g||G,gf
能够收敛到次优解limtftbestf(x)γG/2
4.Polyak’s rule: αt=f(xt)f(x)||gt||2
若是最优值f(x)可知则能够用这样的方法。

不等式约束的凸二次优化问题

问题formulate

一个不等式约束的凸二次优化问题能够表示为:

(w,b,ξ)=argminw,b,ξ[12||w||2+Ci=1mξi]
s.t.       yi(wTxi+b)ξi1ξi,   0              i=1,,m,i=1,,m.

注意到ξimax(0,1yi(wTxi+b)),而且当目标函数取得最优的时候,这里的等号是成立的,所以能够进行取代:

ξi=max(0,1yi(wTxi+b))
所以就能够将这个二次悠哈问题改写成一个非约束凸优化问题

(w,b)=argminw,bf(w,b)=argminw,b[12||w||2f0(w,b)+Ci=1mmax(0,1yi(wTxi+b))fi(w,b)]

问题求解

由于

f0(w,b)=12||w||2
是可微的,而且
wf0(w,b)=w,  bf0(w,b)=0
函数
fi(w,b)=max0,1yi(wTxi+b)是一个点最大值。所以其次微分能够写作,全部active function的梯度的convex combination
i-th function wfi(w,b) bfi(w,b)
I+={
i|yi(wTxi+b)>1}
0 0
I0={
i|yi(wTxi+b)=1}
Co{
0,yixi}
Co{
0,yi}
I={
i|yi(wTxi+b)<1}
yixi yi

所以次微分能够写作f(w,b)=f0(w,b)+Cmi=1fi(w,b)能够使用參数话的表示方法,设0βi1,iI0,所以就有g=[wb]f(x)

w(β)b(β)=wCiI0βiyixiCiIyixi=CiI0βiyiCiIyi
你可能感兴趣的文章
Ubuntu SVN安装&使用&命令
查看>>
文件上传小技巧/后端处理【以php示例】
查看>>
spring boot 项目启动无任何反应
查看>>
ASP.NET Core 2.1 : 十.升级现有Core2.0 项目到2.1
查看>>
架构师修炼之路
查看>>
会人之不会成为能
查看>>
ICMP报文 (1)
查看>>
JAVA array,map 转 json 字符串
查看>>
Apache Flink,如何重新定义计算?
查看>>
微软 Azure 容器服务要关停,你想好怎么迁移了吗?
查看>>
ROG全球行销总监尤彦博:强劲超薄的GX501与中国电竞产业
查看>>
开发者是保护代码道德的最后防线?
查看>>
阿里云跻身Gartner魔力象限,引外媒纷纷点赞
查看>>
苹果也得为它打工 iPhoneX大卖 它将入账143亿美元
查看>>
金立S10“又”入围吉林6月畅销手机排行榜,短时间内连下五省!
查看>>
375万买垃圾房,爆改后变千万豪宅,你也能做到
查看>>
沈颖刚:生物柴油或是高原柴油货车污染治理有效途径
查看>>
掌阅公布数字阅读报告:00后成第二大阅读群体
查看>>
冬季风暴席卷美国致航班取消车祸频发 20万人断电
查看>>
民航局正式启动北斗星基增强系统民航应用验证评估工作
查看>>