优化中的subgradient方法

阅读量：6908 次

发布时间：2019-06-27

本文共 2302 字，大约阅读时间需要 7 分钟。

哎。刚刚submit上paper比較心虚啊。无心学习。还是好好码码文字吧。

subgradient介绍

subgradient中文名叫次梯度。和梯度一样，全然能够多放梯度使用。至于为什么叫子梯度，是由于有一些凸函数是不可导的，没法用梯度。所以subgradient就在这里使用了。

注意到。子梯度也是求解凸函数的。仅仅是凸函数不是处处可导。

f:X→R是一个凸函数，X∈Rn是一个凸集。

若是f在

x′处

∇f(x′)可导。考虑一阶泰勒展开式：

f (x) \geq f (x') + \nabla (f (x') T (x - x'), \forall x \in X

能够得到

f(x)的一个下届（f(x)是一个凸函数）

若是

f(x)在

x′处不可导，仍然。能够得到一个

f(x)的下届

f (x) \geq f (x') + g T (x - x'), \forall x \in X

这个

g就叫做

f(x)的子梯度。

g∈Rn

非常明显。在一个点会有不止一个次梯度，在点

x全部

f(x)的次梯度集合叫做此微分

∂f(x)

我们能够看出，当

f(x)是凸集而且在

x附近有界时，

∂f(x)是非空的，而且

∂f(x)是一个闭凸集。

次梯度性质

\partial f (x) = {g} \Leftrightarrow f (x) 可 微 并 且 g = \nabla f (x)

满足：

1）scaling：

\partial (α f (x)) = α \partial f (x), i f α > 0

2）addition：

\partial (f 1 (x) + f 2 (x)) = \partial f z (x) + \partial f 2 (x)

3）point-wise maximum:

f(x)=maxi=1,...,mfi(x)而且

fi(x)是可微的，那么：

\partial f (x) = C o {\nabla f i (x) ∣ f i (x) = f (x)}

即全部该点函数值等于最大值的函数的梯度的凸包。

在非约束最优化问题中。要求解一个凸函数

f:Rn→R的最小值

x * \in a r g m i n x \in R n f (x)

非常显然，若是f可导。那么我们仅仅须要求解导数为0的点

f (x * = m i n x \in R n \Leftrightarrow 0 = \nabla f (x *)

当f不可导的时候，上述条件就能够一般化成

f (x *) = m i n x \in R n \Leftrightarrow 0 \in \nabla f (x *)

也即

0满足次梯度的定义

f (x) \geq f (x') + 0 T (x - x'), \forall x \in R n

以下是次梯度法的一般方法：

1.t=1选择有限的正的迭代步长{

αt}∞t=1

2.计算一个次梯度

g∈∂f(xt)

3.更新

xt+1=xt−αtgt

4.若是算法没有收敛。则

t=t+1返回第二步继续计算

次梯度方法性质：

1.简单通用性：就是说第二步中，∂f(xt)不论什么一个次梯度都是能够的.

2.收敛性：仅仅要选择的步长合适。总会收敛的

3.收敛慢：须要大量的迭代才干收敛

4.非单调收敛：

−gt不须要是下降方向。在这样的情况下，不能使用线性搜索选择合适的

αt

5.没有非常好的停止准则

对于不同步长的序列的收敛结果

最好还是设ftbest=min{

f(x1),..,f(xt)}是t次迭代中的最优结果

1.步长和不可消时（Non-summable diminishing step size）：

limt→∞αt=0 而且

∑∞t=1αt==∞

这样的情况能够收敛到最优解：

limt→∞ftbest−f(x∗)=0

2.Constant step size:

αt=γ,where γ>0

收敛到次优解：

limt→∞ftbest−f(x∗)≤αG2/2

3.Constant step length:

αt=γ||gt||(i.e.

||xt+1−xt||=γ)，

||g||≤G,∀g∈∂f

能够收敛到次优解

limt→∞ftbest−f(x∗)≤γG/2

4.Polyak’s rule:

αt=f(xt)−f(x∗)||gt||2

若是最优值

f(x∗)可知则能够用这样的方法。

不等式约束的凸二次优化问题

问题formulate

一个不等式约束的凸二次优化问题能够表示为：

(w *, b *, ξ *) = a r g m i n w, b, ξ [1 2 | | w | | 2 + C \sum i = 1 m ξ i]

s . t . y i (w T x i + b) ξ i \geq 1 - ξ i, \geq 0 i = 1, \dots, m, i = 1, \dots, m .

注意到ξi≥max(0,1−yi(wTxi+b)),而且当目标函数取得最优的时候，这里的等号是成立的，所以能够进行取代:

ξi=max(0,1−yi(wTxi+b))

所以就能够将这个二次悠哈问题改写成一个非约束凸优化问题

(w *, b *) = a r g m i n w, b f (w, b) = a r g m i n w, b [1 2 | | w | | 2        f 0 (w, b) + C \sum i = 1 m m a x (0, 1 - y i (w T x i + b))                            f i (w, b)]

问题求解

由于

f 0 (w, b) = 1 2 | | w | | 2

是可微的,而且

∂wf0(w,b)=w, ∂bf0(w,b)=0

函数

fi(w,b)=max0,1−yi(wTxi+b)是一个点最大值。所以其次微分能够写作，全部active function的梯度的convex combination

i-th function	∂wfi(w,b)	∂bfi(w,b)
I+={ i\|yi(wTxi+b)>1}	0	0
I0={ i\|yi(wTxi+b)=1}	Co{ 0,−yixi}	Co{ 0,−yi}
I−={ i\|yi(wTxi+b)<1}	−yixi	−yi

所以次微分能够写作∂f(w,b)=∂f0(w,b)+C∑mi=1∂fi(w,b)能够使用參数话的表示方法，设0≤βi≤1,i∈I0,所以就有g=[w′b′]∈∂f(x)

w' (β) b' (β) = w - C \sum i \in I 0 β i y i x i - C \sum i \in I - y i x i = - C \sum i \in I 0 β i y i - C \sum i \in I - y i

你可能感兴趣的文章

spring boot 项目启动无任何反应

查看>>

ASP.NET Core 2.1 : 十.升级现有Core2.0 项目到2.1

JAVA array,map 转 json 字符串

查看>>

Apache Flink，如何重新定义计算？

查看>>

微软 Azure 容器服务要关停，你想好怎么迁移了吗？

查看>>

ROG全球行销总监尤彦博：强劲超薄的GX501与中国电竞产业

查看>>

开发者是保护代码道德的最后防线？

查看>>

阿里云跻身Gartner魔力象限，引外媒纷纷点赞

查看>>

苹果也得为它打工 iPhoneX大卖它将入账143亿美元

查看>>

金立S10“又”入围吉林6月畅销手机排行榜，短时间内连下五省！

查看>>

375万买垃圾房，爆改后变千万豪宅，你也能做到

查看>>

沈颖刚：生物柴油或是高原柴油货车污染治理有效途径

查看>>

掌阅公布数字阅读报告：00后成第二大阅读群体

查看>>

冬季风暴席卷美国致航班取消车祸频发 20万人断电

查看>>

民航局正式启动北斗星基增强系统民航应用验证评估工作

查看>>