拉格朗日乘子法、罚函数法、乘子罚函数法-白红宇

拉格朗日乘子法、罚函数法、乘子罚函数法

阅读量：4221 次

发布时间：2019-05-26

本文共 4717 字，大约阅读时间需要 15 分钟。

本文简单总结一些相关概念，具体证明以后再补充；
1. 拉格朗日乘子法
2. 罚函数法：外罚函数与内罚函数法
3. 广义乘子法

1. 拉格朗日乘子法

1.1 无约束问题

无约束问题，定义为 minf(x)，对于凸函数而言，直接利用费马定理，f′(x)=0，获得最优解；

1.2 等式约束问题

等式约束定义如下：

min f (x) s . t . g (x) = 0

现在利用拉格朗日乘子法，合并式子：

L (x, a) = f (x) + a g (x)

对

x,ax,a

分别求偏导：

\nabla x L (x, a) = f' (x) + a g' (x) = 0 \nabla a L (x, a) = g (x) = 0

发现第二个式子刚好是其约束条件；

为什么？
现在，我们在平面内投影函数，画出f(x)的等高线，以及g(x)=0的边界线；如图示：
蓝色虚线代表了f(x,y)的等高线；红色代表g(x,y)=c=0;

回顾：
1. 方向导数是各个方向上的导数
2. 偏导数连续才有梯度存在
3. 梯度的方向是方向导数中取到最大值的方向，梯度的值是方向导数的最大值(垂直方向)
假设f(x)的最小值在圆心处，即梯度方向向外；g(x,y)的梯度方向向下；
那么满足条件的值一定是两个函数相切处；如果相交，那么一定还存在一个等高线与红线相切，而且更小；在切点处，两个函数的梯度共线，即f′(x)=−ag′(x),a<0；做简单的变换后：f′(x)+ag′(x)=0，这就是第一个等式啦，同时还需要满足第二个式子；

1.3 不等式约束问题（KTT条件）

不等式约束问题：

min f (x) s . t . g (x) = 0 h (x) < = 0

引入拉格朗日函数：(KTT 条件)

L (x, a, b) = f (x) + a g (x) + b h (x) s . t . g (x) = 0 b h (x) = 0

这样就将不等式约束变成了等式约束，偏导等于零即可求得最优参数；

min f (x) 等 价 于 min x max a, b L (x, a, b)

对偶变换后有：

max a, b min L (x, a, b)

因为

h(x)<0h(x)<0

，所以只有当

bh(x)=0bh(x)=0

时，

L(x,a,b)L(x,a,b)

才能取得最大值；否则不满足条件；所以KTT条件是

minf(x)minf(x)

的必要条件；

补充：SVM 满足KTT条件:在边界上的点，有h(x)=0；非边界处，令b=0;

1.4 拉格朗日乘子法问题

当目标函数的Hess矩阵不正定时（特征值不全为正，或者行列式不为正，那么此时的偏导为0处，并不能确定是否是极值点），所以无法求解；

例子：
求解

${min f = 2 x 2 + y 2 - 2 x y s . t . x + y = 1$

我们定义
L(x,y,λ)=f−λg(x)=2x2+y2−2xy−λ(x+y−1)

求偏导可得：

$⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ \partial L \partial x = 4 x - 2 y - λ = 0 \partial L \partial y = 2 y - 2 x - λ = 0 \partial L \partial λ = x - y - 1 = 0$

我们可以计算原目标函数的Hess矩阵：
A=⎡⎣⎢∂2L∂x2∂2L∂y∂x∂2L∂x∂y∂2L∂y2⎤⎦⎥=[4−2−22]正定矩阵；

再看一个目标函数，方程稍作修改：

${min f = 2 x 2 + y 2 + 3 x y s . t . x + y = 1$

直接求偏导，发现方程无解；

再看其Hess矩阵：
B=[4332]非正定矩阵；

也就是说，在梯度为零处，我们无法判断是否是极值；

2. 罚函数法

2.1 定义

罚函数法：根据约束条件的特点，构造出惩罚函数，然后加入到目标函数中，将其转化为无约束问题；新目标函数的解与原始目标函数解一致；

2.1.1 等式约束的罚函数法：

{min f (x) s . t . g i (x) = 0

我们引入一个增广目标函数：

min F (x, σ) = f (x) + σ P (x) P (x) = g T g

这里：

σσ

是惩罚因子，取很大的正数，

F(x,σ)F(x,σ)

是罚函数，

σP(x)σP(x)

是惩罚项；

惩罚项的性质：

1. 当xx为可行解时，P(x)=0P(x)=0，惩罚项为0；

2.当xx不在可行域内，此时σP(x)σP(x)会很大，那么求得minF(x,σ)minF(x,σ)必然有minf(x)minf(x)与minx,σ[σP(x)]minx,σ[σP(x)]同时成立；所以，当σσ充分大时，增广目标函数的最优值接近于原始问题的最优值；（σ→∞σ→∞，若原问题有解（F<∞F<∞），则会有g=0g=0）

例如：

$min f (x) = (x 1 + x 2) 2 s . t . g (x) = x 1 + x 2 = c$

构造罚函数为：

$min L (x, σ) = min f (x) + σ | | g (x) | | 22$

σ设置的值较大；第一部分优化解，第二部分使得解在可行域内；

如果x不在可行域内，需要我们大步迭代；