admin 管理员组

文章数量: 1086019


2024年4月16日发(作者:comparative的意思)

Fisher线性判别式

前面讲过的感知器准则、最小平方和准则属于用神经网络的方法解决分类问题。下面介绍一种新

的判决函数分类方法。

由于线性判别函数易于分析,关于这方面的研究工作特别多。历史上,这一工作是从

的经典论文(1936年)开始的。我们知道,在用统计方法进行模式识别时,许多问题涉及到维数,

在低维空间行得通的方法,在高维空间往往行不通。因此,降低维数就成为解决实际问题的关键。

Fisher的方法,实际上涉及维数压缩。

如果要把模式样本在高(

d

)维的特征向量空间里投影到一条直线上,实际上就是把特征空间压缩

到一维,这在数学上容易办到。另外,即使样本在高维空间里聚集成容易分开的群类,把它们投影到

一条任意的直线上,也可能把不同的样本混杂在一起而变得无法区分。也就是说,直线的方向选择很

重要。

在一般情况下,总可以找到某个最好的方向,使样本投影到这个方向的直线上是最容易分得开的。

如何找到最好的直线方向,如何实现向最好方向投影的变换,是Fisher法要解决的基本问题。这个投

影变换就是我们寻求的解向量

w

*

1.线性投影与Fisher准则函数

w

1

/w

2

两类问题中,假定有

n

个训练样本

x

k

(k1,2,....,n)

其中

n

1

个样本来自

w

i

类型,

n

2

个样本来自

w

j

类型,

nn

1

n

2

。两个类型的训练样本分别构成训练样本的子集

X

1

X

2

令:

y

k

w

T

x

k

k1,2,...,n

(4.5-1)

y

k

是向量

x

k

通过变换

w

得到的标量,它是一维的。实际上,对于给定的

w

y

k

就是判决函数的值。

1

由子集

X

1

X

2

的样本映射后的两个子集为

Y

1

Y

2

。因为我们关心的是

w

的方向,可以令

||w||1

那么

y

k

就是

x

k

w

方向上的投影。使

Y

1

Y

2

最容易区分开的

w

方向正是区分超平面的法线方向。如下

图:

Y

1

Y

2

还无法分开,图中画出了直线的两种选择,图(a)中,而图(b)的选择可以使

Y

1

Y

2

区分开来。

所以图(b)的方向是一个好的选择。

下面讨论怎样得到最佳

w

方向的解析式。

各类在

d

维特征空间里的样本均值向量:

1

n

i

M

i

x

k

X

i

x

k

i1,2

(4.5-2)

通过变换

w

映射到一维特征空间后,各类的平均值为:

1

n

i

m

i

y

k

Y

i

y

k

i1,2

(4.5-3)

映射后,各类样本“类内离散度”定义为:

2

S

i

2

y

k

Y

i

2

(ym)

ki

i1,2

(4.5-4)

显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小

越好。因此,定义Fisher准则函数:

|m

1

m

2

|

2

J

F

(w)

2

s

1

s

2

2

(4.5-5)

使

J

F

最大的解

w

就是最佳解向量,也就是Fisher的线性判别式。

*

2.求解

w

*

J

F

(w)

的表达式可知,它并非

w

的显函数,必须进一步变换。

1

n

i

已知:

1

n

i

m

i

y

k

Y

i

y

k

i1,2

, 依次代入(4.5-1)和(4.5-2),有:

1

n

i

m

i

x

k

X

i

w

T

x

k

w

T

(

x

k

X

i

x)w

k

T

M

i

i1,2

(4.5-6)

2TT2T2

|mm|||wMwM||||w(MM)||

121212

所以:

TTT

w(MM)(MM)wwS

b

w

(4.5-7)

1212

T

S(MM)(MM)

b1212

其中: (4.5-8)

S

b

是原

d

维特征空间里的样本类内离散度矩阵,表示两类均值向量之间的离散度大小,因此,

S

b

3

越大越容易区分。

1

n

i

将(4.5-6)

m

i

w

T

M

i

和(4.5-2)

M

i

x

k

X

i

x

k

代入(4.5-4)

S

i

2

式中:

S

i

2

x

k

X

i

(wx

T

k

w

T

M

i

)

2

w

T

x

k

X

i

(x

k

M

i

)(x

k

M

i

)

T

w

w

T

S

i

w

(4.5-9)

其中:

S

i

x

k

X

i

T

(xM)(xM)

kiki

i1,2

(4.5-10)

22TT

SSw(SS)wwS

w

w

(4.5-11)

1212

因此:

显然:

S

w

S

1

S

2

(4.5-12)

S

i

称为原

d

维特征空间里,样本“类内离散度”矩阵。

S

w

是样本“类内总离散度”矩阵。

为了便于分类,显然

S

i

越小越好,也就是

S

w

越小越好。

将上述的所有推导结果代入

J

F

(w)

表达式:

w

T

S

b

w

J

F

(w)

T

wS

w

w

—— 广义Rayleigh商 (4.5-13)

4

式中

S

b

S

w

皆可由样本集

X

计算出。

用lagrange乘子法求解

J

F

(w)

的极大值点。

T

cwS

w

wc0

。 令分母等于非零常数,也就是:

定义lagrange函数:

L(w,

)w

T

S

b

w

(w

T

S

w

wc)

(4.5-14)

L

w

求偏导数:

L(w,

)

2(S

b

w

S

w

w)

w

L(w,

)

0

w

令得到:

S

b

w

*

S

w

w

*

(4.5-15)

从上述推导(4.5-10)~(4.5-12)可知,

S

w

d

维特征的样本协方差矩阵,它是对称的和半正定的。

当样本数目

nd

时,

S

w

是非奇异的,也就是可求逆。

*

wSSw

wb

则: (4.5-16)

*

1

*

问题转化为求一般矩阵

S

w

S

b

的特征值和特征向量。令

S

w

S

b

A

,则

A

的特征根,

w

A

11

特征向量。

5

S

b

w

*

{(M

1

M

2

)(M

1

M

2

)

T

}w

*

(M

1

M

2

){(M

1

M

2

)

T

w

*

}

(M

1

M

2

)

(4.5-17)

式中:

(M

1

M

2

)

T

w

*

*

Sw

b

是一个标量。所以总是在

(M

1

M

2

)

方向上。将(4.5-17)代入到(4.5-15),可以得到:

w

*

1

S(M

1

M

2

)

w

*

其中,

是一个比例因子,不影响

w

的方向,可以删除,从而得到最后解:

w

*

S

w

(M

1

M

2

)

(4.5-18)

1

w

*

就使

J

F

(w)

取得最大值,

w

*

可使样本由

d

维空间向一维空间映射,其投影方向最好。

wS

w

(M

1

M

2

)

是一个Fisher线性判断式。

*

1

讨论:

*

如果

M

1

M

2

w0

,则样本线性不可分。

M

1

M

2

,未必线性可分。

6

S

w

不可逆,未必不可分。

算法步骤

*

*

w

由Fisher线性判别式

S

w

(M

1

M

2

)

求解向量

w

的步骤:

1

① 把来自两类

w

1

/w

2

的训练样本集

X

分成

w

1

w

2

两个子集

X

1

X

2

1

n

i

② 由

M

i

x

k

X

i

x

k

i1,2

,计算

M

i

③ 由

S

i

x

k

X

i

(x

k

M

i

)(x

k

M

i

)

T

计算各类的类内离散度矩阵

S

i

i1,2

④ 计算类内总离散度矩阵

S

w

S

1

S

2

⑤ 计算

S

w

的逆矩阵

S

w

1

*

*

w

⑥ 由

S

w

(M

1

M

2

)

求解

w

1

这一节所研究的问题针对确定性模式分类器的训练,实际上,Fisher的线性判别式对于随机模式

也是适用的。

Fisher算法注释:

(1)Fisher方法可直接求解权向量

w

*

(2)对线性不可分的情况,Fisher方法无法确定分类,Fisher可以进一步推广到多类问题中去。

7


本文标签: 方向 问题 样本 方法 线性