PCA算法在图像特征处理中的研究
摘 要 在图像特征的研究过程中,所得到的图象数据不仅非常复杂,而且非常庞大,甚至有时有各种冗余存在,因此对这些数据有必要进行一定的分析,如提取数据的主要特征时通过一定的变换,对数据后续的分析和处理都非常有利。本文研究中,笔者以细胞图像分析为例,以达到提取图像特征的目的。
【关键词】PCA算法 图像分析 特征识别
尿液中的红细胞圆心我们能确定一个圆,但细胞液有一些杂质,如图1所示,有的是两个细胞在同一个圈里,有的是一些不规则图象在圈里,有的为一个白色空圈,甚至有的圈里不是一个细胞图象等,对于这些现象本文将其统称为非红细胞。为便于识别分类非红细胞和红细胞,对于细胞的特征是必须提取的,在本研究中,细胞特征的提取是主要研究的问题。
1 PCA算法原理
主成分分析(Principal Components Analy sis,PCA)是统计学中分析数据的一种有效的方法。PCA也称为K_L变换,是一种线性变换方法,在统计信号领域中被广泛应用。从几何观点来分析,找一个最佳子空间,当该子空间内多维数据x进行投影后,所得分量方差最大,这也是PCA的基本思想。此外,对原始数据采用新分量进行重构时,最优效果是在最小均方误差意义下,即(1-1)式取值最小。
设n维随机向量为,其均值,其协方差矩阵公式如下:
寻找一个正交变换矩阵是PCA的主要目的,正交变换维向量,使得新分量间彼此互不相关,即满足:
从式可以得知
PCA在所有观测数据沿方向投影的情况下,分量能量最大,也就是方差最大,这时应把称为PC1 (第一主分量)。在与正交的所有矢量中用同样的方法寻找第二个,在能满足的基础上,使投影后能量最大,这时应把称为PC2 (第二主分量)。
2 特征值的分解算法
PCA的数值计算方法有多种,通过特征值分解协方差矩阵来得到正交变换矩阵是最常用的方法,若为实信号向量,根据矩阵分析理论,对于自然生成的数据均为正定矩阵,而协方差矩阵至少为非负定的实对称矩阵。由此得到:
构成的奇异值分解,其中,特征向量构成的正交矩阵为,相应特征值构成的对角矩阵必须满足。由此可以证明:按从大到小的顺序将特征值排列时,会令式中的,那么PCA中寻找的最优投影方向为的各个基向量,对数据按该方向进行投影,所得到的各主分量关系各不相关,对角阵是的协方差矩阵,且,那么得出重构信号的最小均方误差为:
将特征向量排列按特征向量对应较大特征值到特征向量对应较小特征值的顺序。行向量组成变换矩阵为以前个特征值所对应的特征向量,并以此作为训练和测试的输入特征向量。如所示,前个最大特征值之和占总特征值之和的92%以上为的选取原则。也就是样本集在其前个上轴的能量占整个能量的92%以上。
通过PCA算法后,有效降低了原来高维图像,对特征的提取提供了方便,生成低维细胞空间。
3 实验结果
经过大量实验证明,在图像分类识别过程中,PCA能量强度越大,其识别率越高,这也是它能量强度选择主要规律。从本实验的结果图形可以看出,它们要符合这一变化规律,必须保持能量强度在0.1-0.99之间变化。
参考文献
[1]雷松泽:基于主元分析的人脸特征提取MATLAB实现[D].西安,西安工业大学,2006.
[2]王松,夏绍玮:一种鲁棒主成分分析(PCA)算法[J].系统工程理论与实践,2004.
[3]黄轩宇:基于KL投影LDA人脸识别及正交辨识分析[A].江苏省通信学会论文集,南京:2004.
作者简介
钟彩(1982-),男,湖南省湘阴县人。硕士学位。现为湖南省常德职业技术学院讲师。主要研究方向为计算机图像处理、软件理论研究。
作者单位
常德职业技术学院 湖南省常德市 415000