首页 文学文摘 时政新闻 科技科普 经济法律 健康生活 管理财经 教育教学 文化艺术 社科历史

基于数据挖掘的飞行数据分析及仿真研究

作者:白俊峰等 来源:电子技术与软件工程

摘 要 飞行数据越来越被人们所认识,传统上飞行数据的分析方法有很多,大多建立在飞机系统模型下,本文直接对飞机数据,绕开飞机系统模型,运用数据挖掘技术的中聚类算法对飞机系统聚类分析,寻找出飞行数据之间内在的联系,并建立了聚类分析系统。该系统能够很好的把正常数据和异常数据区分开,对以后的日常机务维修和飞行安全警示都能起到一个较好的参考作用。

【关键词】数据挖掘 聚类算法

1 数据挖掘介绍

1.1 数据挖掘

是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现的关键步骤。这个定义包含以下四个层次的含义:

(1)数据员必须是真实的、海量的、含噪声的、难以解算的;

(2)发现的是有价值的信息或规律;

(3)发现的知识要可以应用、可以理解、可以接受;

(4)发现的知识不是固定,不是要强求去发现数学公式或是科学定理,所有发现的知识都是相对的,都是面向被挖掘的数据这个特定前提下的。从飞行数据出发,数据挖掘就可以描述为,通过对数据的挖掘我们想寻找到那些数据异常和故障发生或即将要发生的规律,并挖掘数据。

1.2 数据挖掘的特点

(1)数据发掘主要强调待发现规律的未知性,不预先作硬性,严格的规定。

(2)目标更为具体认为系统不都是有规律的不必拟合全部数据。

(3)数据分析不能单纯的运用数学知识或模型,要有人工智能领域的模型识别和机器学习的思想和技术。

(4)数据的形式灵活多变。

1.3 发掘的分类

数据挖掘从分析形式上来讲分成两类,直接挖掘数据和间距挖掘数据。从功能上来讲可以分为一下几类:

(1)自动预测趋势与行为;(2)关联分析;(3)聚类分析;(4)分类;(5)预测;(6)时序模式;(7)异常模式。

1.3 数据挖掘的过程

数据挖掘是一个多领域知识交叉的研究与应用领域,设计的领域包括:数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、信息检索、高性能计算等。数据挖掘的过程大致分为:问题定义、数据收集与预处理、数据挖掘实施,以及挖掘结果的解释与评估。

1.4 数据挖掘的常用方法

(1)传统统计方法。

(2)可视化技术。

(3)决策树。

(4)人工神经网络。

(5)遗传算法。

(6)关联规则挖掘算法。

(7)最近邻技术(这种技术通过已辨别历史记录的组合来辨别新的记录,它可以用来做聚类和偏差分析)。

2 聚类算法在飞行数据中的应用

2.1 聚类分析概述

聚类分析(Cluster Analysis)指物理或抽象对象的集合标分组成为由类似的对象组成多个类的分析过程。它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。

2.2 聚类的一般步骤

在日常的工程应用中,聚类分析的一般步骤如下;

(1)数据预处理——选择数量,类型和特征的标度((依据特征选择和抽取)特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类)和将孤立点移出数据(孤立点是不依附于一般数据行为或模型的数据)。

(2)为衡量数据点间的相似度定义一个距离函数——既然相类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域一个简单的距离度量,如Euclidean距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量。 聚类或分组——将数据对象分到不同的类中划分方法(划分方法一般从初始划分和最优化一个聚类标准开始 ,Crisp Clustering和Fuzzy Clusterin是划分方法的两个主要技术,Crisp Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的每个数据可能在任何一个类中)和层次方法(基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类)是聚类分析的两个主要方法,另外还有基于密度的聚类,基于模型的聚类,基于网格的聚类。

(3)评估输出——评估聚类结果的质量(它是通过一个类有效索引的最值评价,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取,一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准,很多已经存在的标准对于相互分离的类数据集合都能得出很好的结果,但是对于复杂的数据集,却通常行不通,例如,对于交叠类的集合。)

3 基于卡尔曼滤波数据关联融合算法在飞行数据仿真预处理中的应用

卡尔曼滤波理论是卡尔曼于1960年提出的,是一种线性最小方差估计。在后验概率密度函数、状况模型噪声和观测噪声都是高斯分布,状况方程、测量方程都是线性方程条件下,它能使得状况估计协方差最小化,从而得到关于状态的线性最小均方误差估计。

4 结束语

数据类聚分析系统具有数据类聚功能,能够有效地区分出飞行正常数据和飞行异常数据。该系统具有一定的使用价值,对日常的机务维修工作和飞行教学指导都有一定的参考作用。卡尔曼滤波数据关联算法比较传统算法有收敛速度快,收敛精度高的特点,能够很好地降低飞行数据的噪声,为我们飞行数据3D仿真系统的建立奠定了基础。飞行数据3D仿真系统稳定可靠并能实现飞行姿态,飞行航迹,飞行横滚,飞行及时数据的仿真。

不过,飞行数据获取较为困难,本文内容研究工作量大,存在很多不足。这些问题都是论文研究以后要进一步的工作。

作者单位

中航工业飞机有限公司汉中飞机分公司设计研究院 陕西省汉中市 723000