首页 文学文摘 时政新闻 科技科普 经济法律 健康生活 管理财经 教育教学 文化艺术 社科历史

基于OLAP的秦皇岛港口煤炭生产数据分析及可视化应用

作者:赵请博 韩丽 来源:物流技术

[摘要]从秦皇岛港的基础数据出发,运用OLAP数据分析技术,通过维度建模的方式构建了港口船舶、堆场、设备、费收、客户等煤炭生产主题数据仓库模型,使用时间序列指数平滑预测对数据进行预处理,基于OLAP体系结构,对模型中的数据抽取、转换和加载给出了详细分析与设计,针对所选主题设计和实现了OLAP多维分析功能,实现对煤炭生产数据的多角度、多侧面、多层次综合分析,完成港口煤炭生产数据可视化应用体系建设,为港口管理者提供可靠、直观的有效数据支撑。

[关键词]秦皇岛港;OLAP;生产数据分析;可视化

1引言

随着世界经济一体化进程的日益深人,港口作为重要的交通枢纽和现代物流中心的核心节点,随着数据量的不断累积,巨大的数据量与数据分析滞后带来的问题日益突出。由于港口业务数据具有海量、高维、网络化及地理相关等数据特性,目前秦皇岛港存在不具备对煤炭数据的综合能力、缺乏对历史煤炭数据的分析和预测、查询结果缺乏分析能力、缺乏动态的数据集成功能、缺乏决策支持功能等众多数据分析问题。如何借助OLAP等数据分析工具,挖掘繁杂分散数据源中隐含的信息,根据数据的分布找出规律,并根据此规律进行分析决策,为货主、港口企业、监管部门、港口行政管理部门以及社会其他部门之间提供大量有价值的信息,为各级管理层科学的决策提供数据和理论支持,对港口的生产发展具有重要意义。因此,秦皇岛港构建港口煤炭生产数据的OLAP分析和可视化平台势在必行。

从国内外港口企业信息化和OLAP技术的发展来看,OLAP分析技术和港口信息化程度都发展的比较成熟,综合运用到港口企业日常生产中能够发挥重要的作用。港口信息化程度可以有效的为OLAP分析提供数据支持,二者相互配合能够全面提高港口的数字化、信息化、科学化程度。本文旨在构建煤炭主题数据仓库结构,使其适合OLAP分析技术的应用要求,并设计基于煤炭生产数据的OLAP分析及可视化系统。首先,建立数据仓库星型模型,满足OLAP对多维数据集的需求:分析数据特点确定相应的主题域,以秦皇岛港现有数据为基础,建立数据仓库结构模型。然后,设计煤炭生产系统数据仓库,对煤炭生产数据进行OLAP分析,并通过时间序列指数平滑预测算法,用于预测秦皇岛港吞吐量等信息的处理,以得到可信度较高的预测值;引入频繁模式挖掘Apriori算法,用于挖掘秦皇岛港生产业务中各个数据字段之间的关联关系,并根据算法先验性质对原有的基本算法进行优化分析。最后,重点论述煤炭生产数据可视化应用过程。通过上述研究有效提高港口煤炭生产数据的综合运用能力,分析挖掘出数据背后的隐含信息,找到生产发展的有效突破点,满足港口企业生产和决策需求。

2研究意义

数据挖掘是从海量的信息中发掘有效的、潜在的、未知的、有价值信息的过程。数据挖掘技术不断发展,为港口煤炭生产数据管理中存在的分析和挖掘功能缺乏的问题提供了解决方法。将数据挖掘技术应用到港口的生产和决策,通过大量的数据发现其中隐含的与企业生产发展有关的信息知识,已经成为研究热点。

秦皇岛港煤炭生产数据中蕴含大量有价值的信息。面对繁杂又分散的数据资源,一般的信息处理方法,如报表统计、指标查询等无法挖掘出数据的隐含信息。将数据挖掘技术应用于秦皇岛港的煤炭生产数据管理中,有效分析和挖掘数据中的隐含信息,提高数据利用率,通过有效的数据管理方法挖掘出港口煤炭生产数据之间的各种关系,挖掘的结果能够指导秦皇島港乃至环渤海区域煤炭业务的发展,使得秦皇岛港更好地把握煤炭业务经营状况,更客观地对煤炭业务做出决策,对提升港口的核心竞争能力具有非常重要的意义。

3数据仓库模型构建方案

概念模型设计就是需求分析,确定数据仓库建立所需的数据源,建立容易理解的数据模型,有效地完成用户查询和数据之间的映射,涉及到数据仓库使用者所提出的决策问题。数据仓库的概念模型是面向秦皇岛港煤炭业务而建立的,它为集成来自各个子公司煤炭系统的数据提供统一的概念视图,概念模型的设计是在较高的抽象层次上的设计。首先,要完整而清晰的认识到秦皇岛港现有煤炭生产数据库中的数据内容,然后,通过建立数据仓库将原有煤炭生产数据库系统中的数据进行集成、重组,进而组成新的数据集合,同时要充分调研企业管理者和决策者对煤炭生产数据分析的需求,以此确定系统边界和定义主题域来反映数据仓库的概念模型。

本节采用维度建模的方式,建立符合OLAP要求的数据仓库模型。以星型模型为主,雪花模型为辅,根据港口船舶、堆场、设备、费收、客户等煤炭生产主题数据仓库建立数据仓库模型。针对以上不同的星型或雪花模型的设计,延伸不同业务主题分析,主要分为设备与煤炭生产、堆场与煤炭生产,船舶管理数据,船舶与费收等主题。本节采取星型模型和雪花模型的混合物,实现方式是:数据集是星型架构的一部分,以促进数据提取及分析,并利用雪花模型的中间层,以减少数据冗余度。根据以上业务主题所设计数据模型,由于主题众多,本节以设备与煤炭生产主题为例,设计结果如图1所示。

在对煤炭生产系统进行OLAP分析之前,需要进行数据预处理,以符合OLAP分析要求。为了更好的对原始港口数据进行预处理,本节通过基于时间序列指数平滑预测算法完成数据处理ETL过程,将处理后的数据转换装载到数据仓库中。针对港口设备维修的花费周期、港口设备初期中期成本计算和堆存量的预测等业务采用了指数平滑预测,通过相关实际数和预测值,用指数加权的方法进行了预测。

(1)概念模型设计。对于设备与煤炭生产主题,经过分析,构成为事实表度量值的是故障时间和工作时间,以上度量值是通过维度表中的维修记录中的维修时间和工作记录维表中的工作和检查时间决定的,经过分析,得出设备主题描述,见表1。

(2)逻辑模型设计。设备与煤炭生产主题数据仓库包含了多个多维数据集,并且多维数据集是基于以维表和事实表为基础的数据模型。经过分析,设计时间维,设备维,堆场维,维修记录维,工作记录维等五个维度表。见表2。

关于事实表,构成为事实表度量值的是故障时间和工作时间,这两个度量值是通过维度表中维修记录中的维修时间和工作记录维表中工作和检查时间决定的,通过从数据仓库查询出的数据计算得到的故障时间和工作时间。通过关联规则算法对已有数据进行强关联规则筛选,得到频繁项目集,并通过函数进行记录,对频繁项目集进行操作,选出具有强关联规则的两部分,并找出其中的关联。例如可以找出季节和煤炭发往地的关系,找出在规定阈值以上的季节和煤炭发往地之间的强关联规则。业务分析员可以在系统界面选择要筛选的字段,通过后台的运行和筛选得出结论反馈到系统界面。

维度表成员设计和事实表度量值的设计如下:

时间维(Time):成员有年、季节、月、日期;层次是以年、季节、月、日期的顺序构成时间维的层次结构。

设备维(Equipment):成员有设备名称、设备型号、设备备注。

维修维(Repair):成员有维修总时间、组织停工时间、发生故障部位、维修所耗费用。

工作时间维(Worktime):成员有启动前检查时间、具体运行时间。

堆场维(Yard):成员有堆场名称、堆场责任人姓名。维度表的成员确定后,在事实表中要确定度量值,也就是本文使用数据仓库中数据进行分析时的对象,在设备与煤炭生产的数据仓库中,设置停工总时间、工作总时间作为度量值进行分析,通过以上步骤,完成事实表和维度表的逻辑结构设计。

(3)物理模型设计。由于篇幅所限,以时间维度为例,时间维度表包含了年一季度一月一日4个时間维度层次。时间维度是每一个多维数据集必需的。此多维数据集的唯一时间维度表见表3。

4 OLAP数据分析系统设计

OLAP数据分析是港口各个主题与煤炭生产相关数据处理的主要方式。港口项目的核心在于数据的处理手段,本文采用基于Oracle的OLAP数据分析手段。根据之前设计的数据仓库星型模型,建立立方体(CUBE),展示数据变化,以及对数据度量进行数值化操作。具体的步骤是:AWM(Analt=ytic Workspace Manager)工具是Oracle 12c数据库的科学统计分析中间件,本节利用该工具创建维度,创建CUBE(立方体),进行上卷和下钻等操作,使用自定义的查询语言直接访问Analysis Service服务中的多维数据集,也可以通过工具直接对度量值和维度拖拽查询数据,并可以通过前端展现工具满足不同数据分析应用需求,将数据以合理的形式展现给用户。以同比分析为例,分析系统设计界面分析如图2所示。

基于OLAP体系结构设计数据的抽取、清洗和预计算等操作,将数据存人数据仓库。基于OLAP技术设计分析引擎,采用维度的选择和旋转,任意维度的上钻和下钻,以及时间维的切片等操作来分析煤炭生产数据,并利用计算机图形学和图像处理技术把数据信息转换为图像信息在屏幕上显现出来。将数据仓库中每一个数据项作为单个图形元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。

5煤炭生产数据可视化应用

煤炭生产数据可视化开发应用主要从不同的数据层次挖掘数据信息的潜在价值,发现数据之美。通过以可视化交互的方式,从不同的层次维度,对数据分析钻取结果进行有效、直观的展现。本节从煤炭生产数据中的客户关系可视化设计角度出发,阐述煤炭生产数据可视化应用实现方式。通过从公司、委托人、煤种、时间等不同的层次维度,对数据分析钻取并以可视交互的形式展现趋势、同比、环比等数据分析结果,从而实现不同的层次维度基点上可视化分析钻取展现。以火车调入数据信息为例,通过利用大数据分析技术,所得到的分析结果如图3所示。

(1)煤炭从中国中煤能源股份有限公司(专)的调进量比较稳定,从五月份开始煤炭调进量有增加趋势,之后又趋于平稳。

(2)点击调进吨数降序排序,从中煤平朔集团有限公司调进的煤炭量在五月份最高。

综上,通过煤炭生产数据可视化开发应用,将大数据、数据挖掘等先进的信息技术运用到港口煤炭生产数据可视化管理中,有效分析和挖掘煤炭数据中的隐含信息,将业务趋势、相关性、同期比、环比等指标以可视化效果展现,将数据的潜在价值转化为生产动能,为港口优化生产组织、挖潜增效提供新的突破口与增长点。

6结束语

本文在对秦皇岛港煤炭生产业务详细调研分析的基础上,对煤炭生产数据进行可视化分析,针对煤炭业务设计不同主题,建立星型模型为主的数据仓库;设计OLAP分析系统,应用到煤炭生产业务主题中的各方面,处理港口煤炭主题数据仓库中的庞杂数据,包括建立数据CUBE(立方体),便于用户进行钻取、下钻等OLAP基本操作;利用AWM分析中间件对CUBE(立方体)进行可视化显示;通过时间序列指数平滑预测算法对数据进行预处理,用于预测秦皇岛港吞吐量等信息的处理,并得到可信度较高的预测值;引入频繁模式挖掘Apriori算法挖掘煤炭业务中各数据字段之间的关联关系;最后以火车调入数据信息为例,阐述了煤炭生产业务可视化应用开发思路。港口生产数据业务分析及可视化应用利用数据挖掘方法对秦皇岛港的煤炭业务数据进行分析,为港口的决策者提供科学,准确的决策支持,带动港口业务水平的提高,有助于发现隐含的煤炭业务之间的相关性,通过挖掘煤炭业务与其他业务之间的关联,有效提高秦皇岛港煤炭业务的经济效益。