大数据的应用机会与限制浅析
摘要:大数据是最近很多人热议的一个话题,也是在诸多领域引起了大家不同争议与意见的话题。随着我国信息技术的不断发展,其应用场景不断拓宽,大数据应潮流而生,成为在当今商业世界里的重要概念,也有越来越多的人开始对大数据产生浓厚的兴趣。虽然说大数据得益于信息技术的飞速进步,并在金融经济等多个环境里都有应用,但是很多人对于大数据缺乏一个理性全面的认识。本文从大数据的定义入手,介绍了大数据所拥有的特征,并分析其可能拥有的应用场景与存在的应用局限,旨在帮助读者对其形成一个更加全面客观的认识。
关键词:大数据;信息技术;商业科技;大数据的局限性
0 引言
大数据是最近很多人热议的一个话题,也是在诸多领域引起了大家不同争议与意见的话题。不同的IT巨头都开始推出各自的大数据产品,很多企业也在构想通过不同的方式来挖掘自己所有的或者通过其他渠道获取的数据的价值。随着我国信息技术的不断发展,数据分析的应用场景不断拓宽,大数据应潮流而生,成为在当今商业世界里的重要概念,也有越来越多的人开始对大数据产生浓厚的兴趣。
虽然说大数据得益于信息技术的飞速进步,并在金融经济等多个领域里都有应用,是当今最热门的话题之一。但是很多人只是人云亦云,对于大数据缺乏一个理性全面的认识。本文从大数据的定义入手,介绍了大数据所拥有的特征,并分析其可能拥有的应用场景与存在的应用局限,旨在帮助读者对其形成一个更加全面客观的认识。
1 大數据的定义与特点
1.1 大数据的定义
大数据的应用范围广泛,大家对其都有自己的看法,因此对于大数据的定义众说纷纭。目前比较受到公众认可的一种定义来自于重量级统计软件SAS官网:“大数据是用来描绘数据源以及数据技术指数性增长的术语,飞速增长的数据既包括结构化的数据,也包括非结构化的数据。大数据在商业以及整个社会范畴内都有广泛运用。”
其中,所谓的结构化是指所获取的数据是指我们现实生活中常见的二维表单类型数据,即对于某些固定的项目有多条记录。结构化数据的别称叫做行数据,对于表格中的每一个项目,每条记录相应的内容都应该严格地遵循该项目所要求的数据格式与长度规范。例如我们在生活中常见的各类电子表格数据等。它们有固定的表格格式,所填内容也遵循相应规范。
而非结构化数据则是与结构化数据相对的,不存在固定格式与规范的各类数据源。例如财务报表等,这一类数据包含了大量信息,但是因为缺乏统一的标准格式与规范,导致不同企业间的报表格式可能存在较大区别。无法直接进行统一的分析处理。
1.2 大数据的特点
对于大数据的特点,目前公众比较认可的几点如下:
海量
大数据的数据源一般体量非常大,这一特征得益于我们高速发展的信息科技。在越来越多的地方,有各种自动化的调查统计手段作为辅助,帮助我们收集大量信息源。很多时候数据采集与产生的过程是自动实现的,不仅解决了人工调查耗时多,成本高的问题,而且不易出错,较为客观。大量的数据源信息是大数据的基本特征。这样的特征能够给我们的统计分析提供支持,让我们有机会从大量的数据中去采集我们所需要的信息。总体来说我们认为,数据的体量越大,能够进行分析和利用的方面就越多。
高速
高速也是大数据的关键特点之一,正如我们在前文中说到,许多数据产生的过程都是自动的,这也就意味着很多数据从采集到形成最终的数据表格都是非常迅速的,这一特点对于大数据技术能够满足我们当今变化飞速的需求是至关重要的。随着我国社会经济不断发展与进步,人们的需求也在无时无刻发生巨大变化,这个转变的速度非常快,这也就意味着依赖过时的数据所作出的决策很有可能是不适用的。只有足够及时,足够新的数据,才能够帮助不同的数据使用者了解市场形势的最新变化,从而采取相应的措施,作出相应的决策。
多样
多样性也是大数据非常重要的特点之一,多样性是指我们现在的数据源中可能不仅仅包含了某一方面的数据信息,而是囊括了非常多不同的方面。这样有利于我们将不同的方面结合起来,依赖于统计分析手段找出其中的联系。但是这样的多样性也给我们带来了巨大的挑战,正如我们前文中介绍的非结构化数据一样,它们也是构成数据多样性的重要组成部分,但是它们缺乏规范的格式,很难直接用于数据分析。应该怎样对这部分数据进行处理,从而进一步挖掘数据价值,是很多数据科学家现在专注的方向。
2 大数据的应用场景与局限性
2.1 大数据可能的应用场景
大数据在我们的生活中拥有非常多不同的应用场景。下面本文仅举一例,更多的应用场合读者可以自行思考。通过大数据技术,我们可以发现消费者消费行为模式,获取客户信息,进行客户群体细分
这是大数据在企业外部的一种应用模式,通过大数据我们可以获取消费者的各类信息。包括基本的年龄,性别,工作等,同时在消费者购买的过程中我们可以记录其消费的习惯与偏好。当这个数据量达到一定规模以后,我们可以通过大数据分析,来观察不同的特征会怎样影响消费者的消费行为与模式。
通过这样的方法我们可以将具有不同特征的消费者划分为不同的群体,然后根据该群体的消费行为与偏好,为其量身定制他们所需要的商品或者服务。比如现在的智能手机厂家通过各类的标准将消费群体进行划分,按照年龄层与职业推出了关注不同的特点的智能手机(如关注拍照、音乐、性能等)后,再按照该群体的特征进行营销。比如针对年轻群体的手机通过各类社交媒体,而针对中老年的手机则通过电视、线下活动进行推广。
还有一例是美国的孟山都公司,该公司是美国农业生物科技行业的领头羊。其发起的“Green Data Revolution(绿色数据革命)”旨在帮助农民享受数据科学的好处。它向农民提供种子监视器用于收集种子与土地信息,农民只需使用获取的平板终端将信息上传到孟山都的农业数据联盟中,便可以获取由该公司提供的最适合其土地与种子状况的化肥。
2.2 大数据的应用局限性
成本限制
大数据依赖于数据收集手段,正如我们前文中所提倡的,需要利用各类自动化的辅助手段进行数据收集,这样的一个过程是依赖于硬件支持的。企业可能需要安装各类传感器以及电脑终端来完成数据的收集,而当这个规模较大时,需要投入大量的人力物力才能够完成对于数据采集的支持。而这样的投入是很多小型企业所无法承担的。公用的付费数据库虽然现在也在蓬勃发展,但是其高昂的收费对于许多企业来说依然是一个较高的门槛。
技术限制
前文中提到,现在的数据源的多样性为我们的统计分析带来了很大的挑战。大数据的技术局限性一方面体现在收集数据源的过程仍然需要进一步的完善与发展;另一方面也体现在我们对于一些非结构化的数据进行统一分析的能力仍然较弱。不能够完全挖掘数据价值。
法律限制
这也是大数据技术一直以来备受诟病的一点,大数据技术依赖于收集客户信息,但是这一收集过程的边界很难定义,很有可能对于客户的隐私权带来威胁。比如我们当今社会利用电话进行推销或者诈骗的现象越来越多,其根本就在于数据源的收集方没有对客户数据尽到隐私保护的责任与义务,才会导致客户信息泄漏,个人隐私受侵犯。
可验证性
可验证性是指我们收集的数据由于其海量、高速、多样的特点,很难对其进行一一核实,因此数据的真实性以及准确性就值得质疑。如果我们对于数据的真实准确性无法保证,那么基于这些数据得出的结论的有效性也就有待商榷。对于这部分数据的验证工作庞大复杂,至今还没有有效而简洁的手段。
参考文献
[1]邬贺铨. 大数据时代的机遇与挑战.《中国储运》 , 2013 (4) :9-10
[2] 王元卓,靳小龙,程学旗.网络大数据:现状与展望.《计算机学报》 , 2013 , 36 (6) :1125-1138
[3] 孟小峰,慈祥.大数据管理:概念、技术与挑战.《计算机研究与发展》, 2013 , 50 (1) :146-169
作者简介
赵杨晴:2000年生,女,籍贯山东省青岛市