2ol5.5 大数据研究综述 赵娜 (青海省建筑职业技术学院信息技术系,青海西宁,810012) 摘要:随着互联网、物联网、云计算技术的迅猛发展,数据规模呈现了爆炸性增长的趋势,大数据时代已经到来,如何更好地管 理和利用大数据成为研究的重点。本文从大数据的基本概念入手,分析了国内外大数据的发展和应用现状。在此基础上,对大 数据的处理流程和关键技术进行了阐述,最后总结了大数据时代所面临的新挑战。 关键词:大数据;云计算;数据挖掘 Overview of Big Data Research Zhao Na (Department of Information Technology,Qinghai College of Architectural Technology,Xining 810012, China) Abstract:With the rapid development of Internet,Internet of Things,cloud computing technology,The scale of the data showed a trend of explosive growth,the Big Data Era has already come.It has become the focus of the study how to manage and uti1ize big data.This paper mainly analyzed the development and application status of big data at home and abroad,from the basic concepts of big data.On this basis,the procedures of processing and key techniques of big data were described,Finally,the new challenges in the era of big data were summarized. Keywords:big data;cloud computing;data mining:data processing 云计算技术的发展促使互联网的应用越来越广泛,随着新型 念。2012年奥巴马总统的成功连任也得益于大数据挖掘的支撑, 社交网络的快速发展以及新型移动设备的出现,计算机应用产生 大数据的潜在价值只有通过数据挖掘才能显现[5]。由此可见, 的数据量呈现爆炸性增长的趋势,大数据时代已经到来。据统计, 如何有效分析和利用巨大的原始数据,将其转化成有价值的信 平均每秒有200万用户在使用Google搜索,Facebook用户每 息,成为研究大数据的重要意义所在。 天共享的内容超过4O亿,Twitter每天处理的推特数量超过3.4 亿。同时,科学计算、医疗卫生、金融、零售业等行业也有大量数据 1大数据的概念 不断产生。大数据呈燎原的发展态势引起了学术界、工业界甚至 目前尚未有权威机构对大数据的概念进行统一,其定义存 于政府机构的关注,如何更好地管理和利用大数据成为研究的重 在多种版本。比较有影响力的研究机构Gartner认为:大数据 点。 是指需要新处理模式才能具有更强的决策力、洞察力和流程优 “大数据”一词来源于英文Big data,尽管近年来才受到人 化能力的海量、高增长率和多样化的信息资产。互联网数据中心 们的高度关注,但早在1980年,美国社会思想家阿尔文・托夫勒 (Internet Data Center,IDC,)将大数据定义为:为更经济地 在《第三次浪潮》一书中就热情地籽‘大数据’,称颂 ‘第三次浪潮 从高频率的、大容量的、不同结构和类型的数据中获取价值而设 的华彩乐章”。知名学术刊物{Nature}和{Science}也分别推出题 计的新一代架构和技术。麦肯锡认为:大数据是指无法在一定时 为“Big Data”和“Dealing with data”的专刊,从互联网技术、生 间内用传统数据库软件工具对其内容进行采集、存储、管理和分 物技术、网络经济学等多方面讨论了大数据面临的问题。2011 析的数据集合。关于大数据的定义,维基百科与麦肯锡的观点基 年5月,全球知名的咨询公司麦肯锡发布了关于大数据的调研报 本一致。 告《大数据:下一个前沿,竞争力、创新力和生产力》,指出了大数 就大数据的范围和内涵而言,尽管上述各定义的表述不同, 据研究的地位以及将给社会带来的价值,首次提出了“大数据’概 却普遍认为:大数据不是对数据量大小的定量描述,而是在种类 87 l gm口删 网络与信惠I程 繁多、数量庞大的多样数据中进行的快速信息获取。业界普遍认 为,大数据具有4V特征,即Volume(数据量大)、Variety(种类 2o15。5 3大数据处理的流程 大数据类型复杂,数据来源广泛,虽然使用的处理方法干变 繁多)、Velocity(快速高效)、Value(价值密度低)。 万化,但其基本处理流程是一致的,可概括为数据采集、数据处 理、数据分析和数据解释四个阶段,如图1所示。经数据源获取的 数据无法直接使用,需要用特殊方法进行处理和集成,将其转换 2国内外的发展及应用现状 当前,许多国家的政府都认识到大数据的重要意义,纷纷将 开发利用大数据作为夺取新一轮竞争制高点的重要抓手,实施 大数据战略。事实上,大数据已经在电子商务、医疗服务、智能交 为统一的数据格式以便后期处理;再用合适的数据分析方法对 这些数据进行统计分析,并用可视化技术将分析结果展现给用 通等领域显现,并创造了巨大的经济价值。2012年3月,美国政 户,这就是整个大数据处理的流程。 数据采集是大数据处理流程的基础,目前常用的采集手段有 府联合6个部门启动了2.5亿美元的“大数据研发计划”,这是继 1993年美国宣布“信息高速公路’计划后的又一次重大科技发展 条形码技术、射频识别技术(RFID)等,对于诸如亚马逊和淘宝的 部署,旨在提高和改进从海量和复杂数据中获取知识的能力,加 网站而言,可能同时访问的用户数以万计,因此并发数高成为大 速美国在科学和工程领域发明的步伐,增强国家安全。继美国率 数据采集过程中面临的主要挑战,如何在采集端部署大量的数据 先开启大数据国家战略先河之后,英国、日本及欧盟等国家也快 库并在数据库间进行负载均衡和分片值得深入研究。 速跟进,相继出台了相应的战略举措。毫无疑问,未来世界的竞争 数据处理的主要任务是对采集到的数据进行适当的清洗、 核心就是大数据的竞争。 去噪、抽取和集成。通过各种渠道获取的大数据类型和结构非常 与外国相比,我国的大数据发展尚处于起步阶段,还未形成 复杂,给之后的数据分析带来了极大的困难。通过数据处理环节, 整体力量,但近几年出现了蓬勃发展的态势。中国政府在2012年 可以使数据结构单一化且便于处理,此外还需利用聚类或关联分 批复了总投资额为几百亿的“十二・五国家政务信息化建设工程 析等方法对这些数据进行去噪和清洗,以保证数据的质量和可靠 规划”,标志着我国开放、共享和智能的大数据时代已经来临。同 性。 年国务院为推动商业企业加快信息基础设施演进升级,形成行业 数据分析是大数据处理流程中最关键的部分,旨在从大数据 联盟,在广东、北京、上海等地启动了大数据研发的进程,构建大 中发现数据的价值。由于大数据的多样性特点,仅采用传统的数 数据产业链,促进创新链与产业链的有效嫁接。 据挖掘、机器学习、智能计算等数据分析方法已无法满足大数据 除了国家政府层面的关注,Google、eBay、淘宝等知名企业 时代对算法提出的快速高效等要求,因此,就需要利用Google公 也开始从不同角度进行数据挖掘,以便改善自身服务,创造更大 司的“云计算技术”,对大数据进行有效的处理分析。 的商业价值。仅2009年一年,Google公司通过大数据业务对美 数据解释是对大数据分析结果的解释与展示。不恰当的数据 国经济贡献540亿美元。eBay通过数据挖掘精确计算出广告中 展示结果将会对用户产生困扰和误导。在大数据时代,传统的基 每个关键字带来的回报,2007年以来,广告费降低了99%,同时 于文本形式和屏幕输出的方式已不可行,所以需要通过数据可视 顶级卖家占总销售额的百分比上升至32%。2014年“双十一”期 化、人机交互等新技术将分析结果形象地展示给用户,使用户更 间,淘宝通过分析以往同期用户的消费习惯、搜索习惯等数据并 加清晰地了解整个数据处理流程和最终结果。 制定营销方案,当日网站的总成交额高达571亿元人民币,为企 4大数据的关键技术 业赢得了巨大的经济效益。 从大数据的基本处理流程可以看出,大数据环境下需要的 ,/——、 i挞 数据挖掘机器学习 数据可视亿 / \、 一/ 荣焉褐技术 ; 救摆清洗 去酶 i 可信赖 整盎 桡靠 证赴 敬理蛴÷}智静计篁 人机交互技 半结结丰龟构他他数数据据 媾感嚣收取 RFID技术 —-——^ =::: :::: —数_据一 、 ●■■■■■■●●■●■●●■●■■●■●■●■ l-支-推荐 _持-J 、 求 科研政府 机构 非结构化数据 ;l 数据抽取、l集成 j 垂韭篁 GFS 8igTable 预测 数据起源 医院 ……………….: aD ̄educe —一/ ■………■…………■ 数掘处 数掘解年f- …户 图1大数据的基本处理流程 j 88 ∞Ⅲ衄 2o15.5 网络与信惠I程 关键技术是海量数据的存储和运算。面对呈爆炸式增长的数据洪 元增长到170亿美元,2016年中国的市场规模将达到93.9亿元, 流,传统的数据处理和分析方法已不能满足要求,无法对大数据 产业发展潜力巨大。随着大数据研究的不断深入,大数据所面临 进行有效的处理。说起“大数据”,就不得不提“云计算”,云计算的 的挑战也逐渐显现。 概念是Google公司在2006年首先提出的,并给出了大数据处理 一是缺乏强大的数据分析工具和技术。要以低成本、可扩展 的三大关键技术:GFS、MapReduce和Bigtable,这是大数据处 方式处理大数据,就需要对整个IT架构进行重构,开发先进的软 理的基础,也是大数据分析的支撑技术。 件平台和算法。云计算技术作为大数据应用的推动者,大数据则 为云计算提供了新的商业价值。未来,大数据如何与云计算深度 4.1分布式文件系统GFS 扩展的分布式文件系统,它为Google云计算提供海量数据存储。 GFS(Google File System)是Google公司开发的一个可 融合,也是一个值得关注的问题。 二是大数据人才需求量激增。据Gartner咨询公司预测,到 它使用廉价的商用机器构建分布式系统,将容错的任务交由文件 系统来完成,利用软件的方法解决系统可靠性问题,使存储成本 成倍下降。一个GFS集群由一个主服务器(master)和大量的 块服务器(chunk server)构成,并允许多客户端(Client) 访问。客户端在访问GFS时,首先访问Master节点,获取将要 与之进行交互的Chunk Server信息,然后直接访问这些Chunk Server完成数据存取。这种设计方法不仅实现了控制流和数据 流的分离,而且文件采用分布式存储,提高了系统的整体性能。 4.2分布式数据库系统BigTabIe 2004年初Google开始研发分布式数据库系统BigTable,旨 在可靠地处理PB级数据,并且部署到上千台机器上。BigTable 是建立在Google文件系统之上的一种高性能、压缩的、高扩展的 数据存储系统,用于存储大规模结构化数据。与传统的关系型数 据库不同,它不支持JOIN这样的SQL语法,更像今日的NoSQL的 Table-oriented。BigTable被广泛应用于一系列的Google应 用中,如Google Earth、Google Maps、Gmai1、YouTube等等。 4.3分布式数据处理系统MapReduce Google公司于2004年提出了一种简化的分布式编程模型 MapReduce,用于编写可运行于集群上能处理大规模数据集(大于 1TB)的并行程序。其设计思想是将要执行的复杂问题分解为Map (映射)和Reduce(规约)两个操作,从而简化并行程序的开发过 程。首先Map把一个函数应用于集合中的所有节点,将数据切割 成不相关的区块,将这些区块分别调度给集群中分散的大量计算 机,从而达到机体间分布式并行运算的效果。然后由Reduce对系 统并行处理的结果进行分类和归纳,将各节点计算的结果汇总后 输出。MapReduce对数据一致性要求不高,具有扩展性和可用性 以及海量数据环境下良好的数据处理性能等优势,所以~经推出 就迅速得到应用。 5大数据时代面临的挑战 大数据的快速发展,使它成为IT领域的又一大新兴产业。据 IDC公司预测,2015年大数据市场规模将从2010年的32亿美 2015年全球大数据人才需求达440万人,人才需求缺口将达到 三分之一。因此,必须培养和造就一支懂指挥、懂技术、懂管理的 大数据建设专业队伍。 三是大数据的安全与隐私保护。目前,大数据贯穿教育、交 通、商业、电力、卫生保健、医疗及石油天然气等7大行业,我们可 以从不同渠道和角度收集用户的数据,大数据在给人们带来巨大 收益的同时,也为人们带来了严重的隐私威胁。尤其在“棱镜门” 事件后,安全与隐私保护被提升至国家战略高度,不容忽视。 5结束语 在这样一个“水能载舟,亦能覆舟”的大数据时代,我们要充 分利用大数据,发挥其社会价值和科学价值。大数据的发展尚处 于起步阶段,需要我们不断开拓的空间很大,如何高效地处理大 数据、合理地利用大数据仍需要不断地探索发现。 参考文献 [1]李德伟,顾煜,王海平,徐立.大数据改变世界[M].电 子工业出版社,2013. [2]Big data:Science in the petabyte era[J].Nature, 2008,455:1—136. [3]阿尔文托勒夫.第三次浪潮[加.黄明坚译.北京:中信出 版社,2006:19—25. [43 MANYIKA J,CHUI M,BROWN B,et a1.Big data:The next Frontier for innovation,competition,and producticity[R/OL].Las Vegas:The McKinsey Global Institute.[2013—07—24]. [5]李国杰,程学旗.大数据研究:未来科技及经济社会发展 的重大战略领域一一大数据的研究现状与科学思考[J]. 中国科学院院刊,2012,27(6):647—657. [6]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算 机研究与发展.2013.1:146-169. [7]王裕.基于云平台的大数据处理流程的关键技术研究[J]. 89 f 口 网络与信惠I程 信息技术.2014.9 [8]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报 (工学版).2014.6 2015.5 国杰.大数据系统和分析技术综述[J].软件学 报,2014,25(9):1889--1908. 作者简介 赵娜,女,1976—7,汉族,河南镇平,硕士,副教授,教师,数据 [9]涂新莉,刘波。林伟伟.大数据研究综述[J].计算机应用 研究.2013.50(1):146-169. 大数据、物联网。 [10]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李 挖掘、(I-接1 13页) c)波导天线罩两端灌水; d)中间法兰连接处密封不善。 2.2.1防水结构设计 针对可能进水的几个方面,我们进行了专门的防水结构设 计。图5是防水结构设计的示意图。 2.2.2防水设计验证 为了验证防水设计的可靠性,我们参照国军标要求进行了冲 水试验和浸渍试验。试验完成后用干抹布将裂缝波导表面的水迹 4小结 本文的结构设计可以确保裂缝波导系统不会因热胀冷缩和 淋水而影响CBTC系统的正常工作。各种试验也表明,整个裂缝 波导能够满足轨交列车自动控制系统要求。该系统已于2010年 在北京地铁亦庄线、昌平线上开通使用,现两条线路均运行良好。 亦庄线还成为我国第一条国产化的示范线,此举标志着城市轨道 交通信号系统核心技术不再依赖进口,真正实现自主创新,拥有 百分之百“中国血统”的CBTC信号系统能够在北京地铁亦庄线上 擦干,使用工具依次打开裂缝波导的法兰罩、天线罩以及波导之 间的连接,检查管内放置的硫酸铜粉末,发现白色粉末并未变为 蓝色,说明波导管内没有水进入,证明该防水结构设计合理可靠。 “试航”,我们作为其中的一分子,感到无比自豪。 参考文献 [1]蒋先进,邢艳阳,肖培龙编.北京市轨道交通首都国际机场线 CBTC信号系统采用的波导管布置原则[J].铁路通信信号 3温度冲击试验 3.1 裂缝波导管和天线罩温度冲击试验 按国军标环境条件做温度冲击试验 试验内容:高温+70 ̄C,低温一55 ̄C,保温30分钟,循环次数 25次。 工程技术,2007,4(4):53-54 [2]涂志诚编.无缝线路铺设施工锁定轨温的确定[J].铁道运 营技术,2007,13(3):10一l1 [3]广钟岩,高慧安.铁路无缝线路[M].北京:中国铁道出版社, 2001 试验结论:完好无裂痕。 3.2 裂缝波导管、玻璃纤维布和环氧胶树脂粘结的 温度冲击试验 按国军标环境条件做温度冲击试验 作者简介 安彤(1967-),女,高级工程师,毕业于上海工程技术大学机 试验内容:高温+70 ̄C,低温一55 ̄C,保温3O分钟,循环次数 械工程系,主要从事天线结构技术的研究工作。 25次。 印小忠(1982-),男,工程师,毕业于上海电力学院机电一体 试验结论:完好无气泡和脱落现象。 化专业,主要从事裂缝波导天线等方面的结构工艺研究工作。