您好,欢迎来到尚车旅游网。
搜索
您的当前位置:首页大数据环境下一种基于学习的实体识别方法

大数据环境下一种基于学习的实体识别方法

来源:尚车旅游网
第5期 李鹏,等:大数据环境下一种基于学习的实体识别方法 DOI:10.16442/j.cnki.qlgydxxb.2016.05.01 1 文章编号:1004—4280(2016)05—0055—04 大数据环境下一种基于学习的实体识别方法 李鹏,王润泽,冯剑龙,薛坤 (齐鲁工业大学信息学院,山东济南250353) 摘要:针对传统实体识别方法的主要研究对象是小数据集并且对结果的准确性关注较高的情况,在大数据 的背景下提出了一种利用Hadoop平台和MapReduce框架的基于学习的实体识别方法。通过对MapReduce框架流 程的分析,运行基于机器学习的算法,并行处理数据集来识别出数据实体。实验表明,该方法提高了实体识别的效 果,具有很好的处理性能和效果,满足了识别海量数据中实体的需求。 关键词:大数据;实体识别;Hadoop;MapReduce 中图分类号:TP301 文献标识码:A An Entity Recognition Method Based on Learning Under Big Data Environment LI Peng,WANG Run-ze,FENG Jian—long,XUE Kun (School of Information,Qilu University of Technology,Jinan 250353,China) Abstract:According to the traditional entity recognition methods,the study is mainly to research the objects which are small data sets,and more attention is paid to the accuracy of the results.This paper presents an entity recognition method based on learning by using Hadoop platform and MapReduce framework under big data environment.Through the analysis of MapReduce process,running the algm’ithm based on machine learning and parallel processing data sets to identify the data entities.And the results of experiments show that this method improves the effect of entity recognition,which has good performance and results and can meet the demand for recognition of huge amounts of data entities. Key words:big data;entity recognition;Hadoop;MapReduce 随着信息技术的不断发展和进步,越来越多的 工业企业进入工业自动化阶段,伴随着工业企业的 不断发展,数据库中产生了越来越多的数据,其中, 结构化数据、半结构化数据甚至非结构化数据…正 以指数级的速度增长,由此构成的大数据环境给企 业处理这些数据带来了越来越多的麻烦。大数据环 多个实体 指向同一实体的现状,同时数据库中存 在数据冗余的现象,实体识别技术可以很好的应用 于这样的环境下,对于企业提高数据利用率、提高数 据处理精度都有很大的帮助。基于大数据的环境 下,提出了一种基于学习的实体识别方法,能够有效 地应用于企业数据处理和融合当中,在某种程度上 可以完成数据去冗余、提高数据处理精度。 境下,企业要对数据进行有效地存储、管理和分 析 ],如何高效率的运用这些海量数据并从中得到 需要的信息已经成为了当前亟待解决的问题之一。 为了解决这种现状,需要对收集到的数据进行 1实体识别技术 在同一个或多个数据库中,同一个数据对象或 数据融合或一定程度的挖掘。针对现实世界中存在 收稿日期:20l6—09一l6 网络出版时间:2016—10—31 基金项目:山东省科技发展计划(2014GGX101052) 作者简介:李鹏(199O一),男,山东泰安人,硕士生,研究方向:云计算与大数据,marspenglee@163.com. 56 齐鲁工业大学学报 第30卷 实体可能有很多种描述形式。由于描述标准不统 一、对信息的语言规范也不一致,导致来自多个数据 2基于学习的实体识别方法 基于学习的实体识别方法的核心在于,在判断 多个数据记录是否匹配前有一个学习的过程,而不 是盲目的去判断其是否匹配。通过学习过程,可以 源的信息描述多种多样,对一个对象或实体的描 述 ]也就出现了差异的情况。随着信息技术和工 业自动化的不断发展,实体识别技术面临着极大的 考验。首先是数据量的不断积累,导致计算量不断 增加,计算难度大、计算效率低成为了当前实体识别 的普遍现状;数据来源广泛 j,数据结构多样化,同 提高实体识别的效率,减少识别过程处理时间,同时 还能提高识别的准确度。换言之,基于学习的实体 时存在冗余 现象;数据之间存在复杂的关系 , 实体或数据对象间的关系有待于去辨别和分析。 实体识别技术是通过计算规则和方法来判断几 个数据记录描述的是否为同一个实体,而实体识别 的目的就是从多个数据源中识别出描述的同一对象 或实体。实体识别技术对于数据清洗 、数据去冗 余、优化处理、数据挖掘、信息检索和数据库管理等 方面都起着十分重要的作用。 表1所示为同一个实体直接无碱粗纱在一个数 据库中的不同描述,有的数据是缺失的,还可能出现 错误的现象。 表1实体举例 假设尺和Ls分别为两个不同的数据集, 是识 别函数(用它来计算数据记录描述的是否为同一个 实体),0是合并函数(通过某种规则把数据记录合 并成一个记录并且对整个数据库不产生影响), 是实体识别后产生的新的实体数据集。 对于几个数据记录,i, 分别表示某一个数,其 中0<i<n,o<j<rt且i≠.『,e 和ei分别表示n个数据 记录中的某一个数据记录。所以,对单个数据集 的实体识别过程可以简单描述为: 所有e ,ef,(e ∈R)^(e R)^ (e ,e ) =R—e ̄-ej+O(ei,e )。 (1) 对于数据集 和.s,其实体识别过程可以简单 描述为: 所有e ,ej,(e ∈R)^(ei∈S)八 (e ,ej) =R+S-e —ei+O(e ,e )。 (2) 根据不同的结构和框架,多个数据集的实体识 别也可以表示成这样的描述形式。 识别过程,把识别过程看作是一个分类问题,即把所 有的数据分成一个个的数据对,然后利用一个分类 器来判断记录对是否匹配。 基于学习的实体识别的算法可以描述为: Stepl:从数据集中挑选出两个小部分数据作为 训练数据集,进行预处理并计算其笛卡尔积组成数 据对。训练数据集主要用来训练分类器。 Step2:根据 (3≤k<10)个匹配函数计算训练 数据集数据对的相似度,根据相似度结果训练并生 成分类器。 Step3:对测试数据集进行预处理并计算其笛卡 尔积,形成数据对形式,并由k个匹配函数计算相 似度。 Step4:由相似度结果,应用到Step2生成的分类 器中并生成实体识别结果。 基于学习的实体识别的整个过程,可以简单地 描述为两个阶段:第一阶段是训练阶段,第二阶段是 应用阶段。其中,训练阶段主要是对训练数据集进 行预处理,根据k个匹配函数计算每一个数据对的 相似度,然后根据相似度计算和是否匹配的结果来 生成分类器,即生成了一个分类模型。应用阶段主 要是将剩下的数据作为测试数据集,经过预处理和 相似度值后将结果应用到分类器当中,随后就会生 成最终的识别结果。简略流程图参照图1。 第二阶段:应用阶段 图1基于学习的实体识别工作流程图 通过利用MapReduce框架 能够快速分组的 优势,将输入的所有的数据对按照key值部分是否 第5期 李鹏,等:大数据环境下一种基于学习的实体识别方法 57 相同进行快速分组,能够明显提高整个处理过程的 效率。其中,对Map函数和Reduce函数可以自定 义。经过Split之后的每一条数据记录都会调用一 次Map函数,其中,isEntity()函数用来检查输人的 每一个数据记录是否符合该实体的定义。只有满足 函数定义的数据记录,才可以被Map函数输出。 Map函数可以定义为: Map(Key key,Value value) for each item i in DataSet{ i=0; if isEntity(value,i.getIn ̄o())=:1 Emit(i.getKey(),i.getValue()); i++: } Reduce函数是对Map函数的输出进行处理。 经由Reduce函数处理的key.value会由一个Reduce 进程来处理,以此保证每一个key.value都不会被重 复处理。然后,Reduce过程会将同一类的记录输 出。Reduce函数可以定义为: Reduce(Key key,Value value){ List sum=new List(); while(values.hasnext()){ Sum.add(values.next().getValue()); } Emit(key,sum); } 经过对数据记录的处理,利用MapReduce的实 体识别模拟效果如图2所示。 图2 MapReduce用于实体识别的模拟效果图 3实验与分析 实验环境是基于Hadoop一2.7.2的平台,主要有 1个主节点和5个从节点;同时,利用了CentOS、 VMware、RedHat、JDK、Xmanager等工具进行实验。 所用的电脑处理器为Intel(R)Core(TM)i5—240o CPU@3.10 GHz,内存16.00 GB,64位操作系统。 通过将Hadoop搭建在Linux环境中,对主从节点进 行配置,并成功启动了Hadoop集群。实验数据主要 来源于某制造企业的两个数据集尺和S,其中 中 有14 458条数据,S中有26 492条数据。 为了评估算法的精确性,将基于学习的实体识 别算法与基于规则的实体识别算法进行对比,采用 准确率、召回率和F1 Measure来衡量识别结果。一 方面,选用商品、原材料和员工信息三类数据集作为 实体进行实验。以商品这一数据集为例,将商品名 称、商品编号和销售价格这三个字段作为key,整条 数据记录作为value,形成<key,value>键值对形式。 另一方面,选择实验集群中的某一个节点作为单机 处理数据集的环境,分别测试在其他节点数下的处 理数据的时间。实验结果如图3和图4所示。 图3 F1 Measure比较 从节点数/个 图4不同节点数下的完成时间和加速比 图3所示为在固定某一类别的数据集的条件下 分别测试两种方法得到对应的F1 Measure,通过对 比发现,基于学习的方法略占优势。图4所示为固 定一定数量的数据集的条件下,测量基于学习的方 58 齐鲁工业大学学报 第30卷 法在不同节点数的情况下识别过程的完成时间和加 速比,通过曲线的走向,可以得出该方法具有很好的 处理效果和性能。由此,可以得出,所提出的基于学 参考文献: [1]LUO W,LI N.Application of unstructured data processing and aria— lyzing base on chinese in digital data evidence collecting[J].Inter- national conference on compu ̄r engineering&technology,2010, 7:780—783. 习的实体识别方法具有较快的处理速度和较高的识 别率,能够很好地运用于具体的应用中。 [2] EMANI C K,CILLOT N,NICOLLE C.Understandable Big 4总结与展望 基于大数据的背景,提出了一种基于学习的实 Data:A survey[J].Compu ̄r Science Review,2015,17(8):7O 一81. [3] ELMAGARMID A K,IPEIROTIS P G,VERYKIOS V S.Duplicate 体识别方法,该方法能够充分利用Hadoop平台和 MapReduce框架,然后结合基于学习的算法,并行处 理数据集来识别出数据实体。实验表明所提出的方 法在一定程度上提高了实体识别的效果,具有很好 的处理性能,可以满足识别海量数据中实体的需求。 随着工业化的不断进步和发展,越来越多的机器设 备和传感器会源源不断地产生更多用传统方式难以 量化的数据,这对处理数据的技术提出了更加严格 和更高的要求,对企业数据库存储和处理也提出了 更大的挑战。下一步的研究中,需要尽可能寻找出 更加高效和智能的处理平台,同时研究和创新出更 多的算法和数学模型以保证更好地提高实体识别的 效率和效果,以期为更多的企业提供优质高效的数 据处理服务。 record detection:A survey[J].IEEE Transactions on Knowledge& Data Engineering,2007,19(1):1—16. [4] NADEAU D,SEKINE S.A survey of named entity recognition and clsasiifcation[J].Lingvisticae Investigationes,2007,30(1):3—26. [5] SAHA S,EKBAL A.Combining multiple classifiers using vote based classiifer ensemble technique for named entity recognition [J].Data&Knowledge Engineering,201 3,85(8):15-39. [6] ARASU A,RE C,SUCIU D.Large—Scale deduplication with con— straints using dedupalog[J].Shanghai:IEEE International Confer- ence on Data Engineering,2009:952—963. [7] RITTER A,CLARK S,MAUSAM,et a1.Nmned entity recognition in tweets:an experimental study[J].Conference on Empiircal Methods in Natural Language Processing,201 l,61(3):1524 —1534. [8]YANG G H,LI N N,WANG H Z,et a1.The optimization ofthe big data cleaning based on task merging[J].Chinese Journal of Com. puters,2016,39(1):97—108. [9]DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters[J].Conference on Symposium on Operating System Design&Implementation,2004,51(1):107一l13. I责任编辑:娄峰,校对:张云瑞) 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sceh.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务