您好,欢迎来到尚车旅游网。
搜索
您的当前位置:首页结合CHI统计和改进TF-IDF算法的微博特征项提取

结合CHI统计和改进TF-IDF算法的微博特征项提取

来源:尚车旅游网
ELECTRONlCS WORLD・菇; 萦与琴留 寡 结合CHI统计和改进TF—IDF算法的微博特征项提取 广东工业大学自动化学院严 萌 朱燕飞 郑卜松徐迅 【摘要】特征项是微博话题检测中的重要因素,特征项的提取结果直接影响话题检测计算的复杂度和准确度。本文提出了一种结合CHI方法 和改进TF—IDF算法的方法来提取特征项,从而来降低空间向量的维数。本文考虑到了中文词中存在一义多词或一词多义的缘故,对传统的 归一化TF—IDF算法进行了一些改进,即在计算词的权重时结合了词的语义。通过该算法来提取特征项不仅可以降低建空间向量时的维度, 而且还可以减少话题的重复性,但在计算权重后容易忽略一些有利于分类的低频词,故本文在改进TF—IDF算法的同时还结合了CHI统计方 法.该方法可以发现一些有利于文本分类结果的低频词。故能从一定程度上提高话题检测的准确率和速度。 【关键词】cHI;TF-IDF;特征提取;词频 微博是Web2.053技术基础上实现的一种媒介(social media), 其允许使用者通过Web,Wap以及各种客户端设备及时发送和更新短 文本,微博逐渐成为了人们分享、获取实时信息,发表个人观点的 最普遍的方式。 比较常用的特征项提取方法主要有互信息、文档词频、信息增益、 卡方统计量、文本证据权等,在特征选择方面,美国卡内基梅隆大学的 Yang教授针对文本分类问题,在分析和比较了IG、DF、MI和CHI等方法 后,得出IG和CHI方法分类效果相对较好的结论 ,清华大学李粤等人 提出结合传统的互信息方法和CttI统计方法,使得查全率和查准率都得 到了明显的提高。但CHI方法只考虑单词和类别之间的关系,忽略了单 词与单词之间的联系。这样选择的特性有更大的冗余。在向量空间模型 中,通常使用的权重计算方法是采用TF—IDF方法。在一定的程度上,该 方法是能有效地反映一个特征词的重要程度,虽然该方法可以减少计算 时间,简化提取步骤,但是这种方法没有考虑词与词之间的联系,并且 忽略了低频词。该方法了文本分类的准确性和特征提取。 本文提出的结合CHI和改进TF—IDF算法的方法来对特征项进行 提取,是用改进TF—IDF算法来弥 ̄FCHI方法在特征提取中存在的不 足,从而提高微博话题检测的准确率。 1 CHI统计特征选择方法 CHI统计方法的思想是假设特征项w与类别C之间的关系是类 似于具有一维自由度的X 2分布。w对于C的统计量可计算为: )= 面  ̄(a D- Bc丽)2 (1) 其中,A是包含了特征项w并且还是属于类别c的文档个数,B是 包含特征项w但它不是属于类别c的文档个数,c则是没有特征项,w 可属于类别c的文档个数,D代表既没有特征项w也不属于类别的文 档个数,N是所有的文档个数。 该方法用来衡量类别c之间与类别c之间的关联度。当类别c和 特征项w相互时,有 c)一o 。而当类别c和特征项w的关联性越 强, c)的值就会越大,其价值越大,其识别信息量就越大。  ̄ang口 的研究表明,CHI统计方法是目前最好的特征选择方法 之一。与其他方法相比,分类效果好。大多数中文分类系统都采用 这种方法,可是存在下面几个缺点: (1)CHI统计方法只是考虑到了词的文档频,并无顾及到特征的 词频,故极大的放大了低频词的作用。 (2)特征词的CHI值是将特征词对一个类别的CHI值与其余不同类 别的卡方值做对比,CHI值很可能把对某一特定的类别的贡献低, 而对其它的类的贡献高的特征词给选择出来。 2 TF-IDF及其改进 TF-IDF ̄J0nes嘲首次提出 昙 其计算公式如下常用的计算方法如下 =(2) 其中,m是表示特征词在文档i中出现的次数, M表示文档i中 的总单词数量。 /DF= ( 。1) (3) 其中,N为总文档数,n为包含某项特征词的文档总数。 TF一/DF=TF×/DF (4) 选用传统归一化TF-IDF ̄法来给特征项赋权时,其计算公式如下 x +o-ot) (5) ff,是代表了第i个文本中的第j个特征项, f,代表了特征项J出 现在文本i的频率, ,代表了特征项tU的权重, mn为逆文档频 率,N是代表文档的总数, ,是代表包含了所有t/j53文本数量。 采用传统归一化TF-IDF方法来给特征项赋权时,并没有思考 词语的近义词会在文本集中出现的情形,如果采用该方法给特征项 赋权就忽略了文本中的这种特性,本文在文献 中给出的结合语义 给特征项赋权的基础下改进了传统归一化TF—IDF方法,实现了形式 与词义的结合,其定义公式如下: = (6) 其中,s为文本i中包含得得特征项tq和与特征项 相似度大于y的 特征项的个数之和与特征项t7i的个数的商, “表示包含特征项tq或与 特征项tO的相似度大于y的特征项的文本个数,y是系统设定值。在文 献 中通过对知识的描述语言分析,得悉“知网”的描述知识言可以 用集合与义原、特征结构这两种抽象数据结构来表达,语义的相似计 算方法采用的是基于“知网”中的计算相似度的算法来确定y 0.8。 3基于CHI方法和改进TF-IDF算法的特征提取 获取的总闻News一曲…D一叫, 表示为所有新闻中的第i条新闻。 ̄ ̄}News 分为两个部分,以便于于后面的特征项提取硒r-l嘏,皿丑 皿}慨矗丑1. + -一), 第i条新闻中的所用词语即可以表示 一 ,。— …word  ̄j+zl。 然后取其中一类中的所有不同词 .一{ — , ,按上述 公式(2)得到每个文本中每个词的词频得盯 ={, 。 一 一.,瑚 j, 再计算不属于那一类的所有词的词频得到 一娩 。 j,,用公式 (7)来计算一个类中所有词的CHI值: C1 母 一^ )一NSTn. 一s r. ..a j=== 瓦=了 (7) 公式(6)来计算每个词在每篇文本中所占权重 一 即可得到 每个词的权重和sf 。=耵 + 一,+耵 ,+ 然后结合CHI重新给一个类的所有词赋权,计算公式如下: 。 一 ㈤ 即有一个类中每个词语的权重胛 =妒 . …聊0。 4实验环境 本文的实验数据来自于微博开放平台API,使用网络爬虫技术 获取2015年3月一2O15年4月的微博,将每个微博文本的内容当成一 个部分。利用结合CHI和改进的TF—IDF算法的方法来提取特征项来 电子心界 ・67・ ELECTRONICS WORLD・探索与观察 减少微博文本的维度。电脑系统Window7,RAM 6G。软件用Java编 程,用MATLAB7.0实现结果的对比。 微。实验三:取1900条微博,950条关于《太阳的后裔》和950条与 《太阳的后裔》无关的微博。用CHI方法和本文提出的方法来进行 特征项的选择。表2是3组实验数据的结果对比图。本文根据文献 微平均精确率(micro—averaging precision),被普遍的用于交叉 验证的比较。这里它来比较不同的特征选择算法的效果。图3显示 的是SVM分类器分别采用CHI方法和基于结合CHI和改进的TF—IDF算 法的方法在微博数据集上的micro P曲线。从图3可知用不同方法 分别获取400,800,1200,1600个特征项时SVM分类器的miCFO P值中 可以看出基于基于结合CHI和改进TF—IDF算法的方法提取的特征项 在一定程度上提高了查准率。 表2三组实验数据的结果对比图 5实验步骤与结果 5.1特征项提取流程图 图1微博特征项提取流程图 获取2000关于《太阳的后裔》的微博和2000条与《太阳的后 裔》无关的微博。有sww:{肼 , … lW },SCN=NEWS。 将获得微博数据进行预处理,本文中使用由张华平、刘群等人 设计和开发的ICTCLAS分词系统…对中文微博信息进行分词和词性 标注,然后去掉停用词得到词 =职, … }。把获取的微博数据SCN 分为两类一类是《太阳的后裔》和另一类非《太阳的后裔》,取这 两类中的所有不同的词即为 ;{ … } , … }j。再计算每个微 博中每个词的词频即为旺= ,k… },从SCN的一类中取得所 有不同词 E= 城—“ }。 5.2实验结果 表格l是传统的归一化TF—IDF算法与改进的TF—IDF算法对词权 ___一CH● 一基于cHI袖敢进TF.I ●。.●OO 124o ie∞ 特征 瞄良目 图3采用不同方法提取特征的SVM分类器性能比较 重计算的结果。从图2可以得出在改进的TF IDF算法下得到权重都 比传统的算法得到的值大,这是因为我们在计算的时候考虑到了词 语的语义,将近义词归在一起求值。因此改进后的方法可以减少由 词的近义词所引起的误差。提高了计算的准确性。 表1两种方法下计算的词权 6结束语 本文的研究工作是关于文本特征提取,提高特征提取的准确度从而 达到降维的目的。cH1只是关注词与词之间的关系,新的方法提高了特征 项提取的结果。在此基础上,利用支持向量机进行文本分类的准确率达 到了8l_2%,本实验取得了良好的效果,能提高微博话题检测的准确率。 参考文献 f 1 lYang Yi—ming,LIU Xin.Annual International ACM SIGIR Conference on Research and Development in information[J].Annual International ACM SIGIR Conference on Research and Development in Information Retrieval New York:ACM,1999,8(6):42—49. 【21李粤,李星,刘辉等.一种改进的文本网页分类特征选择方法U1 l计算机应用,2004,7(3):1 I9—121. 『3]Yang Yi-ming.An evaluation of statistical approaches to text categorization[J].Information Retrieval,2000,1(1—2):69—9. 【4Uones K s.A Statistical Interpretation of Term Speciifcity and Ics Application in Retrieval[J].Joumal ofdocumentation,1972,28(1):11—21. 【514 ̄L鹏,陈立潮,张英俊,等.结合语义的特征权重计算方法研究U】l 计算机工程与设计,2010,10(10):2381—2383. I6】张敬.网络舆情的热点检测及趋势分析研究 计算机X--程与 设计,2012,9(8):1 56—158. 【7】衣波,陈新.网络舆情信息的话题发现和追踪技术的研究与应 用U1.广东工业大学学报,2013,8(30):58—64. 『8】程奇华,张立臣.信息物理融合系统语义模型分析【I1.广东工业 大学学报,2()1 6,33(03):43-48. 作者简介: 严萌【通讯作者】(1991一),女,硕士研究生,主要研究方 向:微博话题检的学习和研究。 朱燕飞(1976一),女,副教授,研究方向:系统建模、智能 算法分析及控制。 郑卜松(1992一),男,硕士研究生,研究方向:系统建模、 智能算法分析及控制。 徐训(1992一),男,硕士研究生,研究方向:系统建模、智 能算法分析及控制。 图2权重结果对比仿真图 做三组实验,实验一:取1700条微博,850条关于《太阳的后 裔》*N850条与《太阳的后裔》无关的微博。实验二:取1800条微 博,900条关于《太阳的后裔》和900条与《太阳的后裔》无关的 ・68・ 屯子1蟹界 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务