专利名称:一种文本分类方法及装置专利类型:发明专利发明人:梁雪春,陈谌,权义萍申请号:CN201810193993.7申请日:20180309公开号:CN108363810A公开日:20180803
摘要:本发明提供一种文本分类方法及装置,其中,所述方法包括:对训练语料库中的文本进行预处理操作,以得到初始特征全集;对所述初始特征全集进行特征选择,形成新的特征全集,并基于所述新的特征全集构造特征向量空间模型,所述特征向量空间模型中包括预设数量的特征项;对所述特征向量空间模型进行聚类,以得到k个类簇的k个中心向量;计算各个类簇中特征项与对应类簇的中心向量之间的相似度,并针对每个类簇,选取类簇中相似度靠前的f个特征项,并将f×k个特征项作为最终的特征项,以用于文本表示。本发明提供的技术方案,能够提高文本分类的精度和效率。
申请人:南京工业大学
地址:211816 江苏省南京市浦口区浦珠南路30号
国籍:CN
代理机构:南京钟山专利代理有限公司
代理人:戴朝荣
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务