您好,欢迎来到尚车旅游网。
搜索
您的当前位置:首页基于循环神经网络(RNN)和卷积神经网络(CNN)对电子邮件的作者识别

基于循环神经网络(RNN)和卷积神经网络(CNN)对电子邮件的作者识别

来源:尚车旅游网
创新前沿TechnologyInnovationandApplication

科技创新与应用

2018年10期基于循环神经网络(RNN)和卷积神经网络(CNN)对电子

邮件的作者识别

硕,孙瑞彬,李

欣,明晓

(山东科技大学,山东济南250000)摘要:文章针对如何捕获电子邮件的语言特征来识别作者的问题进行了研究建模,首先使用NLTK自然语言处理工具对文本进行了预处理,然后使用Word2Vec和GloVe模型对文本内容进行了嵌入化处理得到了词向量,接着文章使用改进的基于TextCNN的网络架构,使用改进的基于CLSTM的网络架构和提出了一种新的基于循环神经网络(RNN)和卷积神经网络(CNN)的网络架构来解决文章的问题,并且采用集成学习的方法对上述三种单一模型进行模型融合作为最终的模型来识别作者,最终的效果较好。卷积神经网络;词向量;关键词:循环神经网络;Python

中图分类号院TP391

文献标志码院A

文章编号院2095-2945渊2018冤10-0024-02

Firstly,wepreprocessthetextwithNLTKnaturallanguageprocessingtool.ThenweuseWord2VecandGloVemodelstoembedthe

textcontenttogetwordvector.ThenweusetheimprovednetworkarchitecturebasedonTextCNNandanimprovednetworkarchi鄄tecturebasedonCLSTM,andanewnetworkarchitecturebasedonrecurrentneuralnetwork(RNN)andconvolutionalneuralnetwork(CNN)isproposedtosolvetheproblemofanarticle.Andtheintegrationlearningmethodisusedtoidentifytheauthorbyfusingtheabovethreesinglemodelsasthefinalmodel,withagoodfinaleffect.

Keywords:recurrentneuralnetwork(RNN);convolutionalneuralnetwork(CNN);wordvector;Python

Abstract:Inthispaper,westudyandmodelinviewofhowtocapturethelanguagefeaturesofemailtoidentifytheauthor.

1模型的建立

笔迹分析是一种非常特殊的调查形式,用于将人们与书面证据联系起来。笔迹调查人员通常被要求在法庭或刑事调查中,以确定书面样本是否来自某个特定的人。由于许多语言证据现在都出现在电子邮件中,从广义上说,笔迹分析也包括了如何通过电子邮件的语言特征来识别作者的问题。本文基于此使用深度学习的方法建立了相应的模型。其为改进的基于TextCNN的分类模型,改进的基于

CLSTM的分类模型和一种新的基于循环神经网络和卷积

神经网络的分类模型,并且使用集成学习的方法对上述三种单一模型进行融合作为最终的分类结果。(见图1、图圆、图3)

图1改进的基于TestCNN的神经网络架构的分类模型学

习器

图2改进的基于CLSTM的神经网络架构的分类模型学习器

2模型的求解

对于每个单一模型的输入都为用词向量替换的邮件原始正文文本数据的词向量矩阵,模型最终的输出为133维的向量,代表这封邮件属于这133个人的概率本文在训练中使用Ten-foldercross-validation(十折交叉验证)的方法来做数据进行训练和验证。本文所用的数据集大小为255636,首先留出5636个样本作为测试集,剩余的250000个样本分成十份,轮流的将其中九份作为训练数据,1份作为测试数据,进行试验,每次训练都会得出相应的准确率。

-24-

2018年10期TechnologyInnovationandApplication

科技创新与应用

创新前沿图3一种基于循环神经网络(RNN)和卷积神经网络(CNN)的新架构的分类模型学习器

训练集最终准确率94%测试集最终准确率93.36%

图4模型融合后最终的训练集和测试集准确率变化图,训练集误差变化图

10次的结果的准确率的平均值作为最终的准确率,最终来

对算法准确性进行估计。

本文在进行模型训练时根据算法的准确性不断的进行参数的调节,并且使用GTX1080Ti显卡进行足够时间的学习训练,力求使每个模型的准确率达到最高。

由训练集和测试集的准确率变化可知,该模型对于电子邮件作者的识别取得了不错的效果。较单一的传统模型效果更佳,故采用本文的方法能较好的解决该电子邮件识别问题。

3模型的优缺点3.1模型的优点

(1)同时使用了Word2Vec模型和GloVe模型对文本进行了处理得到了原始文本的特征表示,使得模型能够从文本中提取到更加有效的特征来进行文本分类识别。

(2)使用了集成学习的方法来进行模型融合,这种方法相比使用单一的分类模型效果更好。

(3)在验证单一模型的使用的算法的有效性和正确性方面,使用十折交叉验证方法,证实了模型的准确率相对来说较好。

(4)本文创新性的提出了一种新的文本分类识别模型,并且在此文本分类识别问题上取得了不错的效果。

3.2模型的缺点

(1)在模型过程中,可能未找到最优的模型参数值使得模型表现出最好的效果。

(2)因为单一模型的最后是全连接层,需要训练的参数较多,容易出现过拟合,深度模型容易出现梯度消散问题。

3.3模型的改进(1)通过迭代法找到模型表现出最好的效果时的模型参数值。

(2)对通过Word2Vec模型和GloVe模型得到词向量进行L1,L2正则化处理,以提高单一模型的泛化能力,也会使得最终的模型融合的效果更优。参考文献院

[1]lanGoodfellow,Deeplearning[M].Beijing:People'spostandTelecommunicationsPress,2017.

[2]ShaliniGhosh,OriloVinyals,ContextualLSTM(CLSTM)modelsforlargescaleNLPtasks,arxiv.org,2016.

[3]杨静.基于SVM的中文电子邮件作者性别识别技术研究[D].河北农业大学,2007.

[4]聂小尘.电子邮件取证模型及关键技术研究[D].上海交通大学,2011.

[5]马建斌.基于SVM的中文电子邮件作者身份挖掘技术研究[D].河北农业大学,2004.

-25-

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sceh.cn 版权所有 湘ICP备2023017654号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务