情感化智能网络爬虫设计及实现

known 发布于 2025-08-04 阅读(430)

彭欣悦 范严 徐海峰

摘  要:为了实现文档的情感化抓取,设计了一款应用于网页文档搜索的智能型爬虫软件,相对于一般搜索引擎,更专注于从智能化和情感化角度实现海量Web文本数据的发现和呈现。文章对搜索关键字的智能化语义校正方法进行了研究,对于一些疏忽导致的语义错误,设计相关算法进行自动化校正;实现了搜索文本的情感化排序,搜索结果的返回不仅仅是关键字的匹配,还进行情感分类标注;利用文档的情感标签对一些网络暴力、虚假评论等文档进行文本甄别。

关键词:网络爬虫;搜索引擎;情感分析;主题模型

中图分类号:TP391.3     文献标识码:A 文章编号:2096-4706(2020)23-0097-03

Design and Implementation of Sentimental Intelligent Web Crawler

PENG Xinyue,FAN Yan,XU Haifeng

(School of Math and Computer Science,Jiangxi Science & Technology Normal University,Nanchang  330038,China)

Abstract:In order to achieve emotional crawling of documents,an intelligent crawler software for web document search is designed. Compared with general search engines,it focuses more on the discovery and presentation of massive Web text data from the perspective of intelligence and emotion. This paper studies the intelligent semantic correction method of search keywords,and designs relevant algorithms for automatic correction of semantic errors caused by negligence;realizes the emotional sorting of search text,and the return of search results is not only the matching of keywords,but also the emotional classification annotation;uses the emotional label of the document to distinguish some documents such as network violence and false comments.

Keywords:web crawler;search engine;sentiment analysis;topic model

0  引  言

随着互联网的应用和普及,网络上的文本内容呈现几何数量级的增长,并且存在的形式也是多种多样。大规模的Web文本中蕴含着丰富的情感知识,这些潜在的情感知识需要应用情感分类技术进行挖掘和处理[1]。依托学校的大学生创新创业训练计划项目,结合自己软件技术专业背景,对海量文本数据的情感爬取及搜索算法了进行研究和设计[2]。

现有的搜索引擎可以自动进行网页数据搜取,但搜索引擎只关注内容关联度的排名影响,不能如商品评论一般给出相应的商品总体评价分值,从而限制了用户对搜索内容的预期选择。为了提高网络用户对检索文档的关注度体验,从文本情感分类技术的角度,结合智能化匹配关键字技术,设计了一个情感化的智能网络爬虫软件,可以实现搜索文本的情感分类标签化。

1  研究意义

大数据背景下,对于数据的有效提取和挖掘显得尤为重要。从语义校正角度来搜索网络文本,对网络文本的情感值进行关注,可以提升搜索引擎的文本提取质量,更好地满足所搜即所想的功能,同时,提高搜索引擎的智能化程度[3]。在数据爆炸的时代,情感化的智能网络爬虫研究与设计具有重要意义。

1.1  有利于甄别网络暴力等网络语言

网络暴力事件频发,其对于社会、企业和个人的危害日益受到关注。如何发现网络暴力,从情感分析角度是一个很好的切入点。网络暴力类文档一般情感表现较为激烈,负面情感分值较高。在相关情感分析技术下,对于符合此类情感标签的文本要进行格外的关注。对于舆情的管理和疏导可以提供一定的技术支持和帮助。

1.2  有利于搜索和发现符合语义要求的网络文档

搜索引擎的最大目标是尽可能返回符合用户需要的内容。但在实际的文本搜索中,往往搜索的内容和目标大相径庭。从关键字的语义纠正和返回内容的情感分类,即从源头和结果的获取上进行创新,从新的角度来考量网络文本的价值定位,拓展了搜索引擎的搜索功能[4]。

通过对情感化智能网络爬虫软件的构思、设计和实现,从全新的角度诠释搜索引擎的智能化和人性化。情感发现是一个角度,从中挖掘出其隐含的情感,对于用户来说,多了一个更符合预期的网文搜索途径。尽量让网络搜索更如人意、更近人情,这也是网络爬虫设计所追求的目标。

2  设计方案及算法实现

系统主要包括3个模块:语义校正模块、爬虫搜索模块和情感分类模块。

2.1  语义校正模块

主要考虑2种情况:一是词语的乱序及遗漏,如“遗传算法”写成“传遗法算”“数码相机”写成“数相机”等;二是句子中固定搭配错误,如“价格便宜,速度快”写成“价格快,速度便宜”,利用模糊匹配算法实现语义校正。

算法设计过程为:

(1)利用模糊隶属函数计算乱序或出现遗漏的词语和正确词语的隶属度值,当隶属度值大于一定阈值时,匹配正确词语。公式如式(1)所示:

(1)

其中,μk(w)是词语w属于正确词语k的模糊隶属度,Nw是乱序词单字和正确词语单字匹配正确的个数,Nk是正确词语的长度。

(2)句子成分的搭配错误。如“低价格的平板电脑,屏幕像素高”写成“低价格的屏幕像素,平板电脑高”。利用词频关联、句法分析等技术实现语义校正。利用句法分析,发现词语固定搭配关系,对于句子中的错误搭配关系进行校正。

如“价格很公道”“霸气的外观”的词性标注和依存句法分析分别如图1和图2所示。其中,(价格,公道)和(外观,霸气)是固定搭配关系。通过句法结构分析和词性关系规则识别候选评价对象和情感词,并利用改进的PMI算法进行共现的搭配识别,实现固定搭配关系发现。

规则1:一个单句中满足主谓关系(SBV)或定中关系(ATT)依存结构关系,对应的名词(或动名词)为候选评价对象,对应的形容词为候选情感词。

根据规则1,从图1中可以识别候选评价对象和情感词搭配关系集:

{(价格,公道),(外观,霸气)}

在句法分析的基础上,设计改进的PMI算法来计算评价对象和情感词之间的关系,以获取符合语义要求的候选评价对象和情感词搭配关系。

2.2  爬虫搜索网页模块

建立一个适合多类型网页搜索的引擎系统,它能在较短时间内爬取网页信息,具有有效准确的中文分词功能,并嵌入语义校正和情感排序功能,实现对网上网页数据及文本信息的快速检索展示。

2.2.1  爬虫搜索网页模块主要设计流程

以关键字、词进行网页文本的搜索,结合多种算法进行搜索结果的排序,设计如下:

(1)设定相应网址信息,网络爬虫抓取这个网站,得到所有网页链接。

(2)得到网页的源代码,解析剥离出需要的文本内容,标题、正文和作者等信息。

(3)把所有网页的文本内容做成词语索引,采用倒排索引表方式。

(4)搜索时,根据搜索词在词语索引里查询,并实现语义校正。返回结果的排序方法:

1)按改进的TF/IDF算法。

2)按文本的情感分类算法。

3)按以上2种算法的组合。

2.2.2  爬虫搜索网页关键技术

网页的排名采用了改进的TF/IDF排序算法,利用链接度来反映文档的权重,可以更好地发现关注度高的文档,设计流程如下:

(1)网页文档词语索引采用倒排表索引,利用校正后的搜索关键词可以迅速检索到相应文档,倒排索引示意图如图3所示。

(2)网页排名采用改进的TF/IDF统计。TF是词频(Term Frequency),IDF是逆文档频率(Inverse Document Frequency)。IDF的主要思想是:如果包含词语t的文档越

少,则词语t的IDF越大,则说明词语t具有很好的类别区分能力。TF/IDF是一种用于信息检索与数据挖掘的常用加权技术。TF/IDF统计用以评估一词对于一个文件集或一个语料库中的其中一份文档的重要程度。我们在公式中加入了反映网页链接程度的参数,如果该网页被其他网页链接引用次数越多,说明该网页的重要性越高。改进的TF/IDF统计公式如式(2)所示:

wd(t)=tf·log(n/df)·lg(nl)             (2)

其中,tf是词语t在文档d中出现的频率,n是文档总数,df是包含词语t的文档频率,nl是被其他网页链接引用的次数。

2.3  网络文档的情感分类模块

2.3.1  网页文档集关键情感词的提取

利用LDA(latent Dirichlet allocation)主题模型进行关键情感词提取,可以降低文档的情感词维度,有利于高效率实现情感分类[5]。

LDA模型结构如图4所示,M是文档的数量,N是每个文档中词语的数量,α是文档-主题分布的狄利克雷参数β是主题-词语分布的狄利克雷参数,α和β决定了每个文档中主题分布以及每个主题中词语分布的平滑程度,z和w分别是主题和词语,θ是文档-主题分布。

2.3.2  基于深度学习的情感分类

我们对长短期记忆(long short term memory,LSTM)神经网络进行了改进,提出情感词向量输入的S-LSTM(Senti-ment LSTM)。将文档的关键情感词向量作为输入数据,可以更好地表达文档情感,同时减少直接输入文本或句子词语向量所带来的噪声数据[6,7]。S-LSTM在输出层使用softmax来预测不同主题的情感分类。S-LSTM的结构设计包括输入层、LSTM层、情感主题表示层和输出层。

各层的主要功能和计算公式为:

(1)输入层:LSTM网络的输入层是对应于文档集的关键情感词向量,设定的情感主题个数为m,每个主题包含已排序的词语分布列,取前k个词语为情感关键词,每个情感词语表示为固定大小并预先训练的词嵌入向量。

(2)LSTM层:隐藏层H∈?m×k包含LSTM产生的隐藏向量[h1,…,hm],隐藏层的维度和主题个数相同,用情感主题词嵌入向量和隐藏层状态计算情感词语的注意权重向量eij∈?m×k,如式(3)所示:

eij=wijhij                                    (3)

(3)情感主题表示层:利用情感主题关键词语分布来表示文档主题。将情感语义关联引入主题表示的运算,赋予模型识别词语情感关系的能力,并关注对情感分类产生影响的词语关系,对无关的噪声数据进行过滤。

(4)输出层:用softmax函数计算最后的情感类别,情感类别可设置为5类,分别用分类数值表示。主题表示计算如式(4)和(5)所示:

h=tanh(WpTs+WxhK)                         (4)

y=softmax(Wsh+bs)                         (5)

其中,h是情感主题词向量的表达,hK是主题个数为K时对应的词向量,h∈?m,Wp和Wx是模型训练中的投影参数,Ws是权重矩阵,bs是偏置量参数。

3  结  论

本文基于大数据背景下的网页文本搜索,从智能化和情感化角度提出了网络爬虫软件的新设想,并用Python语言实现了软件功能。软件首先实现了搜索关键字的智能语义校正。词语的顺序、语法错误利用智能化语义纠错和模糊匹配,重组为正确的关键字组合,最大限度地实现了关键字语义符合;然后利用主题模型对文档情感词向量进行了有效降维。利用改进的LDA主题模型提取关键情感词,大大降低海量文本的情感分析维度,实现了大数据背景下的主题情感关键词聚类;最后实现了网页文本的情感标注及排序。搜索结果可以以网址链接或纯文本方式返回,排名顺序利用TF/IDF等算法实现,同时对网页文档进行情感分类,实现基于情感值的网页文档排序。

参考文献:

[1] LIU B. Sentiment analysis and opinion mining [M].San Rafael:Morgan & Claypool Publishers,2012.

[2] 郑秋生,夏敏捷.Python项目案例开发从入门到实战 [M].北京:清华大学出版社,2018.

[3] 吴钰洁,朱福喜,周竞.基于概率图模型的文本情感分析 [J].小型微型计算机系统,2015,36(7):1421-1425.

[4] 宋佳颖,黄旭,付国宏.基于词语情感隶属度特征的情感极性分类 [J].北京大学学报(自然科学版),2016,52(1):171-177.

[5] BLEI D M,NG A Y,JORDAN M I. Latent Dirichlet Allocation [J].Journal of Machine Learning Research,2003,3:993-1022.

[6] 李卫疆,漆芳.基于多通道双向长短期记忆网络的情感分析 [J].中文信息学报 2019,33(12),119-128.

[7] 赵容梅,熊熙,琚生根,等.基于混合神经网络的中文隐式情感分析 [J].四川大学学报(自然科学版),2020,57(2):264-270.

作者简介:彭欣悦(2001—),女,汉族,江西宜春人,研究方向:数据挖掘

标签:  情感 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。