用 AI 侦破 虚假新闻捍卫网络安全

用 AI 侦破

虚假新闻捍卫网络安全


 


亲爱的同学们!在这个信息爆炸的时代,大家每天上网都会接触到海量的新闻,但所看到的新闻终究是有真有假,难以分辨。别慌,我们的实验室一直在努力运用人工智能技术,在虚假新闻检测这片战场上 “披荆斩棘”,守护网络空间的安全与纯洁。今天,就带大家走进我们的研究世界。

虚假新闻在网络上无孔不入,危害极大。它干扰我们获取真实信息,影响大家的判断和决策。不论是社会热点的歪曲报道,还是经济领域的谣言散布,虚假新闻无处不在,严重破坏网络空间的和谐稳定。虚假新闻检测属于内容安全范畴,还和行为安全紧密相关。例如,在检测谣言时,其传播路径、速度等行为特征能为我们提供重要线索。从技术原理来看,主要是对新闻文本进行深入剖析,提取关键信息,转化为数学数据,再借助分类器来判断新闻的真假。



基于统计学习的检测方法



为了有效识别虚假新闻,我们实验室的小伙伴们采用了多种方法去鉴别验证。基于统计学习的检测方法是其中之一。我们收集了 2096 条来自 68 个不同网站的新闻,时间跨度为 2016 年 10 月 26 日至 11 月 25 日,这里面包含 801 条真实新闻和 1294 条虚假新闻。从新闻的众多属性中,我们挑选出 url 和文本这两个关键特征,将它们合并成新特征 “source”,然后利用 tf - idf 词向量技术处理数据。之后,我们选用 SVM、AdaBoost 等多种分类器进行测试,发现 AdaBoost 在这些分类器中表现最为出色。而它具体的测试方法在文本下方展示。



           上图是分析出来的数据特征生成的统计图


首先从新闻众多属性里挑选出对鉴别真假有价值的特征,这一步至关重要。通常会选择 url 和文本这两个特征,把它们合并成新的 “source” 特征。url 能反映新闻的来源网站,可信度低的网站发布虚假新闻的概率更高;而文本内容则是直接承载新闻信息的部分,里面的用词、表述逻辑等都隐藏着真假的线索。比如,虚假新闻可能会频繁使用夸张、情绪化的词汇,逻辑上也可能存在漏洞。

用 tf - idf 词向量技术处理合并后的 “source” 特征数据。tf - idf 技术会评估一个词在一篇文档中的重要程度,简单来说,如果一个词在某篇新闻里出现的频率高,同时在其他新闻里出现的频率低,那这个词对这篇新闻就很重要。通过这种方式,把文本数据转化为计算机能理解的数值向量形式,这样就能方便后续的计算和分析了。打个比方来说,就像是给每篇新闻都贴上了独特的 “数字标签”,这些标签能精准反映新闻文本的特征。

选择合适的分类器来对处理好的数据进行分类,判断新闻的真假。常见的分类器有 SVM、AdaBoost、RandomForest、XGBoost 等。以之前的研究为例,经过测试发现 AdaBoost 的表现最为出色。不同分类器的工作原理不同,SVM 是通过寻找一个最优的分类超平面来划分数据;AdaBoost 则是通过迭代训练,不断调整样本权重,让模型更关注那些难以分类的样本。而在实际鉴别时,就像是不同的 “鉴别专家”,各自有独特的鉴别方法,但 AdaBoost 在众多 “专家” 中脱颖而出。

在实际操作中,我们可以借助 Python 中的 sklearn 库来调用这些分类器。首先要导入相关的资料包,准备好处理好的数据,然后按照不同分类器的使用方法进行设置和训练。如使用 AdaBoost 分类器,设置好相关参数,让它学习真实新闻和虚假新闻的特征模式,之后就可以用训练好的模型去鉴别新的新闻数据啦。




基于多任务学习的检测技术



除了上述方法,我们还运用了基于多任务学习的检测技术。多任务学习就像是让 AI 同时完成几个相关任务,互相借鉴经验,提升整体能力。我们使用的是 LIAR 数据集,里面有 12836 条从 PolitiFact 收集来的新闻,信息十分丰富。在这个检测模型里,我们把新闻主题分类当作辅助任务(源任务),虚假新闻检测作为主要任务(目标任务)。


模型采用深度神经网络架构,利用双向 RNN 结构(其中 GRU 发挥着重要作用)处理新闻文本,再将处理结果交给 attention 结构和后续模块。在数据处理方面,我们运用 Glove 技术 “翻译” 文本,并清洗掉无用信息。整个模型借助 tensorflow 框架和 Python 代码搭建,通过巧妙地将两个任务的损失函数相加,让模型不断优化。如果大家想要尝试的话,可以选择在实训平台上探索这个神奇的模型,感受 AI 的强大魅力。


使用双向RNN结构处理输入的句子文本,使前向和后向的基本单元均为GRU,将获得的输出序列进一步传递给attention结构与后续的结构


对网络安全、人工智能感兴趣的同学欢迎过来交流学习!我们实验室经常组织各类学习交流活动,开展相关的实践项目。无论你是计算机大神,还是对 AI 充满好奇的小白,都能在这里找到属于自己的舞台。加入我们,一起探索人工智能的奥秘,为守护网络空间安全贡献自己的力量。或者你在探索过程中有任何想法或疑问,欢迎随时来实验室找我们交流,让我们携手共进,一起努力学习!






END




供稿说明

编辑丨曹宇晴、徐湘濡、刘蘅仪、梁洪嘉

审核丨谷国信



免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。查看原文

为您推荐