注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

雷雳的留言板

www.leili.net

 
 
 

日志

 
 

大数据,大噪音:互联网时代寻找问题网络发布的挑战  

2018-05-24 21:11:27|  分类: 心理学进展趣编 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

大数据,大噪音:互联网时代寻找问题网络发布的挑战

张海丽、雷雳

 

噪音是数据收集中不必要的信息,在大数据时代,学者们专注于分析特定问题的网络内容,尽管研究者们有独特的收集信息的策略以避免噪音问题,可是在大数据时代整理和分析数据更加困难,使用网络爬虫等技术仍然会产生很多的噪音,并且噪音具有的开放性、多样性、分散性、承载能力无限性等特点使其成为公共网络内容的基本特征。

WaldherrMaier等人(2016通过研究美国和德国食品安全问题发布中的超链接网页来评估三种过滤策略——关键字过滤、机器学习分类和提取核心网络的噪音过滤情况。

在进行三种过滤策略评估之前,作者先在美德两国各选取了8个讨论食品安全的代表性的种子源,利用滚雪球方法——网络中连接该网站中的网站,来产生超链接网络。最后得到美国未过滤的网络包含1506个网站,17331个网页;德国未过滤的网络包含1112个网站,16206个网页。

首先,关键字过滤通过索引软件Visual Web Spider进行关键字搜索“食品安全”等词组,并且访问了所有UCL列出来的网站,最后删除不包括关键字的网页来确定相关网页。

其次,机器学习算法是使用RapidMiner来开发文本分类程序,使软件自动导出分类规则。机器学习算法首先进行样本的培养,让工具熟悉相关的德语、不相关德语、相关英语、不相关英语四种分类类别;然后让四位编码人员人工检查网页的随机样本生成预分类文本,最后确定四类文本的数量;第二步是培养分类器,先导入手动分类的文档进行预处理,根据贝叶斯算法创建模型应用于未分类的文档,根据算法来归类文档。最后一步是将统计模型应用于全部的文档,删除无关的网页。

第三,提取核心网络是利用核心网络更加同质,有更多的相关链接,研究人员定义了一个入口阈值作为网络中节点的量度,共同链接(co-link)要求一个节点至少有两个来自核心网络中其它节点的传入链接。对于每个网站,作者都计算了从其它网站传入的链接是否大于2个链接来确定是否属于核心网络。

通过三种方法进行筛选相关的网页,发现核心网络的方法存在的噪音最多,其中美国的网页的中有72%的噪音网页,德国有82%的噪音网页。机器学习算法的方式过滤噪音效果最好,通过机器学习算法,美国的网络中只有43%的噪音网页,德国的网页中只有55%的噪音网页。通过关键字过滤,美国的网络中只有55%的噪音网页,德国的网页中只有67%的噪音网页。

研究发现原始网络中美国存在72%的噪音,德国有90%噪音,说明美国食品安全网络更强大。其次,机器学习算法方法在过滤噪音方面更强大(降低原始噪音的40%),但是和关键字没有显著差异(降低原始噪音的25% ),并且机器学习算法对于处理模糊问题是强大的工具,但是仍然比人为编码的可靠性要低15%;再次,关键字搜索是一种更快速更易实施的过滤策略,但使用软件Visual Web Spider来进行得到的结果是不够精确的;最后可以看出提取核心网络并不是有效方法,它虽然减少网络数量,但是没有增加相关网页。

这篇研究还是存在一些局限,比如本研究只包含一个问题和两种语言背景,未来需要适用于多语言环境;其次,雪球方法可能会产生噪音;最后应该批判对待对于问题相关性的假设和人为编码能最好评估相关性的假设。

 

 

资料来源:

Waldherr A. Maier D. Miltner P. &Günther E. (2016). Big data big noise. Social Science Computer Review 354), 427 - 443.

  评论这张
 
阅读(38)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018