您当前所在位置: > 爆料站 > 有深度

每天上千条文本过时,累死志愿者的维基百科被MIT最新AI接手啦!

时间:2020-03-31 16:52:46  来源:  作者:网络

原标题:每天上千条文本过时,累死志愿者的维基百科被MIT最新AI接手啦!

大数据文摘出品

来源:MIT

编译:Iris、钱天培

维基百科作为一个开放协同式的百科网站,是全世界最受欢迎的十大网站之一。目前,维基百科已经累积了超过上百万个词条

由于事实发生变更,每天有千上万的文章需要及时更新。编辑工作涉及文章扩展、重大改写,或诸如更新数据、日期、人名和地点等例行修订。现在,这项任务由世界各地的志愿者维护着。

幸运的是,MIT的一项最新研究成果有望大大减轻志愿者的维护压力。

在今年AAAI人工智能大会上,MIT的几位研究者提出了一个文本生成系统,该系统能精确定位维基百科句子,还能用近似人类的编写方式替换句子中特定的信息

人们只需要在某个界面输入简短的语句,指出信息变更,这一系统就能自动检索维基百科,定位到具体的页面和过时的语句,再以人类的方式重写该语句。

研究者也提到,未来可以构建一个全自动化的系统,通过识别和运用网络上最新的信息来生成维基百科语句需要重写的句子。

论文合著者之一的Darsh Shah,一位来自计算机科学与人工智能实验室(CSAIL)的博士生表示,“维基百科的文章一直都有大量的更新工作,如果能减少或没有人工干预的情况下,实现自动、准确地修订文章,那会非常有价值。不再需要耗费大量人力来修订维基百科的文章,只需几个人便即可搞定,因为模型可以自动完成,这是巨大的提升

事实上,已经有许多其他的机器人能自动编辑维基百科。Shah提到,这些工具一般被用来减少破坏性信息,或是去除预定义模板的狭义界定信息。

他指出,他们的新模型解决了人工智能的一个棘手问题:给定一个新的非结构化信息,模型会像人一样自动修订语句

“其他的机器人更多采用基于规则的方法,然而自动修订则是要能够判别两个句子中矛盾的部分,并生成连贯的文本。”

论文合著者和CSAIL研究生Tal Schuster提到,系统还可以使用其他的文本生成应用。论文中,研究者使用流行的事实核查数据集自动合成语句,来减少偏差,也无需人工收集额外的数据。Schuster表示这种方式可以改善自动化事实核查模型,比如,训练数据集检测虚假新闻。

Shah、Schuster、德尔塔电子电气工程与计算机科学Regina Barzilay教授以及CSAIL的一位教授一起合著了这篇论文。

“中立屏蔽”

依托一系列的文本生成技术,系统得以识别句子的矛盾信息,并将两个独立的句子融合在一起。将维基百科文章中“过时”句子和“声明”句子作为输入,声明句子包含了更新和冲突信息。系统会依据声明句子自动删除和保留过时句子中的特定词,并在不改变样式和语法情况下更新句子的事实。这对人来说很容易,但对机器学习而言具备挑战。

举例来说,如果要将“费德勒有19个大满贯”更新为“费德勒有20个大满贯”。依据声明句子,在维基百科找到“费德勒”,将过时数据(19)替换为新数据(20),并保留句子原有的句式和语法。在他们的工作中,研究者只用到维基百科部分句子的数据集来运行该系统,而无需访问百科所有的页面。

系统采用包含句子对的流行数据集来进行训练,每个句子对包含一个声明和另一个相关的维基百科句子。每个句子对会被标记为三种状态:同意、不同意、中立

“同意”代表句子之间包含的事实信息一致。“不同意”代表两个句子之间存在矛盾的信息。“中立”代表没有足够的信息来判别是否同意。系统依据声明改写过时句子之后,所有标记为不同意的句子将变为同意状态。这需要两个独立的模型来得到期望的结果。

一个模型是事实核查分类器,预训练的时候需将每个句子标识为“同意”、“不同意”、“中立”,主要用于找出存在矛盾的句子对。

与分类器一起运行的还有一个自定义的“中立屏蔽”(neutrality masker)模块,用以鉴别过时句子中哪些单词与声明句子相矛盾。该模块删除尽可能少的单词以达到“最大化中性”,即句子可以被标记为中性。

也就是说,如果把这些词屏蔽后,两个句子将不再存在矛盾信息。我们对过时语句构建了一个二进制的“遮蔽”模块,0代表可能需要删除的单词,1代表同意保留的单词。

遮蔽后,我们使用一个“双编码—解码”框架(two-encoder-decoder framework)生成最终的输出句子。模型会学习声明句子和过时句子的特征。与此同时,采用“双编码—解码”过程来融合声明中相矛盾的单词:先删除过时句子中包含矛盾信息的单词(即被标记为0的单词),而后填补更新过的单词。

在一项测试中,模型的测试结果超越了所有传统方法,测试使用一种名为“SARI”的方法比对机器删除、增加和保留句子与人类修订语句的差异。

与传统文本生成方法相比较,新模型能更准确地更新事实信息,输出句子更加接近人类编写的结果。

在另一项测试中,众包人员对模型生成的句子进行打分,主要是对事实更新准确性和语法匹配程度来打分,分值区间为1到5分。模型“事实更新”的平均得分为4分,“语法匹配度”的平均得分为3.85分。

数据增强,消除偏差

研究也表明,该系统可以用增强数据集来训练“虚假新闻”鉴别器,起到消除训练偏差的作用。

虚假新闻”用虚假信息的宣传形式来误导读者,从而获取更多的网络浏览和引发公众舆论。

判断虚假信息的模型通常需要很多“同意-不同意”的句子对作为数据集。

在这些句子对里,声明要么包含与维基百科给定的“证据”句子相匹配(同意)的信息,要么包含由人工修订后与证据句子相矛盾的信息(不同意)。模型经过训练可以将与“证据”相矛盾的句子标记为“错误”,从而鉴别虚假信息。

不幸的是,Shah认为这些数据集势必存在偏差。“在训练期间,在缺少足够相关‘证据’语句的情况下,虚假信息中的某些短语也会让模型轻易发现‘漏洞’。在评估真实语句实例的时候,这会降低模型的准确性,没法起到有效的核查作用。”

研究者在维基百科项目中使用了同样的删除和融合技术来平衡数据集中的“不同意-同意”对,以缓解偏差。对一些“不同意”句子对,他们使用修正语句中的错误信息来为句子重新生成一个假的“证据”。若揭示性短语在“同意”和“不同意”句子中都存在,模型就能够辨别更多的特征。使用增强后的数据集,研究将虚假鉴别器的错误率减少了13%。

Shan强调,“如果在你的数据集中存在偏差,那么模型往往会失真。因此,数据增强非常有必要。”

相关报道:

https://www.csail.mit.edu/news/automated-system-can-rewrite-outdated-sentences-wikipedia-articles游戏网

相关下载

玩家评论

入朝时他是兵团司令,第二年升志愿军副司令,第三年当志愿军司令_杨勇

原标题:入朝时他是兵团司令,第二年升志愿军副司令,第三年当志愿军司令 1951年,在杨得志兵团入朝作战之前,周总理特别接见了杨得志,总理说,将来杨勇和杨成武都详情>>

阅读: 0
日期: 2020-03-28
澳籍华人女子返京后拒绝隔离外出跑步,面对志愿者大喊“骚扰”

原标题:澳籍华人女子返京后拒绝隔离外出跑步,面对志愿者大喊“骚扰” 来源:凤凰网视频 近日,一段国外返京女子不隔离外出跑步视频引发热议。 据了解,该详情>>

阅读: 1
日期: 2020-03-24
“小老板”志愿战“疫”

原标题:“小老板”志愿战“疫” 3月17日9时,在南昌市西湖区桃花镇十里村党群服务中心,一名戴着党员突击队袖标的志愿者认真地帮邓桂英老人把申请好的详情>>

阅读: 3
日期: 2020-03-23
受阅老兵吕品:三次参加阅兵仪式,三次的自豪与光荣_志愿军

原标题:受阅老兵吕品:三次参加阅兵仪式,三次的自豪与光荣 央广网10月22日消息(周长青 雷斌 鲁世联)照片中的老人叫吕品,是这次参加中华人民共和国成立70周年详情>>

阅读: 8
日期: 2019-10-22
点赞!福永为12名优秀志愿者免费体检

原标题:点赞!福永为12名优秀志愿者免费体检 为倡导志愿服务精神,积极为志愿者谋福利,呼吁更多人加入公益。10月19日,深圳市宝安区福永人民医院为福永详情>>

阅读: 5
日期: 2019-10-20
抗美援朝中国志愿军,创下这项纪录,几十年间无人打破

原标题:抗美援朝中国志愿军,创下这项纪录,几十年间无人打破 “雄赳赳气洋洋,跨过鸭绿江”。我们这一代人听闻朝鲜战争都是从这首歌开始的,我总是记得爷详情>>

阅读: 14
日期: 2019-09-05
朝鲜战争停战谈判现场,外国记者拍下志愿军总司令彭德怀入场瞬间

原标题:朝鲜战争停战谈判现场, 外国记者拍下志愿军总司令彭德怀入场瞬间 板门店谈判,也称作朝鲜门店谈判。停战协议的签订,代表着朝鲜战争的结束,即美详情>>

阅读: 9
日期: 2019-09-05
志愿军最痛恨的武器,打掉一辆立大功,打掉三辆当英雄!

原标题:志愿军最痛恨的武器,打掉一辆立大功,打掉三辆当英雄! 在抗美援朝战场,作为我军第一场真正意义上的非对称作战,对于第一线官兵来说,最痛恨的莫过于详情>>

阅读: 4
日期: 2019-09-05
志愿军换全套美军装备会怎样?38军113师给我们演示了一次

原标题:志愿军换全套美军装备会怎样?38军113师给我们演示了一次 经常有人说,如果在抗美援朝战争中,志愿军的装备水平能达到美军的水平,甚至只要有美军详情>>

阅读: 3
日期: 2019-09-05
王学风:志愿军一级战斗英雄

原标题:王学风:志愿军一级战斗英雄   新华社合肥6月16日电(记者鲍晓菁)“共和国的英雄,哪里才是你的家?”——2018年2月10日,《解放军报》刊载了为志愿详情>>

阅读: 17
日期: 2019-09-05
抗美援朝:当美国的俘虏被问怎么被抓的,他们给出的答案让志愿军大笑

原标题:抗美援朝: 当美国的俘虏被问怎么被抓的, 他们给出的答案让志愿军大笑 中国人民志愿军人朝参战,第一次战役就取得了歼敌1.5万余人的胜利。这详情>>

阅读: 2
日期: 2019-09-05
志愿军最惨烈的牺牲,美军向其遗体敬礼

原标题:志愿军最惨烈的牺牲, 美军向其遗体敬礼 1950年冬,中国人民志愿军第九军团的第20军、第26军和第27军与美国海军陆战第一师狭路相逢,这场战斗交详情>>

阅读: 4
日期: 2019-09-05
外国人到底怎样评价志愿军?这九段话最有代表性

原标题:外国人到底怎样评价志愿军? 这九段话最有代表性 2016年6月25日,朝鲜战争爆发66周年;2016年10月25日,志愿军参加抗美援朝战争66周年。66年弹指详情>>

阅读: 16
日期: 2019-09-05
抗美援朝战场上美国大兵最怕志愿军什么?就三个字

原标题:抗美援朝战场上美国大兵最怕志愿军什么? 就三个字 看过抗战影片的老铁们都知道,每当八路陆军新四军吹响冲锋号时,不管身处何地,形势如何,伤重与详情>>

阅读: 10
日期: 2019-09-05
志愿军打败美国后,日本反应最大:这还是当年的中国军队吗

原标题:志愿军打败美国后, 日本反应最大: 这还是当年的中国军队吗 众所周知,二战时期日本曾经给中国带来了巨大的灾难和创伤,这是怎么都无法弥补和被详情>>

阅读: 4
日期: 2019-09-05
口述历史|李纯:一张特殊的邀请函道出“志愿军病房”鲜为人知的故事

原标题:口述历史|李纯:一张特殊的邀请函 道出“志愿军病房”鲜为人知的故事   编者按:百年协和的历史与文化在中国现代医学史上犹如一颗璀璨的明珠详情>>

阅读: 13
日期: 2019-09-05
王毅祭扫安州中国人民志愿军烈士陵园

原标题:王毅祭扫安州中国人民志愿军烈士陵园   新华社平壤9月3日电(记者江亚平 程大雨)正在朝鲜访问的国务委员兼外交部长王毅3日专程前往平安南详情>>

阅读: 3
日期: 2019-09-03
夜读|人生的志愿,我要我觉得

一则“亳州一中8名考生考上清北却不上”的消息,变成了从涉事学校高调宣传到清北否认的反转连续剧,也让很多人重新感受了一把被“选学校还是选专业”支配的恐惧。  上自己详情>>

阅读: 10
日期: 2019-08-19
哈工程志愿者走进志刚小学开展志愿服务

  东北网8月5日讯(记者 杨帆) 近日,哈工程大学志愿服务分队赴航天英雄翟志刚母校——齐齐哈尔市龙江县志刚小学,开展志愿服务活动。  哈工程志愿者走进志刚小学开展志愿服详情>>

阅读: 8
日期: 2019-08-05
明星志愿电视剧 破次元壁玩转萌宅腐

文章简介:明星志愿电视剧破次元壁玩转萌宅腐,去年9月上线的手游《阴阳师》开服不久便迅速引爆二次元圈层,甚至吸引了很多大众用户和非游戏用户玩家。据说最近阴阳师又举办了首详情>>

阅读: 12
日期: 2019-06-11
填了专科的志愿后还可以填本科的征集志愿吗,如果...

Game234问答中心有网友提出了一个比较有代表性的问题【填了专科的志愿后还可以填本科的征集志愿吗,如果...】,【填了专科的志愿后还可以填本科的征集志愿吗,如果...】具体问题如下:填了专科的志愿后详情>>

阅读: 0
日期: 2019-04-16
高考报志愿申请退档后可以填报征集志愿吗

Game234问答中心有网友提出了一个比较有代表性的问题【高考报志愿申请退档后可以填报征集志愿吗】,小编觉得可能对其他网友也有帮助,所以将此问答整理出来了,希望对您有帮助。小编为您搜罗的答案1你申请退详情>>

阅读: 6
日期: 2019-04-16
高考填志愿中提到的二次征集志愿是什么意思啊?

Game234问答中心有网友提出了一个比较有代表性的问题【高考填志愿中提到的二次征集志愿是什么意思啊?】,小编觉得可能对其他网友也有帮助,所以将此问答整理出来了,希望对您有帮助。小编为您搜罗的答案1二详情>>

阅读: 2
日期: 2019-04-16
什么是征集志愿,平行志愿?

Game234问答中心有网友提出了一个比较有代表性的问题【什么是征集志愿,平行志愿?】,小编觉得可能对其他网友也有帮助,所以将此问答整理出来了,希望对您有帮助。小编为您搜罗的答案1a平行志愿是指考详情>>

阅读: 0
日期: 2019-04-16
请问第一次如果没填志愿,第二次征集志愿的时候还可...

Game234问答中心有网友提出了一个比较有代表性的问题【请问第一次如果没填志愿,第二次征集志愿的时候还可...】,【请问第一次如果没填志愿,第二次征集志愿的时候还可...】具体问题如下:请问第一次如详情>>

阅读: 10
日期: 2019-04-16
《明星志愿3》全CG存档游戏辅助下载

中文名称:明星志愿3发布日期:2007-01-01更新日期:--文件大小:--游戏语言:英文英文名称:StarDream3游戏制作:大宇资讯游戏发行:SoftStar上市时间详情>>

阅读: 4
日期: 2019-03-28
明星志愿系列游戏大全_明星志愿游戏介绍_明星志愿系列游戏合集

导读《明星志愿》是中国台湾大宇资讯开发的的系列模拟经营养成游戏,于1995年03月上市。游戏是以详情>>

阅读: 9
日期: 2019-03-22
2016年高考志愿填报指南

当2016高考成绩公布后,考生们一定会对高考志愿而发愁。无论你的高考成绩分数多详情>>

阅读: 4
日期: 2019-03-21
明星志愿3全CG存档

明星志愿3全CG存档补丁类型:存档补丁语言:简体中文更新时间:2010/09/1915:13:10补丁大小:3.0KB游戏标签:剧情养成恋爱最大安装游戏后复制SAVE文件夹到游戏目录普详情>>

阅读: 5
日期: 2019-03-16
【iPhone高考志愿填报软件下载】ios2015高考志愿填报软件_苹果高考志愿填报指导软件

考填报志愿是一个非常重要的环节,小编听很多人说,高考难,填志愿更难,怎样才能填好志愿呢,小编整理了一些高考志愿填报软件的合集。也许能帮到你,它通过模拟的方式,让你对填志详情>>

阅读: 0
日期: 2019-03-02
[明星志愿:星之守护] 明星志愿星之守护青梅竹马陆昱杰攻略篇 详解怎么玩

?Hi~o(* ̄▽ ̄*)ブ各位超级巨星,小编的男神攻略讲堂今日开讲啦啦啦~(≧▽≦)/~,万众瞩目普天同庆,今天小编来讲玩与女主角是小学到高中时期的青梅竹马详情>>

阅读: 12
日期: 2018-11-23
[明星志愿:星之守护] 明星志愿星之守护学长韩宇齐攻略篇 详解怎么玩

?Hi~o(* ̄▽ ̄*)ブ各位超级巨星,小编的男神攻略讲堂今日开讲啦啦啦~(≧▽≦)/~,万众瞩目普天同庆,今天小编来讲与女主角学生时期熟识的学长,从韩国红详情>>

阅读: 14
日期: 2018-11-23
明星志愿3追苏嫚君的攻略

小编为您搜罗的答案:*缦君的加入* 1.选择先去开门 2.陈奕夫在旗下,会主动提起,选“大家见个面谈谈也好”,签约金50万*2006* 1.先欢迎她的加入吧!(根据pananhui大大提供,好感度可详情>>

阅读: 6
日期: 2018-09-18
明星志愿3 SD回归事件

小编为您搜罗的答案:  先把攻略贴给你  SD相关事件:  恩怨  1(新闻)第一年2月,“新人横扫排行榜!SD最新专辑首周入榜就冠军”。  2(场景)上个事件后,第一年4月前,前往电视台,看到记详情>>

阅读: 11
日期: 2018-09-18
明星志愿3 安装中source pathname 怎么填

小编为您搜罗的答案:sourcepathname,是资源路径的意思一般就是在后边打上源文件的路径,当然也有可能是安装路径。详情>>

阅读: 1
日期: 2018-09-14
2016_《明星志愿星之守护》王奕(饰路敏)推荐

2016_《明星志愿星之守护》王奕(饰路敏)推荐详情>>

阅读: 0
日期: 2018-09-07
APP攻略:高考志愿报什么大学哪个专业好?

高考终于考完了!填志愿又成为了考生们的一大烦恼。到底报考什么大学、报考什么专业好?填志愿到底怎么填?其实... 详情>>

阅读: 7
日期: 2018-09-04
 揭露APP志愿填报内幕:号称“AI+大数据”,实则暗藏大坑

【猎云网北京】6月22日报道(文/前哨)“按照平时模拟成绩,考550分以上根本不成问题,但是去哪个城市、学什么专业,我也很迷茫,一点头绪都没有。”6月8日下午高考落幕,刚刚从考场出来的文科考生王详情>>

阅读: 1
日期: 2018-09-04
明星志愿3攻略

小编为您搜罗的答案:  以下是花了点时间整理出来的攻略欢迎大家一起补完  寻找理想的艺人  ●林芬芬●  1.游戏一开始片头后,选择接电话  2.2代男主角林立翔会要玩家好好照顾林芬芬  3.详情>>

阅读: 2
日期: 2018-08-30
明星志愿3里萧依莉 攻略

小编为您搜罗的答案:两轮的意思就是你要把游戏完整的玩穿两遍。第一轮她必然会死,当你玩第二遍游戏时她才会有复活的可能。萧依莉第一轮攻略1.依莉为初始艺人,在加入公司后,大约3月时,莉玲会跟你说依莉去医院详情>>

阅读: 4
日期: 2018-08-29
精彩推荐