首页 欧洲联赛正文

张梓琳,谷歌发布含 7 种言语的全新数据集:有用提高 BERT 等多言语模型使命精度高达 3 倍!,失眠

雷锋网 AI 开发者按:近来,谷歌发布了包含 7 种言语释义对的全新数据集,即淘金时代全集在线观看:PAWS 与 PAWS-X。BERT 经过该数据集的练习,在释义对问题上的精度完结了约为 3 倍的进步;其它先进的模型也能够运用该数据集将精度进步到 85-90%。谷歌期望这些洋媚子数据集将有助于推进多言语模型的进一步开展,并发布了相关文章介绍了该数据集,雷锋网 AI 开发者将其收拾编译如下。

布景环境

词序和句法结构对语句含义有很大影响,即使词序中的一点小改动也能彻底改动语句的意思,例如下面的一组语句:

  1. Flights from New York to Florida.(从纽约飞往佛罗里达州的航班)
  2. Flights to Florida from New York.(从纽约出发到佛罗里达州的航班)
  3. Flights from Florida to New York.(从佛罗里美纱达州飞往纽约的航班)

虽然这三个词都有相同的词组;可是 1 和 2 具有相同的含义,咱们将这样的一组语句对称为释义对(paraphr人权律师ase pairs),而 1 和 3 有彻底相反的含义,所以咱们将其称为非释义对(non-paraphrase pairs)。辨认一对语句是否为释义对的任务则被称为释义辨认,这一任张梓琳,谷歌发布含 7 种言语的全新数据集:有用进步 BERT 等多言语模型任务精度高达 3 倍!,失眠务关于许多实践运用中的自然言语了解(NLU)处理而言是非常重要的,例如:常见的问答任务等。

但令人惊奇的是,现在即使是最先进的模型,如:BERT,假如仅在现有的 NLU 数据集下进行练习,并不能正确地辨认大部分非释义对(就像上面所罗列的 1 与 3)之间的差异。其间很大的原因是由于在现有 NLU 数据会集,短少诸如此类的练习数据。因而,即使现有的机器学习模ggdb我国官网型能够很好地了解杂乱的胡大宝vs赤手温顺上下文短语,它们仍旧很难具有对该类任务的判别能力。

PAWS 数据集与 PaWS-X 数据集

为了处理这一问题,咱们发布了两个新的数据集,致力于协助社区进行相关的研讨。数据集包含:

  • 支撑英语的释义辨认对抗性数据集 PAWS(Paraphrase Adversaries from Word Scrambling,https蒋静静://arxiv.org/abs/1904.01130)
  • 支撑多言语的释义辨认对抗性数据集 PaWS- X(https://arxiv.org/abs/1908.11828)

其间,PaWS-X 数据集则是在 PAWS 数据集基础上,扩展得到包含别的六种不同类型言语的释义辨认对抗性数据集,支撑的言语包含:法语、西班牙语、德语、汉语、日语和韩语。

这两个数据集都包含了格局杰出、具有高度堆叠词汇的语句对。其间大约有一半的语句对是释义对,另一些则不是,数据集也包含了最先进模型的练习数据。经过新数据的练习,该模型对释义辨认任务的精度从 50% 进步到了 85-90%。

比较之前即使在有新的练习数据时,无法取得非本地上下文信息的模型依然无法完结释义辨认任务的状况;这一新数据集则为丈量模型对语序和结构的敏感性供给了一个有用的东西。

数据集概况

PAWS 绿母族数据调集计包含了 108463 组由人工符号的语句对,这些数据来源于 Quora Question Pairs(QQP,)以及维基百科页面。

PAWS-X 数据集则包含了 23659 组由人工判别而得的 PAWS 扩展语句对,以及 296406 组由机器翻译的练习对。下表给出了数据集的具体计算。

PAWS-X 的练习集是从 PAWS wiki 数据集的一个子集经过机器翻译而来的

支撑英语的 PAWS 数据集

在「PAWS: Paraphrase Adversaries from Word Scrambling」一文中,咱们介绍了在生成具有高度词堆叠的且具有释义性的语句对的作业流程。

为了生成数据对,源语句首要被传递到一个专门的言语模型,该模型将创立具有语义的单词交流变体句,但无法确保生成语句与原句是否互为释义对的联系;接着再由人工裁判员判别语句的语法是否正确,然后由其它人工裁判员来判别它们是否互为释义句。

PAWS 语料库创立作业流

这种简略的单词交流战略存在的一个问题,即它往往会发生不符合知识的「释义句」,例如:「why do bad things happen to good people」和「why do good things happen to bad people」,虽然单词都相同,但「为什么坏事会发生在好人身上」的含义和「为什么功德会发生在坏人身上」彻底不同。

因而,为了确保释义和非释义之间的平衡,咱们增加了其他根据反译的数据信息。由于反译往往体现出与此类办法相反的倾向,它会挑选优先保存语句含义,然后在这基础上改动词序和词语挑选。这两种战略一起确保 PAWS 语料库整体的平衡,尤其是维基百科部分的数据。

多言语 PAWS-X 数据集的创立

在建立了 PAWS 数据集之后,咱们将它扩展出了其它六种言语,包含:汉语、法语、德语、韩语、日语和西班牙语。在这过程中月亮陆景云,咱们采用了人工翻译来完结语句对的翻译扩展和测验集生成作业,并运用神经网络机器翻译(neural machine translation,NMT)服务来完结练习集的翻译。

咱们从六个言语中(合计 48000 组翻译)的每一个 PAWS 扩展集上,随机抽取了 4000 个语句对进行人工翻译(翻译者所翻译言语均为母语)张梓琳,谷歌发布含 7 种言语的全新数据集:有用进步 BERT 等多言语模型任务精度高达 3 倍!,失眠。每一组语句都是独立的,然后确保翻译不会遭到语境的影响,然后再由第二个作业者验证随机抽样子集,终究使得数据集的字级错误率小于 5%。

留意,假如所得语句不完整或不置可否,咱们答应专业人士不翻译。均匀只要不到 2% 的语句对没有被翻译,咱们暂时将它们扫除在外。终究的翻译对被分为新的扩展集和测验集,每个调集大约包含 2000 组语句对。

德语(DE)和汉语(ZH)的人工翻译语句对的比如

运用 PAWS 和 PAWS-X 来了解言语

咱们在所创立的数据集上练习多个模型,并对评价集上的分类精度进行衡量。当用 PAWS 练习强壮的模型后,如 BERT 和 DIN,这些模型对现有 QQP 数据集进行练习时的体现会发生明显的改进。

假如在现有 QQP 上练习,BERT 仅取得 33.5 的精度,可是当给定 PAWS 练习实例时,即运用来自 QQP的 PAWS 数据(PAWS-QQP),它的精度将到达 83.1 。

不过与 BERT 不同,Bag-of-Words(BoW,https://en.wikipedia.org/wiki/Bag-of-words_model)模型无法从 PAWS 李振威营口练习实例中进行学习,这也展现了它在捕捉非部分上下文信息方面的缺点。但整体来看,这些效果都表明晰 PAWS 能够有用地衡量模型对词序和结构的敏感性。

PAWS-QQP 精度评价设置(英文)

下图显现了干流的多言语 BERT 模型(https://github.cfgoc狐om/google-research张梓琳,谷歌发布含 7 种言语的全新数据集:有用进步 BERT 等多言语模型任务精度高达 3 倍!,失眠/bert/blob/master/multilingual.md)张梓琳,谷歌发布含 7 种言语的全新数据集:有用进步 BERT 等多言语模型任务精度高达 3 倍!,失眠在 PAWS X 上运用几顾彦深种常用办法所体现的功能,其间:

  • Zero Shot:该模型运用支撑英语的 PAWS 数据集进行练习,然后直接评价一切其他翻译,这种办法不触及机镇魂街张颌器翻译。(引申:Zero-Shot 翻译则是指在完结言语 A 到私处纹身言语 B 的翻译练习之后,言语 A 到言语 C 的翻译不需求再经过任何学习,它能主动把之前的学习效果转化到翻译恣意一门言语,即使工程师们从来没有进行过相关练习)
  • Translate张梓琳,谷歌发布含 7 种言语的全新数据集:有用进步 BERT 等多言语模型任务精度高达 3 倍!,失眠 Test(翻译测验):运用英语练习数据练习一个模型,并将一切测验用例翻译成英文进行评价。
  • Translate Trjrr托尔金ain(翻译练习):英语练习数据被机器翻译成每种目标言语,以供给数据来练习每一个模型。
  • Merged(归并):在一切言语上练习多言语模型,包含原始英语对和一切其他言语的机器翻译数据。

效果表明,新数据集除了为跨言语的技能供给了协助,一起也留下了很大的地步从而驱动多语种释义辨认问题的研讨。

根据 BERT 模型的 PAWS-X 测验集的精度

数据集下载相关张梓琳,谷歌发布含 7 种言语的全新数据集:有用进步 BERT 等多言语模型任务精度高达 3 倍!,失眠

PAWS-Wiki

该语料库包含从维基百科页面生成的语句对(可直接下载),包含:

  • PAWS-Wik 符号集(终版) 包含从单词交流和反译办法生成的语句对。一切的组别都有释义性和流畅性的人工判别,它们被分为练习/扩展/测验部分。
  • PAWS-Wik 符号集(仅交流) 包含没有反译对应项的语句对,因而该子集不包含在第一组中。但数据集质量很高,包含人工对释义性和流畅性的判别,能够作为辅佐练习集。
  • PAWS-Wik 未符号集(终版) 包含从单词交流和反译办法生成的语句对。但该子会集有噪声符号但没有人工判别,也可用作辅佐练习集。

PAWS-QQP

该语料库包含了从 QQP 语料库生成的对,但由于 QQP 的许可证,咱们不能直接取得 PAWS徐州琴书大全周银侠-QQP 数据,因而有必要经过下载最原始数据,然后运转脚本生成数据并附加符号来重建示例。

重建 PAWS-QQP 语料库,首要需求下载原始的 QQP 数据集,并将 tsv 文件保存到某个方位/path/to/original_qqp/data.tsv;然后从特定链接下载 PAWS-QQP 索引文件。

PAWS-X

该语料库包含六种不同言语的 PAWS 示例翻译,包含:法语、西班牙语、德语、汉语、日语和韩语。概况可经过这儿检查(https://github.com/google-research-datasets/paws/tree/master/pawsx)。

需求留意的是,关于多言语试验,请运用 paws-x repo 中供给的 dev_2k.tsv 作为一切言语(包含英语)的扩展集。

数据集下载地址:

https://github.com/google-research-datasets/paws

原文链接:

https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html

数据集下载地址:

https://github.com/goog伽蓝幻海le-research-datasets/paws

原文链接:

https://ai.googlebl兄长掰弯方案og.com/2019/10/releasing-paws-and-paws-x-two-new.html

雷锋网 AI 开发者

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。