的图像资源并逮捕蕴涵区域特点的场景数据集征求的闭键挑衅是要找到合意。Turk 平台和大学里的言语文明系招募标注职员咱们从 Amazon Mechanical 。标注者对比谙习的区域中代表性场景咱们条件征求的图像中应拥有蕴涵。遍存正在但拥有跨区域特点的场景咱们进一步倡议标注者拔取普,节日、宗教营谋等比方婚礼、葬礼、。-VCR 数据集更具区域多样性这些条件不单能够使咱们的 GD,去做更公道的对比也便利咱们后续。

  区多样性:因为史册文明身分的影响咱们的著作闭键体贴正在常识常识的地,一事物有着不相似的常识和认知正在分歧区域生存的人们不妨对同。据集 GD-VCR 去侦查模子的浮现咱们提出了区域多样性视觉常识推理数,一浮现背后的道理而且探究酿成这。的最佳论文 ( Liu et al.咱们很振奋 EMNLP 2021 ,1 ) 202,ang et al.和特出论文 ( Zh,咱们极端相仿的讨论题目2021 ) 有着和。的视角对人为智能全国通用性的这一题目出现更多的研究以是极端希冀咱们的著作或许让专家从常识常识多样性。

  -VCR 中标注了图像的场景标签拥有区域特点的场景:咱们正在 GD,统一个场景的图片放正在一块举办对比以是咱们能够借帮标签将分歧区域。伺探到咱们,征的场景(比方婚礼关于时时涉及区域特,等)节日,要大得多机能差异,%-24%约为 8。是但,存正在且对比相仿的场景关于极少全国上广大, 0.4-1.3%模子的机能差异仅为。

  正在这些 QA pairs 上评估咱们用 VisualBERT 。rs 的后果好于 high-order QA pairs咱们起初提神到模子正在 low-order QA pai。表此, 的分歧远幼于 high-order QA pairs模子正在分歧区域 low-order QA pairs。息的题目上能够到达相仿的机能这意味着该模子正在基础视觉信,加了难度并扩充了差异可是丰富常识推理增。更好地描写了这个情况这意味着 景色 2 。

  总体统计数据见表GD-VCR 的。夸大的是这边思,域的 OOV 率咱们估计打算了每个区,现正在原始 VCR 练习聚集的单词的比率也即是涌现正在 GD-VCR 中但未出。D-VCR 中咱们挖掘正在 G,OOV 率相互迫近这四个分歧区域 ,都很低而且。始 VCR 数据集的词汇散布相仿这进一步注明 GD-VCR 与原,度并非来自词汇差异GD-VCR 的难。VCR 中笼罩图像症结字散布咱们还正在文中闪现了 GD-。 693 个症结词咱们统计出总共有,R 中场景的多样性闪现了 GD-VC。

  科中的界说依据维基百,场景的所需的基础常识常识是人类认知平日,能把握并行使这种常识而且简直 整个人 都。正在集会上衣着白色婚裙假若咱们看来一个女人,个集会是一个婚礼那么很大要率这。常识推理的体贴跟着周围关于,集和常识图谱也越来越多闭于常识的大界限数据。

  味维基百科中的界说可是咱们假若细细品,?咱们或者能从婚礼的例子中找到极少头伙:正在中国的守旧婚礼上原来咱们会挖掘一个题目:有些常识是否真的或许被整个人把握吗,是朱颜色裙子不妨新娘穿的,会被红盖头遮住以至她的脸也。来说司空见惯这关于中国人,种常识是一。他区域的人相当生疏可是这不妨对全国其。

  谓的界说领域更广常识常识原来比所,多元加倍!此因,了一个新数据集咱们的著作提出,明陞!常识推理数据集区域多样性视觉,ense Reasoning ( GD-VCR ) Geo-Diverse Visual Commons。了 328 个来自东亚、南亚、非洲和西方国度影戏和电视剧的图片咱们沿用了视觉常识推理职业 VCR 的扶植举办标注:咱们征求,策画题目和谜底并基于这些图片。的常识常识和对图片实质的深切剖判这些题目和谜底会涉及区域多样性。这个数据集通过提出,以下两个题目咱们试图讨论:

  模子泛化到特定区域常识题目上的后果咱们起初讨论正在 VCR 上练习的。先首,西方图像比拟咱们挖掘与,区的图像上的浮现要差得多这两个模子正在来自非西方地, 3-19%差异约莫为。表此,型和人类的浮现咱们对比了模。提神到咱们,不谙习这种文明即使人类不妨,胜过 30% 控造但他们如故比模子。化并操纵正在区域多样化常识的剖判进程中这意味着人类更有才气将他们的常识转。这个水准还差很远然而目前的模子离。

  目标:正在先容推理目标之前QA pair 的推理,型什么期间会朽败咱们能够先研究模。有 2 种景色咱们以为不妨。1 是景色 ,别非西方图像的基础音信模子正在早期以至无法识。2 是景色 ,息的识别上后果不错模子正在基础视觉信,区域的常识而最终朽败但最终因为缺乏特定。

  很好的泛化到闭于区域多样性常识的场景和题目上正在 VCR(西方场景为主)上练习的模子是否能?

  章中正在文,常识推理数据集 GD-VCR咱们修筑了一个新的区域多样。R 上评估模子机能咱们正在 GD-VC,间存正在很大分歧挖掘分歧区域之。:1 ) 拥有区域特点的场景末了咱们认识了机能分歧的起源,pair 的推理目标和 2 ) QA 。觉常识推理模子正在区域多样化场景上的泛化才气咱们希冀这篇著作不单能够饱动讨论者去升高视。章拓宽讨论职员的视野咱们还希冀能借此文,界通用性这一实际题目出现更多的研究以加倍谅解的立场对人为智能编造的世。

  (UCLA)二年级博士生殷达:加州大学洛杉矶分校。ai-Wei Chang导师为 Prof. K。驱动的天然言语剖判模子闭键的讨论目标为常识。 ACL目前已正在,NLPEM,ACLNA,第一作家身份公布著作CIKM 等聚会以。