您当前所在位置: > 爆料站 > 有深度

北大提出PKUFG-XMedia:细粒度跨媒体检索数据集和评测基准

时间:2019-10-15 17:02:58  来源:  作者:网络

原标题:北大提出PKU FG-XMedia:细粒度跨媒体检索数据集和评测基准

机器之心发布

作者:Xiangteng He、Yuxin Peng、Liu Xie

北京大学彭宇新教授团队建立了第一个包含 4 种媒体类型(图像、文本、视频和音频)的细粒度跨媒体检索公开数据集和评测基准 PKU FG-XMedia,并且提出了一种能够同时学习 4 种媒体统一表征的深度网络模型 FGCrossNet。该论文已经被 CCF A 类国际会议 ACM MM 2019 大会接收。

  • 本文链接:https://arxiv.org/abs/1907.04476

  • 数据集链接:http://59.108.48.34/tiki/FGCrossNet

  • 源码和模型链接:https://github.com/PKU-ICST-MIPL/FGCrossNet_ACMMM2019

  • 课题组主页:http://www.wict.pku.edu.cn/mipl

  • 课题组 Github 主页:https://github.com/PKU-ICST-MIPL

引言

跨媒体检索(Cross-media Retrieval)是指用户给定任意一种媒体类型数据作为查询样例,系统检索得到与查询样例相关的各种媒体数据。如图 1 所示,当用户给定一张灰背鸥(Slaty-backed Gull)的图像作为查询样例,检索结果包含了图像、文本、视频和音频 4 种媒体数据。现有跨媒体检索研究一般聚焦在粗粒度跨媒体检索(Coarse-grained Cross-media Retrieval),只是将灰背鸥的图像作为鸟的图像进行分析检索,因此检索结果中会包含各种相似鸟类的媒体数据(如灰翅鸥、银鸥、加州海鸥等),而不是灰背鸥的图像、文本、视频和音频数据,如图 1(a) 所示。为了克服上述问题,本文提出了细粒度跨媒体检索(Fine-grained Cross-media Retrieval),即用户给定任意一种媒体类型数据作为查询样例,系统检索得到与查询样例细粒度类别相同的各种媒体数据,如图 1(b) 所示,检索得到灰背鸥的图像、文本、视频和音频数据。

作为一个新兴的研究方向,细粒度跨媒体检索面临三大挑战:

  • 缺乏数据集和评测基准:现有跨媒体数据集一般是针对粗粒度跨媒体检索,而细粒度跨媒体检索还缺乏数据集和评测基准,因此相关研究比较少。
  • 异构鸿沟:这是跨媒体检索面临的经典难题,是指不同媒体类型的数据有着不同的分布和特征表示,导致跨媒体检索十分困难,对细粒度跨媒体检索更是难上加难。
  • 类间差异小,类内差异大:这是细粒度分类面临的挑战。其中,类间差异小是指不同的细粒度类别具有相似的外表(图像、视频)、描述(文本)和声音(音频);类内差异大是指由于视角、光照、描述、背景等不同,相同的细粒度类别又存在外表、描述和声音差异大的现象。上述问题导致难以准确检索特定细粒度类别的媒体数据,相比粗粒度跨媒体检索更具挑战。

针对上述挑战,本文主要做了以下工作:

  • 建立了细粒度跨媒体检索的公开数据集和评测基准 PKU FG-XMedia;
  • 提出了能够同时学习 4 种媒体统一表征的深度网络模型 FGCrossNet。

图 1:粗粒度跨媒体检索与细粒度跨媒体检索的区别

图 2:PKU FG-XMedia 数据集中的样例,如图展示了 7 种细粒度类别的图像、文本、视频和音频数据,其中音频数据用声谱图可视化。

PKU FG-XMedia 细粒度跨媒体数据集

PKU FG-XMedia 数据集包含超过 50,000 个样例,其中 11,788 个图像样例、8,000 个文本样例、18,350 个视频样例和 12,000 个音频样例。具有媒体类型多、类别细粒度和数据来源多的特点:

  • 媒体类型多:包含图像、文本、视频和音频 4 种媒体类型;
  • 类别细粒度:包括鸟的 200 个细粒度类别,如灰背鸥、银鸥、加州海鸥和灰翅鸥等;
  • 数据来源多:数据来源于不同的网站,导致数据质量不同,因此增加了检索的难度。

FGCrossNet 网络模型

本文提出的 FGCrossNet 能够同时学习 4 种媒体的统一表征,其网络框架如图 3 所示。现有跨媒体检索方法一般通过不同的分支网络来建模图像、文本、视频和音频 4 种媒体数据,而 FGCrossNet 则在一个统一的网络中同时建模这 4 种媒体数据,通过优化损失函数一次性学习 4 种媒体的统一表征。

图 3:FGCrossNet 网络框架

本文在损失函数的设计上考虑了 3 种不同的约束:

  • 分类约束(Classification Constraint):确保细粒度类别统一表征的辨识性;
  • 中心约束(Center Constraint):确保相同细粒度类别统一表征的紧凑性;
  • 排序约束(Ranking Constraint):确保不同细粒度类别统一表征的松散性。

分类约束(Classification Constraint)

本文采用交叉熵损失函数来进行分类约束,使得网络模型具有能够区分相似细粒度子类别的能力,其定义如下:

其中是交叉损失函数,I,T,V,A 分别表示图像、文本、视频和音频。以图像为例,表示训练集中图像的数目,表示第 k 个图像样本的类别标签,表示第 k 个图像样本的特征向量,在本文实验中为 FGCrossNet 网络模型最后一层全连接层的输出。需要注意的是,本文采用视频帧进行网络模型的训练,因此表示的是训练集中视频帧的数目。

中心约束(Center Constraint)

为了使得相同细粒度子类别的样本(包括图像、文本、视频和音频)在统一空间中具有相近的特征,本文通过中心约束来减少类内特征的距离以缩短模态之间的差异,其定义如下:

其中,表示训练集中第 k 个样本的特征,在这里不区分媒体类型,因为目的是使得相同细粒度子类别的所有媒体数据的特征相近。细粒度子类别的质心的特征,N 表示训练集中所有训练样本的数目。

排序约束(Ranking Constraint)

为了使得不同细粒度子类别的样本在统一空间中的距离尽可能大,本文定义了排序约束:

其中,d 表示 L2 距离,表示边界阈值用于平衡公式(3)中的两项。需要注意的是,在一次训练过程中,网络模型同时接收 4 种媒体的训练样本,且其中两个样本属于相同细粒度子类别,另外两个样本属于其他两个细粒度子类别。

通过上述三种约束,FGCrossNet 网络模型能够学习到具有辨识性、紧凑性和松散性的统一表征,以实现细粒度的跨媒体检索。

实验

本文在 PKU FG-XMedia 数据集上,通过两种细粒度跨媒体检索任务验证了 FGCrossNet 网络的有效性:

  • 双模态细粒度跨媒体检索(Bi-modality Fine-grained Cross-media Retrieval):查询样例是任意一种媒体数据,检索结果是另外一种媒体数据,表示为 X→Y,其中 X,Y 分别为两种不同的媒体数据。例如,I→T 表示图像检索文本。
  • 多模态细粒度跨媒体检索(Multi-modality Fine-grained Cross-media Retrieval:):查询样例是任意一种媒体数据,检索结果是 4 种媒体数据,表示为 X→All。例如,I→All 表示图像检索图像、文本、视频和音频 4 种媒体数据。

本文在 ResNet50 网络的基础上实现了 FGCrossNet 网络模型,首先在双模态细粒度跨媒体检索任务上验证了 FGCrossNet 的有效性,结果如表 1 所示。实验结果表明 FGCrossNet 取得了当前的最好性能,在检索准确率(MAP)上比当前 state-of-the-art 方法提升了 16.2%。

表 1:本文方法和现有方法在双模态细粒度跨媒体检索任务上的检索准确率(MAP)。

同样,本文也在多模态细粒度跨媒体检索任务上验证了 FGCrossNet 的有效性,结果如表 2 所示。在检索准确率(MAP)上,FGCrossNet 比当前 state-of-the-art 方法提升了 18%。值得注意的是,本文提出的 FGCrossNet 可以一次性学习 4 种媒体的统一表征。而在对比方法中,MHTN 可以同时学习 4 种媒体的统一表征,但是其网络结构相对复杂,需要对每一种媒体都设计不同的分支网络;其他对比方法一次则只能学习两种媒体的统一表征,因此这些方法的训练和检索复杂度都比较高。

表 2:本文方法和现有方法在多模态细粒度跨媒体检索任务上的检索准确率(MAP)。

机器之心「SOTA模型」22大领域、127个任务,机器学习 SOTA 研究一网打尽。

www.jiqizhixin.com/sota

PC 访问,体验更佳游戏网

责任编辑:

相关下载

玩家评论

安兔兔基准测试遭谷歌Play商店下架

原标题:安兔兔基准测试遭谷歌Play商店下架 IT之家3月8日消息 安兔兔基准测试遭谷歌Play商店下架,这可能是更大规模打击猎豹移动应用中的一部分。 详情>>

阅读: 2
日期: 2020-03-08
LPR和基准利率那个好呢?

都好,分情况而定,建议LPR详情>>

阅读: 6
日期: 2020-03-03
Bluepoint的PS5新作旨在奠定次世代游戏硬件的视觉基准

曾推出《旺达与巨像》《战神合集》的Bluepoint Games目前正为PS5开发大型游戏,他们最近更新了工作室的官网,并写道:“我们新项目的规模是工作室史上之详情>>

阅读: 14
日期: 2020-01-27
北京市发布2019年企业工资指导线工资增长基准线为8%-8.5%

原标题:北京市发布2019年企业工资指导线 工资增长基准线为8%-8.5% 央广网北京9月2日消息(记者刘一荻)企业工资指导线是政府根据当年经济发展调控目标详情>>

阅读: 3
日期: 2019-09-02
《黑暗之魂2》“二刀流”基准练习

详情>>

阅读: 16
日期: 2019-08-20
solidworks 3d草图绘制基准平面和特征建立基准面一...

Game234问答中心有网友提出了一个比较有代表性的问题【solidworks3d草图绘制基准平面和特征建立基准面一...】,小编觉得可能对其他网友也有帮助,所以将此问答整理出来了,希望对您有帮助。详情>>

阅读: 5
日期: 2019-04-16
2018款15英寸MacBook Pro基准测试:Redeon Vega 20显卡性能提升显著

原标题:2018款15英寸MacBookPro基准测试:RedeonVega20显卡性能提升显著苹果为2018款15英寸MacBookPro提供详情>>

阅读: 22
日期: 2018-11-25
性能基准测试:iPhoneXS Max对比谷歌Pixel 3XL

谷歌阵营中拥有最“纯正”安卓血统的谷歌Pixel3XL与苹果iPhoneXSMax的性能到底孰强孰弱呢,外媒对这两款机型做了性能基准测试,结果也是显而易见的。既然详情>>

阅读: 5
日期: 2018-10-23
信用卡养卡管理以多个月还是一个月为基准

我们经常说信用卡一个月要怎么怎么刷,那么对信用卡的养卡规划以一个月为基准更好吗?显然不是的,不过每个人都可以有自己的方式,只要大的宗旨:让银行安全放心,还能让银行赚钱! 对于额度小的卡一万以详情>>

阅读: 1
日期: 2018-10-01
新3DMark基准测试TimeSpy将于9月下旬到来 支持光线追踪

在今年的Gamescom和SIGGRAPH大会上,NvidiaCEO黄仁勋为我们带来了基于图灵架构的RTX系列GPU新品,其最大的特色就是支持强大的光线追踪技术。但是对于广大用户详情>>

阅读: 2
日期: 2018-08-26
《数码宝贝故事》全新游戏透露 以PS4为基准开发!

  《数码宝贝故事:赛博侦探黑客的记忆(DigimonStory:CyberSleuthHacker’sMemory)》即将于12详情>>

阅读: 0
日期: 2018-08-22
iPhone X Plus 基准测试成绩首曝 性能大幅超越 Android 智能手机

苹果将于今年9月推出的最佳iPhoneX继任者将拥有无与伦比的性能,这是Android设备制造商梦寐以求的强大功能。几天前在Geekbench上泄露的基准测试显示,有一款识别为i详情>>

阅读: 5
日期: 2018-08-15
《讨鬼传:极(Toukiden Kiwami)》PC版基准测试工具下载发布!

  游戏名称:讨鬼传:极  英文名称:ToukidenKiwami  游戏类型:动作游戏ACT  制作公司:OmegaForce  发行公司:KoeiTe详情>>

阅读: 7
日期: 2018-07-09
详细介绍Visbit 360度视频基准测试VB2018VR

文章相关引用及参考:映维网我们仍然很难轻松分辨出差异,因为其质量和分辨率都有所不同。(映维网2018年07月05日)VR行业有很多关于4K与8K,传统渲染与注视点详情>>

阅读: 10
日期: 2018-07-05
GTA5目前游戏运行基准测试

GTA5目前游戏运行基准测试详情>>

阅读: 2
日期: 2018-07-02
《剑侠情缘手游》家族玩法新增分红上限及优化道具基准价

  《剑侠情缘手游》参与家族活动,分得家族拍卖分红,一直是剑侠少侠元宝福利的一大来源。在面对很多小家族的巨额分红时,想必许多少侠都投去了艳羡的目光。如今详情>>

阅读: 4
日期: 2018-06-25
gta5基准帧数测试

gta5基准帧数测试详情>>

阅读: 15
日期: 2018-06-24
VRmark基准跑分软件面向Android推出

VRmark基准跑分软件面向Android推出,安卓 mode 安卓手机 vrmark room... 安卓手机的性能跑分又多了一个新的权威参考系。UL Benchmarks(就是此前的Futuremark)宣布面向... 详情>>

阅读: 2
日期: 2018-06-19
元素五种防具各技能对比 以皮甲为基准

之前发文计算过轻皮布改版后的对比,看到其他职业有那种折线图的表格,自己也做了一个,对比结果如图所示。模板采用红10,恍惚强化11,首饰附魔18,勋章7,其余附魔完美,结详情>>

阅读: 5
日期: 2018-04-26
剑侠情缘手游新增分红上限 优化道具基准价 详解怎么玩

  文/剑侠情缘天机阁  参与家族活动,分得家族拍卖分红,一直是剑侠少侠元宝福利的一大来源。在面对很多小家族的巨额分红时,想必许多少侠都投去了艳羡的目光。如今,《剑侠详情>>

阅读: 6
日期: 2018-04-07
王者荣耀-8月30日个人资料推荐数据基准值调整 详解怎么玩

  王者荣耀8月30日个人资料推荐数据基准值调整,在此次版本更新中,玩家们的个人资料推荐基准值将进行调整,具体如下:  王者荣耀8月30日个人资料推荐数据基准详情>>

阅读: 3
日期: 2018-03-28
精彩推荐