原标题:北大提出PKU FG-XMedia:细粒度跨媒体检索数据集和评测基准
机器之心发布
作者:Xiangteng He、Yuxin Peng、Liu Xie
北京大学彭宇新教授团队建立了第一个包含 4 种媒体类型(图像、文本、视频和音频)的细粒度跨媒体检索公开数据集和评测基准 PKU FG-XMedia,并且提出了一种能够同时学习 4 种媒体统一表征的深度网络模型 FGCrossNet。该论文已经被 CCF A 类国际会议 ACM MM 2019 大会接收。
本文链接:https://arxiv.org/abs/1907.04476
数据集链接:http://59.108.48.34/tiki/FGCrossNet
源码和模型链接:https://github.com/PKU-ICST-MIPL/FGCrossNet_ACMMM2019
课题组主页:http://www.wict.pku.edu.cn/mipl
课题组 Github 主页:https://github.com/PKU-ICST-MIPL
引言
跨媒体检索(Cross-media Retrieval)是指用户给定任意一种媒体类型数据作为查询样例,系统检索得到与查询样例相关的各种媒体数据。如图 1 所示,当用户给定一张灰背鸥(Slaty-backed Gull)的图像作为查询样例,检索结果包含了图像、文本、视频和音频 4 种媒体数据。现有跨媒体检索研究一般聚焦在粗粒度跨媒体检索(Coarse-grained Cross-media Retrieval),只是将灰背鸥的图像作为鸟的图像进行分析检索,因此检索结果中会包含各种相似鸟类的媒体数据(如灰翅鸥、银鸥、加州海鸥等),而不是灰背鸥的图像、文本、视频和音频数据,如图 1(a) 所示。为了克服上述问题,本文提出了细粒度跨媒体检索(Fine-grained Cross-media Retrieval),即用户给定任意一种媒体类型数据作为查询样例,系统检索得到与查询样例细粒度类别相同的各种媒体数据,如图 1(b) 所示,检索得到灰背鸥的图像、文本、视频和音频数据。
作为一个新兴的研究方向,细粒度跨媒体检索面临三大挑战:
针对上述挑战,本文主要做了以下工作:
图 1:粗粒度跨媒体检索与细粒度跨媒体检索的区别
图 2:PKU FG-XMedia 数据集中的样例,如图展示了 7 种细粒度类别的图像、文本、视频和音频数据,其中音频数据用声谱图可视化。
PKU FG-XMedia 细粒度跨媒体数据集
PKU FG-XMedia 数据集包含超过 50,000 个样例,其中 11,788 个图像样例、8,000 个文本样例、18,350 个视频样例和 12,000 个音频样例。具有媒体类型多、类别细粒度和数据来源多的特点:
FGCrossNet 网络模型
本文提出的 FGCrossNet 能够同时学习 4 种媒体的统一表征,其网络框架如图 3 所示。现有跨媒体检索方法一般通过不同的分支网络来建模图像、文本、视频和音频 4 种媒体数据,而 FGCrossNet 则在一个统一的网络中同时建模这 4 种媒体数据,通过优化损失函数一次性学习 4 种媒体的统一表征。
图 3:FGCrossNet 网络框架
本文在损失函数的设计上考虑了 3 种不同的约束:
分类约束(Classification Constraint)
本文采用交叉熵损失函数来进行分类约束,使得网络模型具有能够区分相似细粒度子类别的能力,其定义如下:
其中是交叉损失函数,I,T,V,A 分别表示图像、文本、视频和音频。以图像为例,表示训练集中图像的数目,表示第 k 个图像样本的类别标签,表示第 k 个图像样本的特征向量,在本文实验中为 FGCrossNet 网络模型最后一层全连接层的输出。需要注意的是,本文采用视频帧进行网络模型的训练,因此表示的是训练集中视频帧的数目。
中心约束(Center Constraint)
为了使得相同细粒度子类别的样本(包括图像、文本、视频和音频)在统一空间中具有相近的特征,本文通过中心约束来减少类内特征的距离以缩短模态之间的差异,其定义如下:
其中,表示训练集中第 k 个样本的特征,在这里不区分媒体类型,因为目的是使得相同细粒度子类别的所有媒体数据的特征相近。表示细粒度子类别的质心的特征,N 表示训练集中所有训练样本的数目。
排序约束(Ranking Constraint)
为了使得不同细粒度子类别的样本在统一空间中的距离尽可能大,本文定义了排序约束:
其中,d 表示 L2 距离,和表示边界阈值用于平衡公式(3)中的两项。需要注意的是,在一次训练过程中,网络模型同时接收 4 种媒体的训练样本,且其中两个样本属于相同细粒度子类别,另外两个样本属于其他两个细粒度子类别。
通过上述三种约束,FGCrossNet 网络模型能够学习到具有辨识性、紧凑性和松散性的统一表征,以实现细粒度的跨媒体检索。
实验
本文在 PKU FG-XMedia 数据集上,通过两种细粒度跨媒体检索任务验证了 FGCrossNet 网络的有效性:
本文在 ResNet50 网络的基础上实现了 FGCrossNet 网络模型,首先在双模态细粒度跨媒体检索任务上验证了 FGCrossNet 的有效性,结果如表 1 所示。实验结果表明 FGCrossNet 取得了当前的最好性能,在检索准确率(MAP)上比当前 state-of-the-art 方法提升了 16.2%。
表 1:本文方法和现有方法在双模态细粒度跨媒体检索任务上的检索准确率(MAP)。
同样,本文也在多模态细粒度跨媒体检索任务上验证了 FGCrossNet 的有效性,结果如表 2 所示。在检索准确率(MAP)上,FGCrossNet 比当前 state-of-the-art 方法提升了 18%。值得注意的是,本文提出的 FGCrossNet 可以一次性学习 4 种媒体的统一表征。而在对比方法中,MHTN 可以同时学习 4 种媒体的统一表征,但是其网络结构相对复杂,需要对每一种媒体都设计不同的分支网络;其他对比方法一次则只能学习两种媒体的统一表征,因此这些方法的训练和检索复杂度都比较高。
表 2:本文方法和现有方法在多模态细粒度跨媒体检索任务上的检索准确率(MAP)。
机器之心「SOTA模型」:22大领域、127个任务,机器学习 SOTA 研究一网打尽。
www.jiqizhixin.com/sota
PC 访问,体验更佳游戏网
责任编辑:
相关下载 |
原标题:安兔兔基准测试遭谷歌Play商店下架 IT之家3月8日消息 安兔兔基准测试遭谷歌Play商店下架,这可能是更大规模打击猎豹移动应用中的一部分。 详情>>
都好,分情况而定,建议LPR详情>>
曾推出《旺达与巨像》《战神合集》的Bluepoint Games目前正为PS5开发大型游戏,他们最近更新了工作室的官网,并写道:“我们新项目的规模是工作室史上之详情>>
原标题:北京市发布2019年企业工资指导线 工资增长基准线为8%-8.5% 央广网北京9月2日消息(记者刘一荻)企业工资指导线是政府根据当年经济发展调控目标详情>>
Game234问答中心有网友提出了一个比较有代表性的问题【solidworks3d草图绘制基准平面和特征建立基准面一...】,小编觉得可能对其他网友也有帮助,所以将此问答整理出来了,希望对您有帮助。详情>>
原标题:2018款15英寸MacBookPro基准测试:RedeonVega20显卡性能提升显著苹果为2018款15英寸MacBookPro提供详情>>
谷歌阵营中拥有最“纯正”安卓血统的谷歌Pixel3XL与苹果iPhoneXSMax的性能到底孰强孰弱呢,外媒对这两款机型做了性能基准测试,结果也是显而易见的。既然详情>>
我们经常说信用卡一个月要怎么怎么刷,那么对信用卡的养卡规划以一个月为基准更好吗?显然不是的,不过每个人都可以有自己的方式,只要大的宗旨:让银行安全放心,还能让银行赚钱! 对于额度小的卡一万以详情>>
在今年的Gamescom和SIGGRAPH大会上,NvidiaCEO黄仁勋为我们带来了基于图灵架构的RTX系列GPU新品,其最大的特色就是支持强大的光线追踪技术。但是对于广大用户详情>>
《数码宝贝故事:赛博侦探黑客的记忆(DigimonStory:CyberSleuthHacker’sMemory)》即将于12详情>>
苹果将于今年9月推出的最佳iPhoneX继任者将拥有无与伦比的性能,这是Android设备制造商梦寐以求的强大功能。几天前在Geekbench上泄露的基准测试显示,有一款识别为i详情>>
游戏名称:讨鬼传:极 英文名称:ToukidenKiwami 游戏类型:动作游戏ACT 制作公司:OmegaForce 发行公司:KoeiTe详情>>
文章相关引用及参考:映维网我们仍然很难轻松分辨出差异,因为其质量和分辨率都有所不同。(映维网2018年07月05日)VR行业有很多关于4K与8K,传统渲染与注视点详情>>
GTA5目前游戏运行基准测试详情>>
《剑侠情缘手游》参与家族活动,分得家族拍卖分红,一直是剑侠少侠元宝福利的一大来源。在面对很多小家族的巨额分红时,想必许多少侠都投去了艳羡的目光。如今详情>>
gta5基准帧数测试详情>>
VRmark基准跑分软件面向Android推出,安卓 mode 安卓手机 vrmark room... 安卓手机的性能跑分又多了一个新的权威参考系。UL Benchmarks(就是此前的Futuremark)宣布面向... 详情>>
之前发文计算过轻皮布改版后的对比,看到其他职业有那种折线图的表格,自己也做了一个,对比结果如图所示。模板采用红10,恍惚强化11,首饰附魔18,勋章7,其余附魔完美,结详情>>
文/剑侠情缘天机阁 参与家族活动,分得家族拍卖分红,一直是剑侠少侠元宝福利的一大来源。在面对很多小家族的巨额分红时,想必许多少侠都投去了艳羡的目光。如今,《剑侠详情>>
王者荣耀8月30日个人资料推荐数据基准值调整,在此次版本更新中,玩家们的个人资料推荐基准值将进行调整,具体如下: 王者荣耀8月30日个人资料推荐数据基准详情>>