比妹子更擅长上淘宝“找衣服”的阿里实习生:用AI检索多层次商品图像 – 作者:阿里安全

随着电商平台的快速发展,互联网多媒体数据的爆炸式增长,图像-文本跨模态检索问题面临着新的挑战:基于自然语言的商品图像检索。

相比于传统的跨模态检索任务,商品图像具有更大的复杂性和多样性,比如图像内的目标往往伴随着大的形变,图像背景更加复杂。为此,本研究提出了一种基于多层次编码、多粒度相似性学习的跨模态检索模型,在融合多层次特征的基础上,结合物体、图像两种不同粒度的跨模态相似性,能够有效地提升跨模态检索模型在商品图像检索任务上的表现。该研究在KDD Cup 2020 Challenges for Modern E-Commerce Platform: Multimodalities Recall的大规模商品图像-文本检索数据集上,与传统的跨模态检索模型以及同类检索模型进行比较,取得了显著的性能提升。

总体来看,该研究在文本-商品图像跨模态检索的场景下,提出了HSL网络和两种不同粒度的相似性度量方式。HSL通过层次化编码的方式显著提升商品图像检索的性能,所提出的两种粒度的相似性能够适应复杂的商品内容。大量的定量定性实验证实了模型的有效性。

研究动机

近年来,随着互联网和移动智能设备的迅速普及以及通信和多媒体技术的迅速发展,电子商务平台应运而生,市场规模和用户需求在持续快速地增长。其中各种模态的商品数据,如文字、图像等也在迅速增长,如何从中快速且准确地找出用户需要的商品是一个艰巨的挑战。在这样的背景下,基于内容的文本到商品图像的跨模态检索就是缓解这个挑战的关键技术之一。

相比于传统的跨模态检索任务,文本到商品图像的跨模态检索任务表现出更加复杂的特性。如图1所示,单是商品图像中的一类,服饰,已经表现出巨大的差异性,如服饰可以穿在模特身上,也可以单独摆放;可以折叠起来展示,也可以不折叠;服饰图像背景往往也很复杂。不止如此,商品图像包含其它很多丰富的种类,并且一幅图像内往往呈现出多种物体,琳琅满目,难以分辨。

传统的跨模态检索方法在模型结构、相似度函数、损失函数等方面进行了大量的研究。然而我们发现,传统的方法应用于商品图像检索时效果较差。一类针对商品图像检索的模型,它们的模型结构更加先进,普遍采用了基于Transformer的跨模态检索模型。然而,这两类方法都建立在单层次的特征表示和单粒度的相似度度量上,难以有效地解决商品图像检索的问题。

图片[1]-比妹子更擅长上淘宝“找衣服”的阿里实习生:用AI检索多层次商品图像 – 作者:阿里安全-安全小百科

图 1 商品图像检索示例

方法

本论文独立于具体的模型结构、相似度函数、损失函数的研究,提出一种多层次的编码模型HSL(Hierarchical Similarity Learning),可以增强跨模态特征的表达性。进而提出两种不同粒度的相似度度量方式,以实现对商品图像复杂内容的表达。如图2所示,图像和文本分别经过目标检测和Word Embedding的预表示之后,同步输入到L个层次的编码网络中,最终得到L个层次的特征表示。在每一个层级上,通过物体粒度、图像粒度两种不同粒度的相似度度量同层级的文本-图像间的相关性。最终对各层级的相关性进行融合得到最终的相关性打分。

图片[2]-比妹子更擅长上淘宝“找衣服”的阿里实习生:用AI检索多层次商品图像 – 作者:阿里安全-安全小百科

图 2 HSL架构图

实验

在 KDD Cup 2020 Challenges for Modern E-Commerce Platform: Multimodalities Recall的大规模商品图像-文本检索数据集上进行实验。结果表明HSL相对于不同的对比模型,均能够取得一致显著的性能提升。实验计算nDCG@5作为评价指标。表1展示了实验结果。

图片[3]-比妹子更擅长上淘宝“找衣服”的阿里实习生:用AI检索多层次商品图像 – 作者:阿里安全-安全小百科

表格 1 KDD Cup 2020跨模态检索数据集检索性能

文章还展示了一些定性实验结果,如图3所示,模型能够有效地召回复杂的商品。第三个查询展示一个失败的例子。可以看到对于模棱两可的查询,即使模型能够找到目标商品地毯,但是无法通过图像分辨哪些地毯是“children’s”。

图片[4]-比妹子更擅长上淘宝“找衣服”的阿里实习生:用AI检索多层次商品图像 – 作者:阿里安全-安全小百科

图 3检索结果示例

最后,作者进一步进行了ablation study,结果表明所提出的层次化编码和两种不同粒度的相似性度量具有至关重要的作用。

图片[5]-比妹子更擅长上淘宝“找衣服”的阿里实习生:用AI检索多层次商品图像 – 作者:阿里安全-安全小百科

表格 1 Ablation study

论文作者简介

马哲,阿里安全图灵实验室实习生,浙江大学硕士。主要研究多媒体语义理解与检索,包括图像检索、图像文本跨膜态检索、视频检索等。在AAAI、ICASSP等学术会议上发表多篇论文,也曾参加KDD Cup 2020跨膜态检索竞赛,取得了优异的成绩。

来源:freebuf.com 2021-02-24 16:43:23 by: 阿里安全

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论