0%

ZSL

ZSL的相关论文

  1. 基于attribute description构建语义空间A

LearningToDetectUnseenObjectClassesbyBetweenClassAttributeTransferLearning To Detect Unseen Object Classes by Between-Class Attribute Transfer

http://pub.ist.ac.at/~chl/papers/lampert-cvpr2009.pdf

基于attribute description的方法,其数据集中的每张图片都标注了若干attribute用以描述图片信息。一些标注了attribute的示例图片如下图所示

img

这篇论文通过上述每张图片预定义的特征,构建了样本数据的特征表示空间X;同时,通过若干classes集合或图片集合学习可用于表示数据集中所有class的attribute description,完成语义空间A的构建;最后,论文提出了使用两种方式建立X和A之间的映射。两种方式为:Direct Attribute Prediction(DAP)和 Indirect Attribute Prediction(IAP),如下图所示:

img

DAP:

训练时,由一直标签的训练集,学习有关attribute的参数β;预测时,为每一个测试样本预测其attribute参数,进而根据attribute建立的seen class(y) 和 unseen class(z)之间的关系,推导得出测试样本的label

IAP:

训练时,按多分类的方式学习参数α;预测时,根据attribute建立的seen class(y) 和 unseen class(z)之间的关系,推到得到unseen class 的分布。

DAP在训练是仅依据属性层,而IAP将训练样本的类标也作为一个中间层,一定程度上能限定测试样本生成新类标的范围,使得学习到的链接控制在对于Y来说,有意义的范围之内,因此可以增强系统的鲁棒性。但实际上,在作者后面的实验中,DAP的效果要比IAP好很多

效果虽然不是很好,但确实在一定程度上表达了“知识迁移”的思想,不仅利用图片训练相应的特征,更是加入了属性这类的高位特征描述,实现了“从低维图片特征分类器”到“高位语义特征(属性)分类器”的转变

Attribute description相关论文列表:

  • Describing Objects by their Attributes
  • Attribute-based Classification for Zero-Shot Visual Object Categorization
  • Zero-Shot Learning-A Comprehensive Evaluation of the Good, the Bad and the Ugly
  • Semantic Autoencoder for Zero-Shot Learning
  • Recovering the Missing Link: Predicting Class-Attribute Associations for Unsupervised Zero-Shot Learning

2. 基于embedding表示构建语义空间A

DeViSE:ADeepVisualSemanticEmbeddingModelDeViSE: A Deep Visual-Semantic Embedding Model

http://papers.nips.cc/paper/5204-devise-a-deep-visual-semantic-embedding-model.pdf

本文提出的DeViSE模型,数据集每个class/label可作为一个词在语义空间进行embedding表示,如使用与训练skip-gram模型得到有关class的language feature vector,同时利用与训练的CNN-based模型提取图片的visual feature vector,将两个向量映射到同一纬度的空间,进行相似度的计算。测试时,即可根据语义之间的相似性进行图片的分类。模型结构如下图:

img

考虑到训练时负样本发挥的通,模型的损失函数选择hinge loss。其中,通过dot-product 计算相似度。

loss(image,label)=jlabelmax[0,margin tlabelMv(image)+tjMv(image)]\text {loss(image,label)}=\sum_{j \neq l a b e l} \max \left[0, \text {margin }-\overrightarrow{t_{l a b e l}} M \vec{v}(\text {image})+\vec{t}_{j} M \vec{v}(\text {image})\right]

Embedding表示相关论文列表:

  • Predicting Deep Zero-Shot Convolutional Neural Networks using TextualDescriptions
  • Learning Deep Representations of Fine-grained Visual Descriptions
  • Evaluation of Output Embeddings for Fine-grained Image Classification
  • Latent Embeddings for Zero-shot Classification

3. 基于KG/KB构建语义空间A

3.1 ZeroshotRecognitionviaSemanticEmbeddingsandKnowledgeGraphsZero-shot Recognition via Semantic Embeddings and Knowledge Graphs

本文基于Graph COnvolution Network(GCN,一种处理Graph-structured数据的神经网络)引入Knowledge Graph的hierarchy结构进行计算。模型分为两个独立的部分,首先使用CNN-based方法(如resnet, Inception等)为输入的图片抽取特征向量,即CNN部分(图所示上方的CNN网络);其次,GCN部分(图所示下方的GCN网络)将数据集中的每个class作为Graph中的一个节点,并对其做embedding表示输入GCN网络(即输入为有N个k为节点组成的N * k特征矩阵),通过神经网络每一层之间信息的传递和计算,为每个节点(class)输出一组权重向量(D维),即输出是一个N * D的特征矩阵。

img

模型训练时,Graph中seen class节点有来自CNN部分的图片特征向量作为监督信号(图所示绿色节点)训练GCN模型的参数;而测试时,Graph中的unseen class节点输出对应的权重向量,同时,与CNN部分对应图片输出的特征向量,最终得到分类的结果。

这里提及的Graph为克表示ImageNet class之间结构的WorldNet知识库,实验选取了其中一部分与ImageNet相关的子集

3.2 RethinkingKnowledgeGraphPropagationforZeroShotLearningRethinking Knowledge Graph Propagation for Zero-Shot Learning

https://arxiv.org/pdf/1805.11724v1.pdf

在1的基础上进行了改进,包括以下几个方面:

  • 更少的GCN层数,论文1中使用了6层神经网络进行训练,考虑到模型参数的优化问题,本文只使用了2层神经网络进行计算,即GPM

  • 减少层数的同时,一些较远节点不被考虑在内,为了解决这个问题,作者将一些节点的祖先/子孙节点直接与该节点相连,生成了更密集的图,即DGPM;同时,这些直接相连的边按照距离的远近,加入attention机制进行了加权计算,即ADGPM

  • 作者还提出了在CNN部分根据Graph信息进行fine tune的计算方式,使得提取图片特征的卷积网络可根据一些新出现的class进行更新

KG/KB相关论文列表:

  • Fine-grained Image Classification by Visual-Semantic Embedding
  • Multi-Label Zero-Shot Learning with Structured Knowledge Graphs
  • Zero-Shot Learning with Semantic Output Codes
  • 少样本学习(Few-Shot Learning, FSL)

前面 2.2 部分提到的论文,其迁移知识的方式主要是通过在语义空间构建 seen class 与 unseen class 之间的关系(下图左),而 Transductive Setting 则提出可通过 seen class 和 unseen class 的少量样本训练得到class之间的关联(下图右),即少样本学习(Few-ShotLearning, FSL)。

img

FSL–Few-ShotLearning(少样本学习)

LearningtoCompare:RelationNetworkforFewShotLearningLearning to Compare: RelationNetwork for Few-Shot Learning

https://arxiv.org/pdf/1711.06025.pdf

本文从每个 class 中采样少量样本,作为参考样本(如下图左侧 5 张图片,分别代表 5 个 classes),以建立 class 之间的关系。本文所构建的 class relation 主要为相似关系,模型通过 embedding module 提取图片的特征向量,再分别将测试图片(下图所示袋鼠图片)的特征向量与参考样本的特征向量进行拼接输入 relation module,通过神经网络计算测试图片和参考样本图片之间的相似性,最终判断测试图片属于参考图片代表 class 的哪一类。

img

FSL相关论文列表:

  • Few-Shot Learning with Graph Neural Networks
  • One-shot Learning for Fine-grained Relation Extraction via ConvolutionalSiamese Neural Network
  • Matching Networks for One Shot Learning
  • Prototypical Networks for Few-hot Learning
  • Optimization as a model for few-shot learning
  • Meta-learningwith Memory-augmented Neural Networks