ZSL的相关论文
- 基于attribute description构建语义空间A
http://pub.ist.ac.at/~chl/papers/lampert-cvpr2009.pdf
基于attribute description的方法,其数据集中的每张图片都标注了若干attribute用以描述图片信息。一些标注了attribute的示例图片如下图所示
这篇论文通过上述每张图片预定义的特征,构建了样本数据的特征表示空间X;同时,通过若干classes集合或图片集合学习可用于表示数据集中所有class的attribute description,完成语义空间A的构建;最后,论文提出了使用两种方式建立X和A之间的映射。两种方式为:Direct Attribute Prediction(DAP)和 Indirect Attribute Prediction(IAP),如下图所示:
DAP:
训练时,由一直标签的训练集,学习有关attribute的参数β;预测时,为每一个测试样本预测其attribute参数,进而根据attribute建立的seen class(y) 和 unseen class(z)之间的关系,推导得出测试样本的label
IAP:
训练时,按多分类的方式学习参数α;预测时,根据attribute建立的seen class(y) 和 unseen class(z)之间的关系,推到得到unseen class 的分布。
DAP在训练是仅依据属性层,而IAP将训练样本的类标也作为一个中间层,一定程度上能限定测试样本生成新类标的范围,使得学习到的链接控制在对于Y来说,有意义的范围之内,因此可以增强系统的鲁棒性。但实际上,在作者后面的实验中,DAP的效果要比IAP好很多
效果虽然不是很好,但确实在一定程度上表达了“知识迁移”的思想,不仅利用图片训练相应的特征,更是加入了属性这类的高位特征描述,实现了“从低维图片特征分类器”到“高位语义特征(属性)分类器”的转变
Attribute description相关论文列表:
Describing Objects by their Attributes Attribute-based Classification for Zero-Shot Visual Object Categorization Zero-Shot Learning-A Comprehensive Evaluation of the Good, the Bad and the Ugly Semantic Autoencoder for Zero-Shot Learning Recovering the Missing Link: Predicting Class-Attribute Associations for Unsupervised Zero-Shot Learning
2. 基于embedding表示构建语义空间A
http://papers.nips.cc/paper/5204-devise-a-deep-visual-semantic-embedding-model.pdf
本文提出的DeViSE模型,数据集每个class/label可作为一个词在语义空间进行embedding表示,如使用与训练skip-gram模型得到有关class的language feature vector,同时利用与训练的CNN-based模型提取图片的visual feature vector,将两个向量映射到同一纬度的空间,进行相似度的计算。测试时,即可根据语义之间的相似性进行图片的分类。模型结构如下图:
考虑到训练时负样本发挥的通,模型的损失函数选择hinge loss。其中,通过dot-product 计算相似度。
Embedding表示相关论文列表:
Predicting Deep Zero-Shot Convolutional Neural Networks using TextualDescriptions Learning Deep Representations of Fine-grained Visual Descriptions Evaluation of Output Embeddings for Fine-grained Image Classification Latent Embeddings for Zero-shot Classification
3. 基于KG/KB构建语义空间A
3.1
本文基于Graph COnvolution Network(GCN,一种处理Graph-structured数据的神经网络)引入Knowledge Graph的hierarchy结构进行计算。模型分为两个独立的部分,首先使用CNN-based方法(如resnet, Inception等)为输入的图片抽取特征向量,即CNN部分(图所示上方的CNN网络);其次,GCN部分(图所示下方的GCN网络)将数据集中的每个class作为Graph中的一个节点,并对其做embedding表示输入GCN网络(即输入为有N个k为节点组成的N * k特征矩阵),通过神经网络每一层之间信息的传递和计算,为每个节点(class)输出一组权重向量(D维),即输出是一个N * D的特征矩阵。
模型训练时,Graph中seen class节点有来自CNN部分的图片特征向量作为监督信号(图所示绿色节点)训练GCN模型的参数;而测试时,Graph中的unseen class节点输出对应的权重向量,同时,与CNN部分对应图片输出的特征向量,最终得到分类的结果。
这里提及的Graph为克表示ImageNet class之间结构的WorldNet知识库,实验选取了其中一部分与ImageNet相关的子集
3.2
https://arxiv.org/pdf/1805.11724v1.pdf
在1的基础上进行了改进,包括以下几个方面:
-
更少的GCN层数,论文1中使用了6层神经网络进行训练,考虑到模型参数的优化问题,本文只使用了2层神经网络进行计算,即GPM
-
减少层数的同时,一些较远节点不被考虑在内,为了解决这个问题,作者将一些节点的祖先/子孙节点直接与该节点相连,生成了更密集的图,即DGPM;同时,这些直接相连的边按照距离的远近,加入attention机制进行了加权计算,即ADGPM
-
作者还提出了在CNN部分根据Graph信息进行fine tune的计算方式,使得提取图片特征的卷积网络可根据一些新出现的class进行更新
KG/KB相关论文列表:
Fine-grained Image Classification by Visual-Semantic Embedding Multi-Label Zero-Shot Learning with Structured Knowledge Graphs Zero-Shot Learning with Semantic Output Codes - 少样本学习(Few-Shot Learning, FSL)
前面 2.2 部分提到的论文,其迁移知识的方式主要是通过在语义空间构建 seen class 与 unseen class 之间的关系(下图左),而 Transductive Setting 则提出可通过 seen class 和 unseen class 的少量样本训练得到class之间的关联(下图右),即少样本学习(Few-ShotLearning, FSL)。
FSL–Few-ShotLearning(少样本学习)
https://arxiv.org/pdf/1711.06025.pdf
本文从每个 class 中采样少量样本,作为参考样本(如下图左侧 5 张图片,分别代表 5 个 classes),以建立 class 之间的关系。本文所构建的 class relation 主要为相似关系,模型通过 embedding module 提取图片的特征向量,再分别将测试图片(下图所示袋鼠图片)的特征向量与参考样本的特征向量进行拼接输入 relation module,通过神经网络计算测试图片和参考样本图片之间的相似性,最终判断测试图片属于参考图片代表 class 的哪一类。
FSL相关论文列表:
Few-Shot Learning with Graph Neural Networks One-shot Learning for Fine-grained Relation Extraction via ConvolutionalSiamese Neural Network Matching Networks for One Shot Learning Prototypical Networks for Few-hot Learning Optimization as a model for few-shot learning Meta-learningwith Memory-augmented Neural Networks