NMF 可以应用下面的方法用于对多变量数据进行统计分析。给定一组多变量的
n 维数据向量,其向量位于一个 \(n\times
x\) 矩阵 V 的列中(m
表示数据集中的示例数)。然后将此矩阵近似分解为 \(n\times r\) 的 W 矩阵与 \(r\times m\)的 H 矩阵。通常 r 要小于 n 或
m,以使 W 和 H 小于原始矩阵 V。最终得到的是原始数据矩阵的压缩形态。
公式(1)中约等于的意义在于它可以将公式逐列用 \(v\approx Wh\) 来表示,其中 v 和 h 是矩阵 V
和矩阵 H 的对应的列。也就是说,每个数据向量 v 近似地由矩阵 W
的各列线性组合而成,同时用 h 的分量进行加权。因此可以被认为 W 包含了对 V
在此,我们讨论了基于迭代更新 W 和 H 的两种 NMF
W 或 H
为了找到$ VWH
A 和 B 的距离来构造此代价函数。一种使用的距离度量方法为:计算 A 和 B
之间的欧几里得距离(Euclidean distance)的平方值。
与欧几里得距离相同,它的下界也为 0,且在 A=B
时距离消失。但它不能被称为“距离”,因为这个式子在 A 与 B
中并不对称,因此我们将其称为 A 对于 B
的“散度”(divergence)。它可以归纳为 KL 散度或者相对熵,当 \(\sum_{ij}A_{ij}=\sum_{ij}B_{ij}=1\) 时,A
与 B 可以看做是标准化的概率分布。
现在,我们可以按照以下两种公式来将 NMF 化为最优化问题:
最优化问题1:在约束条件 \(W, H \geq 0\) 下,以 W 和 H
作为参数,最小化 \(||V - WH||^2\)。
最优化问题2:在约束条件 \(W, H \geq 0\) 下,以 W 和 H
作为参数,最小化 \(D(V||WH)\)。
虽然方程 \(||V - WH||^2\) 和 \(D(V||WH)\) 在只考虑 W 或 H
之一时为凸,但在同时考虑 WH
K 层的节点后才扩展 K+1 层的节点。在此应用深度优先搜索算法。
假设初始状态是图中所有顶点未曾被访问,从图中某个顶点 i
出发,访问此顶点,然后依次从 i
的未被访问的邻接点出发深度优先遍历图,直至图中所有和 i
i 搜索出节点 j,如果节点 j 已经被搜索过,那么修改关联矩阵中对应节点 i
和节点 j 的元素为 0,并返回节点 i 重新搜索与之相联的另一节点。当节点 j
是该条树枝的最后一个节点时,修改关联矩阵中相应的元素,并且返回节点 i
h 的积木。这种方法在思路上类似于通过 concrete syntax trees [26]
CNN 网络提取此结构。
2.2 反卷积解码器
我们按照一定步长应用卷积的变体 - 反卷积操作(比如 convolutional
L-1 层相同,接着逐渐展开为 \(T^{(l+1)} =
(T^{(l)}-1)*r^{(l)} + h\) for l=1,...直到第 L
个反卷积层(此层与卷积编码器的输入层相对应)。第 L
反卷积层的输出目标是重建 Word embedding 矩阵 \(\hat{X}\)。与 \(W_e\) 一样,\(\hat{X}\) 的每一列都经由 l2-norm 处理。
用 \(\hat{w}^t\) 来表示重建后句子
\(\hat{s}\) 中的第 t 个单词,\(\hat{w}^t\) 为 v 的概率可表示为:
teacher forcing training 与 exposure bias
