DeltaNet 转移矩阵 $I - \beta k k^T$ 的特性分析

ToyDL

发布日期: 2026-02-08

文章字数: 1.6k

阅读时长: 6 分

脑图可拖动和放缩

在 DeltaNet 算法中，$I - \beta k k^T$ 是支撑记忆状态 $S_t$ 精准更新的核心运算结构，其特征值特性直接决定了记忆更新的稳定性、定向性与高效性。本文将结合 DeltaNet 的算法背景，详细拆解该矩阵的特征值推导过程与核心特性。

一、基础定义与前提条件

首先明确矩阵中各符号的含义与约束条件（适配 DeltaNet 算法场景）：

$I$：$d \times d$ 单位矩阵（$d$ 对应 DeltaNet 中键向量 $k_t$ 的维度 $d_k$）；
$k$：$d \times 1$ 的列向量，且满足 L2 归一化（即 $k^T k = |k|_2^2 = 1$），对应 DeltaNet 中当前 token 的键向量 $k_t$；
$k k^T$：$d \times d$ 的外积矩阵，因单个向量外积的秩为 1，故为 秩 1 对称矩阵；
$\beta$：常数，且满足 $0 < \beta $，对应 DeltaNet 中的动态学习率（控制记忆更新强度）。

核心思路：先分析秩 1 矩阵 $k k^T$ 的特征值，再通过矩阵线性变换性质推导目标矩阵的特征值。

由于 $k$ 是 L2 归一化列向量，$k k^T$ 作为秩 1 对称矩阵，其特征值满足以下性质：=

唯一非零特征值：$\lambda_1 = k^T k = 1$（对应特征向量为 $k$ 本身）；
其余 $d-1$ 个特征值：$\lambda_2 = \lambda_3 = … = \lambda_d = 0$（对应特征向量均与 $k$ 正交，即满足 $v^T k = 0$）。

对于任意矩阵 $A = I - \beta B$（此处 $B = k k^T$），存在线性变换的特征值性质：

若 $B$ 的特征值为 $\lambda_B$，则 $A$ 的特征值为 $\lambda_A = 1 - \beta \cdot \lambda_B$。

结合步骤 1 的结论，可直接得到目标矩阵的特征值：

对应特征向量 $k$ 的特征值：$\lambda_1’ = 1 - \beta \cdot 1 = 1 - \beta$；
对应所有与 $k$ 正交的特征向量的特征值：$\lambda_2’ = \lambda_3’ = … = \lambda_d’ = 1 - \beta \cdot 0 = 1$。

结合 $0 < \beta < 1$ 的约束条件，$I - \beta k k^T$ 的特征值具备以下 3 个关键特性：

特殊特征值 $1 - \beta$：因 $0 < \beta < 1$，故 $0 < 1-\beta < 1$
其余 $d-1$ 个特征值：均为 1（固定值）；
结论：矩阵所有特征值均大于 0 且不超过 1，因此 $I - \beta k k^T$ 是 正定矩阵（对称 + 所有特征值 > 0），同时也是 非膨胀收缩矩阵（特征值绝对值≤1）。

无论维度 $d$ 多大（即使 $d=1024$ 或更高），特征值仅存在两种取值：

这种简洁的分布特性，保证了 DeltaNet 中记忆更新的计算效率（无需复杂矩阵运算）。

特征值的分布直接体现了 “定向更新” 的物理意义：

这一特性是 DeltaNet 实现 “精准记忆修正” 的核心 —— 仅修改与当前键相关的记忆，不干扰无关记忆。

通过具体数值案例验证上述结论，让特性更易感知：

维度 $d=2$，$k$ 为 2 维 L2 归一化向量：$k = \begin{bmatrix} 1/\sqrt{2} \ 1/\sqrt{2} \end{bmatrix}$；
常数 $\beta=0.5$（满足 $0 < \beta < 1$）。

计算外积矩阵 $k k^T$：

$k k^T = \begin{bmatrix} 1/\sqrt{2} \ 1/\sqrt{2} \end{bmatrix} \cdot \begin{bmatrix} 1/\sqrt{2} & 1/\sqrt{2} \end{bmatrix} = \begin{bmatrix} 1/2 & 1/2 \ 1/2 & 1/2 \end{bmatrix}$
计算目标矩阵 $I - \beta k k^T$：

$I - 0.5 \cdot k k^T = \begin{bmatrix} 1 & 0 \ 0 & 1 \end{bmatrix} - 0.5 \cdot \begin{bmatrix} 1/2 & 1/2 \ 1/2 & 1/2 \end{bmatrix} = \begin{bmatrix} 3/4 & -1/4 \ -1/4 & 3/4 \end{bmatrix}$
求解特征值

通过特征方程 $\det(A - \lambda I) = 0$ 计算：

$\det\left( \begin{bmatrix} 3/4 - \lambda & -1/4 \ -1/4 & 3/4 - \lambda \end{bmatrix} \right) = (3/4 - \lambda)^2 - (1/4)^2 = 0$

解得：$\lambda_1 = 1$，$\lambda_2 = 0.5 = 1 - 0.5$，与推导结论完全一致。