Bradley-Terry Model

Building Blocks

Bradley-Terry Model#

Setting#

Bradley-Terry是用于成对比较的一类概率模型，核心任务是：给定一组对象，根据两两对比的结果，估计每个对象的强度。

设每个对象 $i$ 有一个正实数参数 $\pi_i>0$标识其强度，模型假设：

$$P(i> j)=\frac{\pi_i}{\pi_i+\pi_j}$$

形式等价于：

令$\theta_i=\log \pi_i$，有

$$P(i> j)=\frac{e^{\theta_i}}{e^{\theta_i}+e^{\theta_j}}=\sigma(\theta_i-\theta_j)$$，

式中, $\sigma(\cdot)$ 是logistic函数。由此，BT模型本质上是一个logistic reg. on differences.

Likelihood#

对于任意一对 $(i,j)$，每一次比较是一个Bernoulli实验，即：

$$P(i>j)=\frac{\pi_i}{\pi_i+\pi_j},P(j>i)=\frac{\pi_j}{\pi_i+\pi_j}$$

如果仅观察一次，会得到如下的结果：

若$i$获胜，其概率为：

$$P(obs)=\frac{\pi_i}{\pi_i+\pi_j}$$

若$j$获胜，其概率为：

$$P(obs)=\frac{\pi_j}{\pi_i+\pi_j}$$

实际数据通常是聚合的，即是多次观察的结果。设 $w_{ij}$ 是 $i$ 战胜 $j$ 的次数，有似然函数可以被写作：

$$L(\pi)=\prod_{i<j}(\frac{\pi_i}{\pi_i+\pi_j})^{w_{ij}}(\frac{\pi_j}{\pi_i+\pi_j})^{w_{ji}}$$

对其取对数，有：

$$l(\pi)=\sum_{i<j} [w_{ij}\log \frac{\pi_i}{\pi_i+\pi_j}+w_{ji}\frac{\pi_j}{\pi_i+\pi_j}]$$

展开：

$$=\sum_{i<j} [w_{ij}(\log \pi_i-\log (\pi_i+\pi_j))+w_{ji}(\log \pi_j-\log (\pi_i+\pi_j))]$$

整理：

$$=\sum_{i<j} [w_{ij}\log \pi_i+w_{ji}\log \pi_j-(w_{ij}+w_{ji})\log(\pi_i+\pi_j)]$$

换base，使用 $\theta_i=\log \pi_i$ 进行参数化，似然函数可以被改写为：

$$l(\theta)=\sum_{i<j}[w_{ij}\theta_i+w_{ji}\theta_j-(w_{ij}+w_{ji})\log(e^{\theta_i}+e^{\theta_j})]$$

上述似然函数可以进行如下解释：

对于每一对 $(i,j)$，对数似然的每个项：

${w_{ij}\theta_i+w_{ji}\theta_j}$ 是线性项，代表empirical reward，谁赢的多，对应参数就被拉高
$(w_{ij}+w_{ji})\log(e^{\theta_i}+e^{\theta_j})$ 是归一化惩罚项

Gradient#

对于$\theta_i$求导：

$$\frac{\partial L}{\partial \theta_i}=\sum_j[w_{ij}-(w_{ij}+w_{ji})P(i>j)]$$

这可以被看作“实际胜场-期望胜场”。

图视角#

Graph Modeling#

构造一个有向加权图 $G=(V,E)$，其中：

节点 $V$：每个对象 $i$
有向边 $i\rightarrow j$ ：表示i曾经战胜过j
边权重 $w_{ij}$

强连通图定义：对任意 $i,j$，都存在一条有向路径 $i\rightarrow j$且$j\rightarrow i$。BT模型要求如果比较图是强连通的，MLE才存在且唯一，否则会存在dominant的$\pi$，即$\pi\rightarrow \infty$，产生完全压制。

[证明]在BT模型中，MLE存在且有限，当且仅当比较图是强连通的#

性质#

[性质1] 平移不变性

$$l(\theta+c1)=l(\theta)$$

[证明]

把所有参数同时加上一个常数

$$\theta_i\rightarrow \theta_i+c$$

不会改变任何概率

(tobeadded)

因此只能在商空间 $\mathbb{R}^n/span{1}$ 讨论唯一性。即，将所有仅相差一个常数的向量当成同一个点。当没有约束时，解是无穷多个；而加约束后，解唯一。

[性质2] 凹性

函数 $-\log (e^a+e^b)$ 是凹函数，那么 $l(\theta)$ 是凹函数。

[性质3] 梯度

$$\frac{\partial l}{\partial \theta_i}=\sum_j[w_{ij}-n_{ij}\frac{e^{\theta_i}}{e^{\theta_i}+e^{\theta_j}}]$$

必要性：非强连通=>MLE不存在#

若图不是强连通图，那么存在划分，

$$V = A \cup B,\ A \cap B = \emptyset$$

满足：

存在 $i\in A,j\in B$，使 $w_{ij}>0$
但不存在 $j\rightarrow i$路径

此时，可以构造发散方向（recession dir.），即定义方向向量

$$d_i = \begin{cases} 1 & i \in A \ 0 & i \in B \end{cases}$$

(tobeadded)

考虑$\theta(t)=\theta+td$

对任意 $i\in A,j\in B$，有

$$\log \frac{e^{\theta_i+t}}{e^{\theta_i+t}+e^{\theta_j}}=-\log(1+e^{\theta_j-\theta_i-t})\rightarrow 0$$

当 $t\rightarrow 0$。即有 $\log P(i \succ j) \uparrow 0$。

对于这些项，

$$\frac{d}{dt}l(\theta+td)\ge 0$$

且严格增加。

[证明]

把对数似然拆开，有

$$l=\sum_{i<j} l_{ij}$$

式中

$$l_{ij}=w_{ij}\theta_i+w_{ji}\theta_j-n_{ij}\log (e^{\theta_i}+e^{\theta_j})$$

可以分三种情况来看：

[情况1] $i,j\in A$

改变 $\theta_i$和$\theta_j$，有

$$e^{\theta_i+t}+e^{\theta_j+t}=e^t(e^{\theta_i}+e^{\theta_j})$$

代入：

$$\log(e^{\theta_i+t}+e^{\theta_j+t})=t+\log(e^{\theta_i}+e^{\theta_j})$$

代回似然函数：

$$\ell_{ij}(t) = w_{ij}(\theta_i + t) + w_{ji}(\theta_j + t) - n_{ij}(t + \log(\cdots))$$

展开：

$$= \left(w_{ij}\theta_i + w_{ji}\theta_j - n_{ij}\log(\cdots)\right) + \left(w_{ij} + w_{ji} - n_{ij}\right)t$$

由于 $n_{ij} = w_{ij} + w_{ji}$，所以：

$$\ell_{ij}(t) = \ell_{ij}(0)$$

[情况2] $i,j\in B$

同理。

[情况3] 跨集合 $i\in A,j\in B$

根据d的定义，可以写出该情况下的似然函数：

$$\ell_{ij}(t) = w_{ij}(\theta_i + t) + w_{ji}\theta_j - n_{ij}\log\left(e^{\theta_i + t} + e^{\theta_j}\right)$$

对于t求导，有：

$$\frac{d}{dt} \ell_{ij}(t) = w_{ij} - n_{ij} \cdot \frac{e^{\theta_i + t}}{e^{\theta_i + t} + e^{\theta_j}}$$

在构造中，由于不存在j->i的边，所以 $n_{ij}=w_{ij}$

代入有

$$\frac{d}{dt}l_{ij}(t)=w_{ij}\frac{e^{\theta_j}}{e^{\theta_i+t}+e^{\theta_j}}\ge 0$$。

将所有项加起来，有：

$$\frac{d}{dt} \ell(\theta + t d) = \sum_{\substack{i \in A, j \in B}} w_{ij} \cdot \frac{e^{\theta_j}}{e^{\theta_i + t} + e^{\theta_j}} \geq 0$$

只要存在一条边 $w_{ij}>0$，就有正贡献。证毕。

取极限： $$\sup_\theta l(\theta)=0$$

对任何有限 $\theta$，都有 $l(\theta)<0$，极值只在 $t\rightarrow \infty$处到达。

充分性：强连通=>存在唯一解#

[命题]

若比较图是强连通图，则BT model对数似然在约束空间上存在唯一极大点。

即证明强制性条件coercivity：

$$|\theta| \to \infty,\ \theta \in \Theta \implies \ell(\theta) \to -\infty$$

[证明]

由于平移不变形，故限定在 $\Theta={\theta\in R^n:\sum_{i=1}^{n} \theta_i=0}$ 空间中进行优化。

[证明1:严格凹性]

[命题]

函数

$$f(a,b)=-\log(e^a+e^b)$$

是严格凹函数。

[证明]

Zermelo更新#

考虑公式：

$$P(W|\pi)=\prod_{i,j}(\frac{\pi_i}{\pi_i+\pi_j})^{w_{ij}}$$

使用对数似然函数：

$$l(\pi)=\sum_{i,j} w_{ij}\log \frac{\pi_i}{\pi_i+\pi_j}=\sum_{i,j} w_{ij}(\log \pi_i-\log (\pi_i+\pi_j))$$

使用极大似然估计：

$$\frac{\partial}{\partial \pi_i} l(w|\pi)=\frac{\sum_{i,j}w_{ij}}{\pi_i}-\sum_{i,j}\frac{w_{ij}+w_{ji}}{\pi_i+\pi_j}$$

令其=0，有：

$$\frac{\sum_{i,j}w_{ij}}{\pi_i}=\sum_{i,j}\frac{w_{ij}+w_{ji}}{\pi_i+\pi_j}$$

整理得自洽方程：

$$\pi_i=\frac{\sum_{i,j}w_{ij}}{\sum_{i,j}\frac{w_{ij}+w_{ji}}{\pi_i+\pi_j}}$$

使用迭代更新求解：

$$\pi_i^{(t+1)}=\frac{\sum_{i,j}w_{ij}}{\sum_{i,j}\frac{w_{ij}+w_{ji}}{\pi_i^{(t)}+\pi_j^{(t)}}}$$

上式即Zermelo算法，仅在比较网络强连通时收敛。