BLI
符号定义#
| 释义 | 符号 | 数学定义 | 含义 |
|---|---|---|---|
| 待排序物品集 | $V={1,2,...,n}$ | / | / |
| 标注者 | $U={1,2,\cdots,m}$ | / | / |
| 两两比较的有向图 | $G=(V,E)$ | / | / |
| 边集 | $E$ | $E={(u,i,j)|u\in U,i,j\in V}$ | 标注者$u$对物品$i$和$j$的比较 |
| 比较标签 | $y_{ij}^{u}$ | 具有反对称性:$y_{ij}^{u}=-y_{ji}^u$ | |
| 物品特征矩阵 | $\Phi$ | $\Phi=[\phi_i^T]_{i=1}^{n}\in R^{n\times d}$ | 其中 $\phi_i$ 是物品 $i$ 的$d$ 维特征向量 |
传统Hodge Rank问题#
在传统的Hodge Rank中,循环分量仅能衡量整体冲突程度,无法定位冲突的来源,即具体来源于哪个标注、因为什么原因产生了偏差。
方法阐述#
本方法将Hodge Rank扩展为线性混合效应模型,将传统Hodge Rank循环分量进一步分解为用户个性化偏好偏差和位置偏差,实现冲突的溯源。
对于任意标注者$u$对物品$i,j$的比较,模型假设: $$y_{ij}^{u}\sim F((\phi_i^T\eta+\phi_i^T\xi^u)-(\phi_j^T\eta+\phi_j^T\xi^u)+\gamma^u)$$
式中,
- 固定效应:$\eta\in R^d$ 是全局偏好参数,物品$i$的公共得分 $\theta_i=\phi_i^T \eta$
- [随机效应]个性化偏好偏差:$\xi\in R^d$,标注者$u$偏离公共偏好的参数,其个性化得分 $\theta_i^u=\phi_i^T(\eta+\xi^u)$
- [随机效应] 位置偏差: $\gamma^u\in R$,标注者$u$习惯点击某一侧的异常行为参数
- $F$为累积分布函数,决定具体的统计模型
矩阵形式#
定义差分$d^u\in R^{\vert E\vert \times \vert V\vert}$,满足$$d^u\theta(u,i,j)=1_{(u=v)}(\theta_i-\theta_j)$$,全局差分算子$$d=\sum_u d^u$$
定义位置偏差算子$A\in R^{\vert E \vert\times \vert V \vert}$满足: $$A\gamma(u,i,j)=\gamma^u$$
令$$\beta=[\xi^1,\xi^2,\cdots,\xi^{\vert U\vert},\gamma^1,\gamma^2,\cdots,\gamma^{\vert U\vert}]$$ 以及矩阵$$X=[d^1\Phi,d^2\Phi,\cdots,d^{\vert U\vert}\Phi,A]$$
那么模型可以统一写为: $$y=d\Phi\eta+X\beta+\epsilon$$
根据分布$F$不同,设计三种损失函数#
1.对于线性模型,使用正态分布$N(t,1)$作为分布函数,损失函数为$$L(\eta,\beta)=\frac{1}{2m}\Vert y-(d\Phi\eta+X\beta)\Vert$$ *适用于连续偏好评分
2.若基于Bradley-Terry模型,分布函数为逻辑分布$$\Psi(t)=\frac{1}{1+e^{-t}}$$;若基于Thurstone-Mostrller模型,分布函数为$$\Psi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{t} e^{-x^2/2}dx$$
对于以上两种建模,损失函数皆为 $$L(\eta,\beta)=-\frac{1}{m}\sum_{i,j,u}\log \Psi(y_{ij}^u(\phi_i^T(\eta_i+\xi_i^u)-\phi_j^T(\eta_j+\xi_j^u))+\gamma^u)$$
*适用于二元比较