BLI

符号定义#

释义	符号	数学定义	含义
待排序物品集	$V={1,2,...,n}$	/	/
标注者	$U={1,2,\cdots,m}$	/	/
两两比较的有向图	$G=(V,E)$	/	/
边集	$E$	$E={(u,i,j)\|u\in U,i,j\in V}$	标注者$u$对物品$i$和$j$的比较
比较标签	$y_{ij}^{u}$	具有反对称性：$y_{ij}^{u}=-y_{ji}^u$
物品特征矩阵	$\Phi$	$\Phi=[\phi_i^T]_{i=1}^{n}\in R^{n\times d}$	其中 $\phi_i$ 是物品 $i$ 的$d$ 维特征向量

传统Hodge Rank问题#

在传统的Hodge Rank中，循环分量仅能衡量整体冲突程度，无法定位冲突的来源，即具体来源于哪个标注、因为什么原因产生了偏差。

方法阐述#

本方法将Hodge Rank扩展为线性混合效应模型，将传统Hodge Rank循环分量进一步分解为用户个性化偏好偏差和位置偏差，实现冲突的溯源。

对于任意标注者$u$对物品$i,j$的比较，模型假设： $$y_{ij}^{u}\sim F((\phi_i^T\eta+\phi_i^T\xi^u)-(\phi_j^T\eta+\phi_j^T\xi^u)+\gamma^u)$$

式中，

固定效应：$\eta\in R^d$ 是全局偏好参数，物品$i$的公共得分 $\theta_i=\phi_i^T \eta$
[随机效应]个性化偏好偏差：$\xi\in R^d$，标注者$u$偏离公共偏好的参数，其个性化得分 $\theta_i^u=\phi_i^T(\eta+\xi^u)$
[随机效应] 位置偏差： $\gamma^u\in R$，标注者$u$习惯点击某一侧的异常行为参数
$F$为累积分布函数，决定具体的统计模型

矩阵形式#

定义差分$d^u\in R^{\vert E\vert \times \vert V\vert}$，满足$$d^u\theta(u,i,j)=1_{(u=v)}(\theta_i-\theta_j)$$，全局差分算子$$d=\sum_u d^u$$

定义位置偏差算子$A\in R^{\vert E \vert\times \vert V \vert}$满足： $$A\gamma(u,i,j)=\gamma^u$$

令$$\beta=[\xi^1,\xi^2,\cdots,\xi^{\vert U\vert},\gamma^1,\gamma^2,\cdots,\gamma^{\vert U\vert}]$$ 以及矩阵$$X=[d^1\Phi,d^2\Phi,\cdots,d^{\vert U\vert}\Phi,A]$$

那么模型可以统一写为： $$y=d\Phi\eta+X\beta+\epsilon$$

根据分布$F$不同，设计三种损失函数#

1.对于线性模型，使用正态分布$N(t,1)$作为分布函数，损失函数为$$L(\eta,\beta)=\frac{1}{2m}\Vert y-(d\Phi\eta+X\beta)\Vert$$ *适用于连续偏好评分

2.若基于Bradley-Terry模型，分布函数为逻辑分布$$\Psi(t)=\frac{1}{1+e^{-t}}$$；若基于Thurstone-Mostrller模型，分布函数为$$\Psi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{t} e^{-x^2/2}dx$$

对于以上两种建模，损失函数皆为 $$L(\eta,\beta)=-\frac{1}{m}\sum_{i,j,u}\log \Psi(y_{ij}^u(\phi_i^T(\eta_i+\xi_i^u)-\phi_j^T(\eta_j+\xi_j^u))+\gamma^u)$$

*适用于二元比较

符号定义#

传统Hodge Rank问题#

方法阐述#

矩阵形式#

根据分布$F$不同，设计三种损失函数#

稀疏性假设#