BLI

符号定义#

释义符号数学定义含义
待排序物品集$V={1,2,...,n}$//
标注者$U={1,2,\cdots,m}$//
两两比较的有向图$G=(V,E)$//
边集$E$$E={(u,i,j)|u\in U,i,j\in V}$标注者$u$对物品$i$和$j$的比较
比较标签$y_{ij}^{u}$具有反对称性:$y_{ij}^{u}=-y_{ji}^u$
物品特征矩阵$\Phi$$\Phi=[\phi_i^T]_{i=1}^{n}\in R^{n\times d}$其中 $\phi_i$ 是物品 $i$ 的$d$ 维特征向量

传统Hodge Rank问题#

在传统的Hodge Rank中,循环分量仅能衡量整体冲突程度,无法定位冲突的来源,即具体来源于哪个标注、因为什么原因产生了偏差。

方法阐述#

本方法将Hodge Rank扩展为线性混合效应模型,将传统Hodge Rank循环分量进一步分解为用户个性化偏好偏差位置偏差,实现冲突的溯源。

对于任意标注者$u$对物品$i,j$的比较,模型假设: $$y_{ij}^{u}\sim F((\phi_i^T\eta+\phi_i^T\xi^u)-(\phi_j^T\eta+\phi_j^T\xi^u)+\gamma^u)$$

式中,

  • 固定效应:$\eta\in R^d$ 是全局偏好参数,物品$i$的公共得分 $\theta_i=\phi_i^T \eta$
  • [随机效应]个性化偏好偏差:$\xi\in R^d$,标注者$u$偏离公共偏好的参数,其个性化得分 $\theta_i^u=\phi_i^T(\eta+\xi^u)$
  • [随机效应] 位置偏差: $\gamma^u\in R$,标注者$u$习惯点击某一侧的异常行为参数
  • $F$为累积分布函数,决定具体的统计模型

矩阵形式#

定义差分$d^u\in R^{\vert E\vert \times \vert V\vert}$,满足$$d^u\theta(u,i,j)=1_{(u=v)}(\theta_i-\theta_j)$$,全局差分算子$$d=\sum_u d^u$$

定义位置偏差算子$A\in R^{\vert E \vert\times \vert V \vert}$满足: $$A\gamma(u,i,j)=\gamma^u$$

令$$\beta=[\xi^1,\xi^2,\cdots,\xi^{\vert U\vert},\gamma^1,\gamma^2,\cdots,\gamma^{\vert U\vert}]$$ 以及矩阵$$X=[d^1\Phi,d^2\Phi,\cdots,d^{\vert U\vert}\Phi,A]$$

那么模型可以统一写为: $$y=d\Phi\eta+X\beta+\epsilon$$

根据分布$F$不同,设计三种损失函数#

1.对于线性模型,使用正态分布$N(t,1)$作为分布函数,损失函数为$$L(\eta,\beta)=\frac{1}{2m}\Vert y-(d\Phi\eta+X\beta)\Vert$$ *适用于连续偏好评分

2.若基于Bradley-Terry模型,分布函数为逻辑分布$$\Psi(t)=\frac{1}{1+e^{-t}}$$;若基于Thurstone-Mostrller模型,分布函数为$$\Psi(t)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{t} e^{-x^2/2}dx$$

对于以上两种建模,损失函数皆为 $$L(\eta,\beta)=-\frac{1}{m}\sum_{i,j,u}\log \Psi(y_{ij}^u(\phi_i^T(\eta_i+\xi_i^u)-\phi_j^T(\eta_j+\xi_j^u))+\gamma^u)$$

*适用于二元比较

稀疏性假设#