推荐系统召回算法：Swing算法

April 19, 2023

2023 · 召回算法协同过滤 Swing算法 · 推荐系统

Swing 算法广泛用于推荐系统的召回阶段，本文将介绍 Swing 算法的原理和实现。

ItemCF 算法可能存在的一个问题

ItemCF 算法在计算两个物品的相似性时认为：两个物品的受众重合度越大，两个物品的相似度越大。但是这种假设在实际应用中可能存在“小圈子”问题，举例来说：当两个不太相似的物品被转发到同一个微信群中时，这两个物品同时被群友点击，这样就会导致这两个物品的相似度很高，但是这两个物品实际上并不相似。

Swing 算法

Swing 算法的基本思想是：如果大量用户同时喜欢两个物品，且这些用户之间的重合度很低，那么这两个物品一定很相似。

将用户 $u_{1}$ 和用户 $u_{2}$ 喜欢的物品集合分别记为 $J_{1}$ 和 $J_{2}$ ，则两个用户的重合度 $o v e r l a p (u_{1}, u_{2})$ 定义为：

o v e r l a p (u_{1}, u_{2}) = | J_{1} \cap J_{2} |

如果 $u_{1}$ 和 $u_{2}$ 的重合度很高，则他们可能来自于同一个小圈子，需要降低他们的权重。

将喜欢物品 $i_{1}$ 和喜欢物品 $i_{2}$ 的用户集合分别记为 $W_{1}$ 和 $W_{2}$ ，他们的交集 $V = W_{1} \cap W_{2}$ ，则两个物品的相似度 $s i m (i_{1}, i_{2})$ 定义为：

s i m (i_{1}, i_{2}) = \sum_{u_{1} \in V} \sum_{u_{2} \in V} \frac{1}{α + o v e r l a p (u_{1}, u_{2})}

其中 $α$ 是平滑项，可以避免分母为零，可以取一个较小的正数，例如 1。

Swing 算法在实际应用中的完整流程与 ItemCF 算法类似，只是在计算物品相似度时使用了 Swing 算法的公式。

总结

Swing 算法与 ItemCF 算法的唯一区别在于计算物品相似度的公式不同。
ItemCF 算法：两个物品的受众重合度越大，两个物品的相似度越大。
Swing 算法：额外考虑了重合用户是否来自于一个小圈子，如果是，则降低这些用户的权重。

参考资料

https://arxiv.org/pdf/2010.05525.pdf
https://github.com/wangshusen/RecommenderSystem（本文图片均来自此repo）

Enjoy Reading This Article?

Here are some more articles you might like to read next:

推荐系统召回算法：基于用户的协同过滤（UserCF）

推荐系统召回算法：基于物品的协同过滤（ItemCF）

MMR（Maximal Marginal Relevance）算法在推荐系统中的应用

Cockpit 安装配置教程

使用Conda管理Python环境