Agent4Rec: 生成式Agent推荐系统-摩杜云开发者社区

1. 内容简介

推荐系统现在存在的巨大的GAP，主要是学术界和工业界不互通！学术界用各种数据集，把各种指标做的很好看，但是在工业界，在线的推荐中，在线性能和这些指标又不同了，因此本文系统弄一个推荐模拟器，配备了一些专门为推荐系统量身定做的用户配置，这些用户配置文件是用Movielens这个数据集初始化的，包含了一些用户的独特品味和一些社交属性。在这个状态下，本文探索了LLM在多大程度上能模拟真人在推荐系统中的反应。最终目的其实是把这些模拟用户的反馈代替学术界推荐系统中的各个指标。

Agent4Rec: 生成式Agent推荐系统_推荐系统

本文根据Movielens-1M这个数据集，生成了1000多个基于LLM的Agent，对电影进行观看，评级，评估，退出和采访，最终希望生成的代理在推荐环境中能真正模拟人类行动！

2. 内容介绍

推荐系统在当代的信息传播中发挥了巨大的作用，它积极地塑造个人偏好和认知过程，虽然很成功，但是这种传统的监督学习方式下，离线指标和在线性能之间还是存在了巨大的GAP，这种GAP造成了学术界和工业界之间的脱节，成为该领域未来发展的瓶颈。于是本文开始畅想，有这么一个平台，能完全提供拟人的操作分析人类意图，并编码人类认知机制。这样推荐模型都可以来这个平台里试试水准，水准好说明其在学术界和工业界都好，以弥合现有的GAP，那其实难点就在于怎么让LLM模拟好用户在推荐系统中的操作。

一个AGENT包含三个模块，一是用户配置文件，二是内存模块，三是动作模块。用户配置文件包括个性化社会特征和历史偏好的存储库，促进用户肖像与真实人类特征的对齐。内存模块包含了过去的观看行为，一些系统交互和一些关于情感方面的（举个例子，让一个真人一直看一些错误的推荐，看个几次真人就烦了），从而以连贯的方式实现信息检索、偏好积累和情感驱动的反映。动作模块是用户用来与推荐环境交互的，包括品味驱动的动作（即，观看或忽略推荐的电影、评级、产生观看后的感觉），以及情绪驱动的动作（即，退出系统、评估推荐列表以及表达人类可理解的评论）。从推荐系统的角度来看，推荐系统先对用户偏好进行预测，然后推荐出一个商品的list出来，在真实世界中的表现其实就是手机上一面一面的商品，用户按着这个list的顺序下滑浏览。一方面，本文提出的模拟器主要集成了基于协作过滤的推荐策略，包括随机，最流行的矩阵分解（MF），LightGCN和MultVAE。另一方面，我们以可扩展性为核心原则来构建模拟器。通过提供开放接口，我们使研究人员和从业人员能够毫不费力地部署他们选择的任何推荐算法。

为了评估本文提出的Agent4Rec的有效性和局限性，做了很多实验，主要是两个方面的，一是从用户的角度来看，主要重点在于评估代理对齐的程度。具体来说，评估到什么程度的代理可以确保真实用户的社会特征，个性和偏好的一致性，使用各种指标和统计测试。另一个方面是对推荐系统的角度来看，评估了不同算法配置的推荐器，评估指标涵盖多个维度，包括用户推荐和观看的电影平均数量、平均用户评分、用户参与时间和整体用户满意度，并行地，从模拟器收集的代理反馈充当增强数据，从而实现推荐策略的迭代训练和细化。随后，使用标准化的离线指标评估反馈驱动的推荐增强。这种双重方法，结合模拟反馈与传统的离线评估，确保了推荐算法的全面评估。为了探索潜在的模拟器在调查未解决的挑战推荐任务。

本文的contribution如下：

开发了Agent4Rec，一个电影推荐模拟器，利用LLM授权的生成代理来模拟和推断用户个性化的偏好和行为模式。这些代理，其精心设计的模块量身定制的建议设置，使人类认知机制的仿真。
深入到Agent4Rec的能力和局限性进行广泛的评估生成代理为基础的模拟推荐系统。我们采用统计指标和测试的用户对齐评估，并提出了一个双重的并行评估，同时考虑离线性能和模拟反馈。
使用Agent4Rec作为数据收集工具，我们复制了一个普遍的问题-过滤器气泡效应-并揭示了嵌入在推荐系统场景中的潜在因果关系。这些观察结果展示了Agent 4 Rec激发新研究方向的潜力。

3. Agent4Rec (Agent推荐系统)

Agent4Rec: 生成式Agent推荐系统_离线_02

整体框架

整体框架就是用真实数据给一些推荐算法，让这些推荐算法做推荐，同时用这些真实数据搞出来用户文件，用这些用户文件来调出Agent，最后用这些推荐算法和Agent之间结合，看看最后整体的效果。

用户配置模块：用户配置模块包含两个组成部分，一是社会特征，二是独特的品味，社会特征包含三个关键特征，活跃性，一致性和多样性，活跃性就代表了用户和产品交互的频率和广度，一致性代表了用户的评分这些和平均情况的差异，多样性反映了用户对各种电影类型的倾向，是否是专注于一个方向。接着有一点比较重要，就是这些用户档案把一些用户隐私的属性都剥离了，例如年龄职业啥的，这样的话通用性更强。其他的用户历史数据，主要是用户以往对一些项目的偏好程度，是通过随机抽取25个用户历史交互过的电影，然后评分大于3的设置为喜欢，小于3设置为不喜欢。
内存模块：该模块主要是存储用户的“记忆”，个人感觉跟用户历史有重复的地方，本文将记忆划分为两类，一种是事实记忆，另一种是情感记忆，第二种记忆常常被忽略，但是很重要！。为推荐任务量身定制的事实记忆封装了推荐系统中的交互行为，而情感记忆则捕捉了来自这些交互的心理感受。内存信息的存储方式分为两种，一种是自然语言的存储，另一种是向量的，前者帮助理解，后者用于检索之类的。
动作模块：该模块负责用户的行动，我认为特别新颖的是，它将用户的行为分成了两种属性的，一种是受到用户偏好驱动的，一种是受到用户情感驱动的。用户偏好驱动的不必多说，情感驱动的主要是疲劳度相关的，还是那句话：一个用户老看那些重复的或者是错误的推荐结果，烦都烦死了哪会认真挑。

4. 实验分析

1. 首先第一个实验验证了这些Agent和真实的用户之间能否真正对齐，本文从用户兴趣一致性的角度来测试，简单来说就是一个用户应该在长期兴趣上会保持一致，如果给定了20部用户曾经看过的电影，让用户从一大部分电影中挑选下一部要看的，那被挑选出的这一部一定也应该是跟这20部相关的。以这个思考开展实验，下图展示了实验结果，1：m代表相似的电影和具有干扰性的电影之间的比例。可以发现，Agent对自己下一项“应该喜欢什么”还是有比较清醒的认知的，这说明偏好一致性上来看拟人效果是不错的。But从结果上也暴露出一定的问题，F1 Precision低的可怕，文章认为这是因为LLM的固有幻觉的作用，这也是LLM AS USER-SIMULATOR的一个挑战。

Agent4Rec: 生成式Agent推荐系统_推荐算法_03

2. 第二个实验测试了AGENT的评分和用户之间的区别，一个大多数人都认同的观点是，LLM太“善良”了，他们很少会选择拒绝或者是打低分，这在这个任务中也体现了，大多AGENT都倾向于打高分，这和人类行为明显相悖。

Agent4Rec: 生成式Agent推荐系统_推荐系统_04

3. 第三个实验测试了用户最终偏好和社会活动之间的关系，本身社会活动就会影响推荐，例如一个好朋友看了一部电影，那么他也有可能推荐这部电影给你，然后你就会去看这部电影。结果就是把社会活动纳入用户配置模块是合理且有效的。

4.第四个实验测试了不同算法在这些Agent面前的表现。

Agent4Rec: 生成式Agent推荐系统_人工智能_05

5.第五个实验比较有意思，因为在工业界，通常模型都会实时收集用户偏好，然后对用户偏好的预测进行调整，那这里采用了一页页推荐的方法，在用户浏览完一页后，立马把结果反馈，再调整用户偏好，这样就把传统的学术界的模型和工业界进一步匹配了。

Agent4Rec: 生成式Agent推荐系统_推荐系统_06

如表3所示，通过利用代理观看的电影作为增强数据，所有推荐算法在离线评估指标和模拟满意度评估方面都有所改进。然而，当用未观看的电影来增强训练数据集时，总体用户体验通常会恶化。成功地模拟这种反馈驱动的推荐增强表明代理的电影选择可以作为用户独特偏好的一致指示符。

5. 文章局限与总结

鉴于Agent4Rec有前景的模拟能力，在本节中，我们讨论了从模拟结果中得出的两个见解：滤镜气泡现象(Filter Bubble Effect)和电影推荐任务中的探索因果发现(Discovering Casual Relationships)。

Agent4Rec: 生成式Agent推荐系统_人工智能_07

滤镜气泡现象(Filter Bubble Effect)：当推荐器在循环预测等情况发生的时候，容易导致推荐同质化，结果就是Agent4Rec也能产生出一样的问题，多次迭代后，推荐内容开始同质化。
探索因果发现(Discovering Casual Relationships)：其实就是可解释的推荐，能否为推荐带来一定的可解释的因素，结果是可以的。

尽管Agent4Rec在推荐系统仿真方面提供了一个很有前途的研究方向，但我们认识到其潜在的局限性、风险和挑战，需要进一步探索和深入调查：

数据约束：Agent4Rec是基于Movielens这个数据集做的，并不能适用于所有情况。
动作约束：Agent能做的动作有限，有些因素体现不出来。
幻觉：幻觉会明显干扰Agent的判断，让Agent喜欢上他本不应该喜欢的电影。

Agent4Rec: 生成式Agent推荐系统_推荐算法_08