之前学习了强化学习的一些内容以及推荐系统的一些内容，二者能否联系起来呢！今天阅读了一篇论文，题目叫《DRN: A Deep Reinforcement Learning Framework for News Recommendation》。该论文便是深度强化学习和推荐系统的一个结合，也算是提供了一个利用强化学习来做推荐的完整的思路和方法吧。本文便是对文章中的内容的一个简单的介绍，希望对大家有所启发。

1、引言

新闻领域的个性化推荐十分重要，传统的方法如基于内容的方法、协同过滤、深度学习方法在建模user-item交互关系时，经常面临以下三个问题：

1）难以处理新闻推荐的动态变化。这种动态变化体现在两个方面，首先新闻具有很强的时效性，其次是用户对于新闻阅读的兴趣是不断变化的，如下图所示：

因此，在建模过程中，不仅要考虑用户对当前推荐的反馈，还要考虑长期的影响。就好比买股票，不能只考虑眼前的收益，而是要考虑未来的预期收益。

2）当前的推荐算法通常只考虑用户的点击／未点击或者用户的评分作为反馈，然而，用户隔多久会再次使用服务也能在一定程度上反映用户对推荐结果的满意度。

3）目前的推荐系统倾向于推荐用户重复或相似内容的东西，这也许会降低用户在同一个主题上的兴趣度。因此需要进行exploration。传统方法 e -greedy strategy 或者 Upper Con dence Bound (UCB) 都会在短期对推荐系统的效果造成一定的影响，需要更有效的exploration策略。

因此，本文提出了基于强化学习的推荐系统框架来解决上述提到的三个问题：

1）首先，使用DQN网络来有效建模新闻推荐的动态变化属性，DQN可以将短期回报和长期回报进行有效的模拟。

2）将用户活跃度（activeness score）作为一种新的反馈信息，用户活跃度在后面会详细介绍。

3）使用Dueling Bandit Gradient Descent方法来进行有效的探索。

算法的框架如下图所示：

本文的贡献主要有：

1）提出了一种强化学习的框架用于在线新闻的个性化推荐

2）使用用户活跃度作为一种新的反馈，来提高推荐的准确性

3）使用了一种更加高效的探索算法：Dueling Bandit Gra- dient Descent

4）模型可以进行在线学习和更新，在离线和在线实验上的表现都超过了传统的算法。

2、问题定义

下面是本文中的一些符号约定：

3、模型详解

3.1 模型整体框架

模型整体框架如下图所示：

有几个关键的环节：

PUSH：在每一个时刻，用户发送请求时，agent根据当前的state产生k篇新闻推荐给用户，这个推荐结果是exploitation和exploration的结合

FEEDBACK：通过用户对推荐新闻的点击行为得到反馈结果。

MINOR UPDATE：在每个时间点过后，根据用户的信息（state）和推荐的新闻（action）及得到的反馈（reward），agent会评估exploitation network Q 和 exploration network Q ̃ 的表现，如果exploitation network Q效果更好，则模型保持不动，如果 exploration network Q ̃ 的表现更好，exploitation network Q的参数将会向exploration network Q ̃变化。

MAJOR UPDATE：在一段时间过后，根据DQN的经验池中存放的历史经验，对exploitation network Q 模型参数进行更新。

3.2 特征设计

DQN每次的输入有下面四部分的特征：

新闻的特征：包括题目，作者，排名，类别等等，共417维

用户的特征：包括用户在1小时，6小时，24小时，1周，1年内点击过的新闻的特征表示，共413*5=2065维。

新闻和用户的交互特征：25维。

上下文特征：32维的上下文信息，如时间，周几，新闻的新鲜程度等。

在这四组特征中，用户特征和上下文特征用于表示当前的state，新闻特征和交互特征用语表示当前的一个action。

3.3 深度强化学习作推荐

这里深度强化学习用的是Dueling-Double-DQN。之前我们介绍过DQN的三大改进，包括Double-DQN，Dueling-DQN和优先经验回放，这里用到了两个。将用户特征和上下文特征用于表示当前的state，新闻特征和交互特征用语表示当前的一个action，经过模型可以输出当前状态state采取这个action的预测Q值。

Q现实值包含两个部分：立即获得的奖励和未来获得奖励的折现：