如何评估推荐系统的健康状况？

Doria ·

更新时间:2024-11-10

· 816 次阅读

推荐系统的常见指标

推荐系统的评价指标，要从解决实际问题的角度来思考。

好的推荐系统，不仅要保证自身系统的健壮度，好要满足服务平台、用户等多方面的需求。

用户角度

更方便更快速的发现自己喜欢的产品

精准度

更多的为用户主观感受，评估的是推荐的物品是不是用户喜欢的

惊喜度

推荐的物品让用户有心情跳动的惊喜感觉，比如发现多年前的记忆、耳目一新的内容、用户听过的但是不知名字的音乐，看过片段却不知道名字的电影、知道功能却不知道名字的商品

此类推荐和用户兴趣不一定相似，但是却给用户带来意外之喜，超出用户的预期

新颖性

推荐用户没有接触过的东西，不一定是用户最喜欢的，但可以提升用户的探索欲望，从而获得更完整的用户兴趣

多样性

推荐的更多的品类，可以挖掘用户潜在的兴趣点，拓展用户的兴趣范围来提升用户的推荐体验

平台角度

平台方为用户提供物品或信息。

不同平台的获利方式不同，比如有的靠会员模式、有的通过商品、大部分则通过广告

对多数平台来说商业目标是最重要的目标之一

内容满意度

由于业务场景不同，内容满意的指标也会随之变化，主要是通过用户对产品的不同行为来衡量

资讯阅读-----阅读时长----分享评论电商点击----浏览-----收藏购物车----购买-----好评----复购短视频播放----播放时长-----分享、点赞、评论-----关注 ------跟拍音乐播放-----播放时长-----分享、收藏、评论 场景转化率

转化率指标更为直观，给用推荐内容，是希望用户对推荐的内容有所行动，比如点击行为、点赞行为

pv点击率（点击量/pv）

粗略的衡量转化效果，但如果少数用户贡献大量点击时，容易覆盖该指标的真实性

uv点击率（点击量/uv）

可记录用户在一个完整周期内的点击效果，不会因用户重复浏览某个内容而受影响

曝光点击率（点击量/曝光次数）

更适合长页面、信息流等需要上拉、下拉翻页的产品，曝光次数随用户刷屏次数增加而变大，真实记录每一屏的转化效果

uv转化率（转化次数/点击量）

衡量用户转化情况，用户从一个场景转化到另一个场景去，用来评估用户的宽度

人均点击次数（点击量/点击uv数）

每个用户的点击次数，可用来评价用户的深度

推荐系统的离线评估

推荐系统自身的评估，推荐系统从接受数据到产生推荐结果，再根据推荐结果的影响重新修正自身。

推荐算法训练–（离线评价）----模型上线----（在线评价）—推荐内容—（在线评价）------行为日志收集分析—>>迭代优化推荐算法

准确度

准确度评估主要是评估推荐算法模型的好坏，为选择合适的模型提供决策支持。

数据划分为训练集、测试集；

使用训练集学习训练模型；

使用测试集来衡量误差以及评估准确度；

根据推荐系统目的不同，准确度的衡量也不同：

分类问题

比如点击、不点击；喜欢、不喜欢；

精确度precision：推荐结果有多少是用户喜欢的

召回率recall：用户喜欢的产品，有多少个是推荐系统推荐的

通常希望两个指标都越大越好，但实际需平衡两个指标都关系，所以长远F-指标来作为平衡二者关系的计算方式

评分预测

对产品惊醒评分，电影评分

均方根差RMSE MAE 平均绝对误差

用于描述与测评分与产品真实评分的差距

排序问题

分类、评分只是把推荐产品晒出来，不包含展示顺序，而如果要把用户最可能消费的产品放在前面，则需要排序指标。

AUC，随机挑选一个正样本，一个负样本，正样本排在负样本前的概率

当算法能更好的把证样本排在前边的时候，就是一个好的算法模型

MAP，推荐列表中和用户相关的产品在推荐列表中的位置得分，越靠前分越大

MRR，按照跟用户相关的产品的排名的倒数作为精确度

NDGC，推荐列表中每一个产品评分值的累加；同时考虑每个产品位置，最后进行归一化，在同一标准上评价不同的推荐列表

覆盖率

推荐出的产品占总产品的比例

多样性

用户兴趣不是一成不变的，统一用户的兴趣会受到时间段、心情、节日等多种因素影响。推荐时要尽量推荐更多的品类。

可通过对产品聚类，在推荐列表中插入不同类别产品类提高多样性

时效性

不同产品的时效性不同，比如电商产品时效性不是很高，但新闻、资讯、短视频之类的产品，就需要很高的时效性。

针对不同的产品，甚至产品下不同的类目，设置不同的时效性，也是提高推荐质量的途径之一。

推荐系统的在线评估

在线评估分为两个阶段：用户触发推荐服务、用户产生行为

触发推荐服务 稳定性

系统稳定性对于用户体验至关重要，怎样针对不同场景持续稳定的提供推荐服务，是推荐系统的最重要的指标之一，提升推荐效果也要在保证系统稳定的前提下去进行优化

高并发

当某个时间节点大量用户访问，或用户规模急速扩大时，系统能否扛住高并发的压力，也是个很大的挑战。

了解接口的高并发能力，做好充分的压力测试

响应时间

衡量用户能否及时得到推荐反馈，response time 受多种因素影响，比如网络情况、服务器、数据库等，可通过监控请求的时长，接口监控，数据监控，做好报警措施

产生行为

用户产生行为，通过收集分析用户的行为日志进行相关指标的评价

示例：

1、推荐的曝光点击转化率

2、推荐的点击访问转化率

3、推荐的访问购买转化率

示例：

1、推荐曝光

2、点击（曝光点击转化率）

3、阅读（点击阅读转化率）

4、分享（阅读分享转化率）

AB测试

在线评估通常会结合AB测试

什么是AB测试

AB测试本质为对照实验，来源于医学的双盲测试，通过给两组病人不同的药物，来确定药物是否有效。

AB测试：将不同的算法/策略，在同一时间维度，分别在两组或者多组组成成分相同的用户群体内容进行线上测试，分析各组用户的行为指标，得到可以真正全流量上线的算法和策略

AB测试常见做法

核心：控制变量、分流测试、规则统一

控制变量

AB测试必须是单变量的，变量太多会产生干扰，很难找到各个变量对结果的影响程度。

分流测试

AB测试作为对照试验，自然要有试验组和对照组。通常会对用户进行分流

用户ID 设备号浏览器cookie 约定生成的伪随机数，0，1大数定律 规则统一

在控制变量和分流测试的前提下，针对不同的流量，应制定相同的评价指标，才能得到准确的对比效果。

在这里插入图片描述

作者：OceanEyes.GZY

健康推荐系统系统

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

最常用的HTML转义字符 Escape Sequence

Chynna 2021-04-13

688

PHP-FPM 设置多pool及配置文件重写操作示例

Valonia 2021-03-05

509

laravel框架模板之公共模板、继承、包含实现方法分析

Diana 2020-01-21

504

QT实战之实现图片浏览系统

Tricia 2023-04-26

1370

基于C语言编写简易的英文统计和加密系统

Kathy 2023-05-06

1899

如何设计一个几十万在线用户弹幕系统需求方案

Elita 2023-05-09

775

Windows10系统中Oracle完全卸载正确步骤

Tia 2023-05-12

1738

浅谈Linux环境变量与系统编程

Damara 2023-05-12

577

Flutter SystemChrome控制应用程序的系统级别行为

Rosalia 2023-05-12

945

JankMan-极致的卡顿分析系统

Rhea 2023-05-12

863

Android媒体通知栏多系统适配实例讲解

Katherine 2023-05-12

336

理解ASP.NETCore配置系统

Diane 2023-05-13

333

利用C++实现计算机辅助教学系统

Chipo 2023-05-13

646

初学者如何快速搭建Express开发系统步骤详解

Fawn 2023-05-17

317

java获取和设置系统变量问题(环境变量)

Ilona 2023-06-08

936

PostgreSQL数据库管理系统快速入门

Oria 2023-07-17

1096

一文透彻详解.NET框架类型系统设计要点

Malina 2023-07-20

848

Oracle数据库的系统结构

Iria 2023-07-20

1494

iOS开发APP跳转到设置或系统页面详解

Bianca 2023-07-20

150

c语言实现通讯录管理系统详细实例

Jacuqeline 2023-07-20

446

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座