（第7篇）八斗学习课堂笔记-【01、02】推荐系统

Posy ·

更新时间:2024-11-14

· 593 次阅读

第一步：召回阶段：用token检索item，（比如8个item）

第二步：过滤阶段：把劣质的item过滤掉，（剩余5个item）

第三步：排序，把好的item排前面

第四步：截断，取TopN

其中，第一步和第二步属于粗排阶段，侧重于召回；第三、第四步属于精排阶段，侧重于准确。

建库：

==================================================================

【02】MR实践复习

1、架构

2、mapreduce（复习）

2.1 MR基本概念

（1）通常一个集群中，有这几个角色：master、slave、client

（2）数据副本 —— 数据高可用、容灾

（3）mapreduce —— 分而治之思想

（4）一个split和一个map是一对一的关系

（5）开发java相当于开发函数，开发python等脚本，相当于规定好标准输入和输出

（6）hadoop 1.0 -> hadoop 2.0

hadoop1.0：

主：jobtracker、namenode

从：tasktracker、datanode

TaskTracker通过slot数目（可配置参数）限定Task的并发度

进程：worker

hadoop 2.0：

主：ResourceMgr（RM资源调度）、ApplicationManager（AM任务调度）

从：NodeManager（NM）

进程：容器（Container）

* 先排序再溢写

单机调试：


cat input | mapper | sort | reducer > output

节点上，分发目标path：


 /usr/local/src/hadoop-2.6.5/tmp/nm-local-dir/usercache/root/appcache/application_1543137200099_0011/container_1543137200099_0011_01_000001

杀死任务：


yarn application -kill application_1543137200099_0011

2.2 实践代码

（1）wordcount

（2）全排序

(a) 单reducer：依赖框架自身的sort功能

方式①：通过加一个很大的base_count，保证key对齐，依赖字典序完成全局排序

第一个代码：mr_allsort_1reduce_python（base count）


	  -jobconf "mapred.reduce.tasks=1"

方式②：通过配置完成全排序，不需要设置base_count

第二个代码：mr_allsort_1reduce_python_2 （通过配置完成）依赖于框架自身的sort功能


	  # 指定按 key 做 partition


       -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner


      # 利用该配置可以完成二次排序


       -jobconf  org.apache.hadoop.mapred.lib.KeyFieldBasedComparator \


      # 利用该配置可以完成key排序


      # 1 代表第一列


       -jobconf stream.num.map.output.key.fields=1 \


      # 设置map分隔符的位置，该位置前的为key，之后的为value


      # "-k1,1" 表示从第1个字段开始，到第一个字段结束，即第一个字段


      -jobconf mapred.text.key.partitioner.options="-k1,1" \


       # 设置key中需要比较的字段或字节范围


       # 选择哪一部分做partition，n是指数字


      -jobconf mapred.text.key.comparator.options="-k1,1n" \


      -jobconf mapred.reduce.tasks=1

(b) 多reducer

mr_allsort_python（多桶）

适合大数据


	-jobconf mapred.reduce.tasks=2 \


     # 二次排序的时候需要指定哪个是key，2代表前面两个字段区域作为key


	-jobconf stream.num.map.output.key.fields=2 \


     # 指定第一个字段是key，指定partition阶段的key值，用于分发


    -jobconf num.key.fields.for.partition=1 \


    -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner


//    mapred.text.key.partitioner.options，


//    这个参数可以认为是 num.key.fields.for.partition的升级版


//    它可以指定不仅限于key中的前几个字段用做partition，


//    而是可以单独指定 key中某个字段或者某几个字段一起做partition。

（3）白名单——分发


    -file：把本地的文件分发到各个节点


    -cachefile：把hdfs的压缩文件分发到各个节点


    -archivefile：把hdfs的压缩目录分发到各个节点


#  操作


 tar cvzf w.tar.gz white_list_1  white_list_2

（4）压缩


# 指定map的输出是否压缩，有助于减小数据量，减小io压力


# 通过该方法可以控制map个数，形成压缩文件之后不会再进行split


mapred.compress.map.output


# 指定map的输出压缩算法


mapred.map.output.compression.codec

（5）join

例如：相同的key，value拼成一起


-jobconf stream.num.map.output.key.fields=2 \


-jobconf num.key.fields.for.partition=1

3、一个简易demo，检索系统

名单信息：


# python main.py 9999

通过网页打开9999端口，并输入userid

一起学习一起讨论的可以加我V一起分享：我的名字叫甘世玉， v：姓名全拼1026

我这边有一些大数据的课程可以分享给你

作者：ijia1

推荐系统学习系统

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

最常用的HTML转义字符 Escape Sequence

Chynna 2021-04-13

688

Shell中去除字符串前后空格的方法

Iris 2021-08-03

567

PHP-FPM 设置多pool及配置文件重写操作示例

Valonia 2021-03-05

509

Java NIO下ByteBuffer的常用方法学习

Maleah 2023-05-17

473

MySQL基础学习之字符集的应用

Nafisa 2023-05-17

1150

java获取和设置系统变量问题(环境变量)

Ilona 2023-06-08

936

C++函数模板学习示例教程指南

Pandora 2023-07-07

PostgreSQL数据库管理系统快速入门

Oria 2023-07-17

1096

go语言定义零值可用的类型学习教程

Tallulah 2023-07-17

216

一文透彻详解.NET框架类型系统设计要点

Malina 2023-07-20

848

Oracle数据库的系统结构

Iria 2023-07-20

1494

Redis数据结构之intset整数集合使用学习

Janna 2023-07-20

1721

Redis数据结构之跳跃表使用学习

Ophelia 2023-07-20

644

Redis数据结构之listpack和quicklist使用学习

Natalia 2023-07-20

1968

iOS开发APP跳转到设置或系统页面详解

Bianca 2023-07-20

150

大语言模型的开发利器langchainan安装使用快速入门学习

Irma 2023-07-20

829

C++前缀树字典树的学习与模拟实现代码示例

Kirima 2023-07-20

1789

c语言实现通讯录管理系统详细实例

Jacuqeline 2023-07-20

446

Linux signal()函数的使用学习

Fawn 2023-07-21

785

基于Nginx实现一个灰度上线系统的示例代码

Valentina 2023-07-21

1768

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座