PySpark对电影和用户进行聚类分析

Felcia ·

更新时间:2024-11-13

· 506 次阅读

之前的博文使用pyspark.mllib.recommendation做推荐案例，代码实现了如何为用户做电影推荐和为电影找到潜在的感兴趣用户。本篇博文介绍如何利用因子分解出的用户特征、电影特征做用户和电影的聚类分析，以看能否找到不同于已知的、有趣的新信息。

第一步：获取用户评分数据显式因式分解后的movieFactors、userFactors。


from pyspark.mllib.recommendation import ALS,Rating
#用户评分数据
rawData = sc.textFile("/Users/gao/data/ml-100k/u.data")
rawRatings = rawData.map(lambda line:line.split("\t")[:3])
#构造user-item-rating 数据
ratings = rawRatings.map(lambda line:Rating(user=int(line[0]),product=int(line[1]),rating=float(line[2])))
#评分数据放入缓存中
ratings.cache()
#模型训练
alsModel = ALS.train(ratings, rank=50, iterations=10, lambda_=0.1) 
#根据因式分解出的 productFeatures\userFeatures 
from pyspark.mllib.linalg import Vectors
movieFactors = alsModel.productFeatures().map(lambda product_features:(product_features[0],Vectors.dense(product_features[1])))
movieVectors = movieFactors.map(lambda line:line[1])
userFactors = alsModel.userFeatures().map(lambda user_features:(user_features[0],Vectors.dense(user_features[1])))
userVectors = userFactors.map(lambda line:line[1])

第二步，读入电影题材数据

#电影题材数据
genres = sc.textFile("/Users/gao/Desktop/Toby/5Spark-JDK/data/ml-100k/u.genre")
#电影题材数据按照 | 分割
genreMap = genres.filter(lambda line:line!='' and len(line)>4).map(lambda line:line.split('|')).map(lambda arr:(arr[1],arr[0])).collectAsMap()
print(genreMap)
#电影名称和题材标注数据
movies = sc.textFile("/Users/gao/data/ml-100k/u.item")
#获取电影名称和题材名对应数据
import numpy as np 
def  titles_and_genres(line,genreMap):
	arr = line.split('|')
	idx = int(arr[0])
	title =  str(arr[1])
	genre_list = np.array([int(i) for i in arr[5:]])
	index_list = [index for index in np.where(genre_list==1)[0]]
	genresAssigned = [genreMap[str(index)] for index in index_list]
	print(genresAssigned)
	return (idx,(title,genresAssigned))
genreMap_bcast = sc.broadcast(genreMap)
titlesAndGenres = movies.map(lambda line:titles_and_genres(line,genreMap_bcast.value))
第三步，查看特征数据是否需要规范化

#查看特征数据是否需要规范化
from pyspark.mllib.linalg.distributed import RowMatrix
movieMatrix = RowMatrix(movieVectors)
movieMatrixSummary =movieMatrix.computeColumnSummaryStatistics()
userMatrix = RowMatrix(userVectors)
userMatrixSummary =userMatrix.computeColumnSummaryStatistics()
print("Movie factors mean: {}".format(movieMatrixSummary.mean()))
print("Movie factors variance:  {}".format(movieMatrixSummary.variance()))
print("User factors mean:  {}".format(userMatrixSummary.mean()))
print("User factors variance:  {}".format(userMatrixSummary.variance()))
第四步，训练模型-KMeans聚类

from pyspark.mllib.clustering import KMeans
numClusters = 5
numIterations = 10
#训练产品特征数据的聚类 ，查看下聚类中心
movieClusterModel = KMeans.train(rdd=movieVectors, k=numClusters,maxIterations=numIterations)
movieClusterModel.clusterCenters
#预测聚类中心
predictions = movieClusterModel.predict(movieVectors)
第五步，解释聚类含义

#解释聚类的含义
import math
def computeDistance(v1,v2):
	v = v1-v2
	return v.dot(v)
titlesWithFactors = titlesAndGenres.join(movieFactors)
#查看电影的聚类情况
def movieAssignedCluster(line):
	(id,((title,genres), vector)) = line
	pred = movieClusterModel.predict(vector)
	clusterCentre = movieClusterModel.clusterCenters[pred]
	dist = computeDistance(Vectors.dense(clusterCentre),Vectors.dense(vector))
	return (id, title, genres, pred, dist)
moviesAssigned = titlesWithFactors.map(lambda line:movieAssignedCluster(line))
clusterAssignments = moviesAssigned.groupBy(lambda x:x[3]).collectAsMap()
#输出每个聚类中，距离聚类中心最近的Top电影
for (k,v) in clusterAssignments.items():
	print('Cluster %d:'%k)
	m = sorted([(x[1],x[2],x[4]) for x in v], key=lambda x:x[-1], reverse=False) 
	print([x for x in m[:20]])
	print("==========")
聚类0中的电影基本是Drama类型的，偏向爱情、浪漫的题材。

第六步，拆分训练集、测试集，调聚类中心参数K，并评价聚类模型

#拆分训练集、测试集
trainTestSplitMovies = movieVectors.randomSplit(np.array([0.6, 0.4]),123)
trainMovies = trainTestSplitMovies[0]
testMovies = trainTestSplitMovies[1]
print('Movie clustering cross-validation:')
#调参-聚类中心K
for k in [2, 3, 4, 5, 10, 20,30,40,50]:
	model = KMeans.train(rdd=trainMovies, k=k,maxIterations=numIterations)
	cost = model.computeCost(testMovies)
	print('WCSS for k={} is {:.4f}'.format(k,cost))

随着K的增大，WCSS减小，但到K=20后，WCSS的减小趋势变缓。所以，结合需求的同时，K取在20以内比较好。

Done


作者：Just Jump
                    
 
                

                            电影
                            聚类分析
                            pyspark
                            聚类


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            HTML5新增属性data-*和js/jquery之间的交互及注意事项
        
        
            Alice
            2020-11-20
        
    
    
        545
    


    
        
            golang双链表的实现代码示例
        
        
            Aurora
            2020-09-15
        
    
    
        522
    


    
        
    
    
        
            TP5框架请求响应参数实例分析
        
        
            Diana
            2020-06-17
        
    
    
        966
    


    
        
    
    
        
            Vuex,iView UI面包屑导航使用扩展详解
        
        
            Jacinthe
            2021-03-14
        
    
    
        541
    


    
        
    
    
        
            Python+OpenCV实战之利用 K-Means 聚类进行色彩量化
        
        
            Tanisha
            2022-01-14
        
    
    
        117
    


    
        
    
    
        
            鸿蒙系统微电影创作功能怎么使用?鸿蒙微电影创作使用方法
        
        
            Hadara
            2022-02-23
        
    
    
        182
    


    
        
    
    
        
            在豆瓣上找电影时如何将喜欢的电影下载
        
        
            Veronica
            2022-03-07
        
    
    
        400
    


    
        
    
    
        
            电脑看电影的时候鼠标不动自动重启怎么办？
        
        
            Iria
            2022-03-08
        
    
    
        839
    


    
        
            python中opencvK均值聚类的实现示例
        
        
            Jacinthe
            2022-06-06
        
    
    
        245
    


    
        
    
    
        
            python 爬取豆瓣电影短评并利用wordcloud生成词云图
        
        
            Serwa
            2022-06-07
        
    
    
        1256
    


    
        
    
    
        
            pyspark自定义UDAF函数调用报错问题解决
        
        
            Mercia
            2022-06-08
        
    
    
        143
    


    
        
            JavaSE实现电影院系统
        
        
            Pandora
            2022-08-12
        
    
    
        1056
    


    
        
    
    
        
            C语言实现电影管理系统
        
        
            Antonia
            2022-08-12
        
    
    
        429
    


    
        
    
    
        
            Python获取时光网电影数据的实例代码
        
        
            Maleah
            2022-09-04
        
    
    
        83
    


    
        
            详解基于K-means的用户画像聚类模型
        
        
            Hazel
            2022-10-16
        
    
    
        807
    


    
        
            Python实现抓取腾讯视频所有电影的示例代码
        
        
            Katherine
            2022-10-19
        
    
    
        1738
    


    
        
            JS实现电影票选座的项目示例
        
        
            Glenna
            2022-10-19
        
    
    
        614
    


    
        
            Spectral clustering谱聚类算法的实现代码
        
        
            Xylona
            2022-10-23
        
    
    
        68
    


    
        
            Python自定义指标聚类实例代码
        
        
            Antonia
            2022-10-23
        
    
    
        1550
    


    
        
            PySpark与GraphFrames的安装与使用环境搭建过程
        
        
            Flavia
            2022-10-23
        
    
    
        645


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座