python 爬取豆瓣电影评论，并进行词云展示

Kamilia ·

更新时间:2024-11-10

· 980 次阅读


# -*-coding:utf-8-*-
import urllib.request
from bs4 import BeautifulSoup
def getHtml(url):
    """获取url页面"""
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'}
    req = urllib.request.Request(url,headers=headers)
    req = urllib.request.urlopen(req)
    content = req.read().decode('utf-8')
    return content
def getComment(url):
    """解析HTML页面"""
    html = getHtml(url)
    soupComment = BeautifulSoup(html, 'html.parser')
    comments = soupComment.findAll('span', 'short')
    onePageComments = []
    for comment in comments:
        # print(comment.getText()+'\n')
        onePageComments.append(comment.getText()+'\n')
    return onePageComments
if __name__ == '__main__':
    f = open('我不是药神page10.txt', 'w', encoding='utf-8') 
    for page in range(10):  # 豆瓣爬取多页评论需要验证。
        url = 'https://movie.douban.com/subject/26752088/comments?start=' + str(20*page) + '&limit=20&sort=new_score&status=P'
        print('第%s页的评论:' % (page+1))
        print(url + '\n')
        for i in getComment(url):
            f.write(i)
            print(i)
        print('\n')
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from scipy.misc import imread
import jieba
text = open("我不是药神page10.txt","rb").read()
#结巴分词
wordlist = jieba.cut(text,cut_all=True)
wl = " ".join(wordlist)
#print(wl)#输出分词之后的txt
#把分词后的txt写入文本文件
#fenciTxt  = open("fenciHou.txt","w+")
#fenciTxt.writelines(wl)
#fenciTxt.close()
#设置词云
wc = WordCloud(background_color = "white", #设置背景颜色
               mask = imread('shen.jpg'),  #设置背景图片
               max_words = 2000, #设置最大显示的字数
               stopwords = ["的", "这种", "这样", "还是", "就是", "这个"], #设置停用词
               font_path = "D:\yychen\词云\simkai.ttf",  # 设置为楷体 常规
        #设置中文字体，使得词云可以显示（词云默认字体是“DroidSansMono.ttf字体库”，不支持中文）
               max_font_size = 60,  #设置字体最大值
               random_state = 30, #设置有多少种随机生成状态，即有多少种配色方案
    )
myword = wc.generate(wl)#生成词云
wc.to_file('result.jpg')
#展示词云图
plt.imshow(myword)
plt.axis("off")
plt.show()
simkai.ttf   楷体 常规自己下一个，包放的路径要对，还有背景图片也要放对了路径


作者：chen_zan_yu_
                    
 
                

                            电影
                            词云
                            展示
                            豆瓣
                            Python


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            HTML 字符集
        
        
            Kamiisa
            2020-04-27
        
    
    
        703
    


    
        
    
    
        
            利用HTML5 Canvas制作一个简单的打飞机游戏
        
        
            Diane
            2020-03-17
        
    
    
        525
    


    
        
            Linux下使用Shell脚本获取终端宽度的解决方法
        
        
            An
            2021-07-09
        
    
    
        965
    


    
        
            Linux进程通信（IPC）方式简介
        
        
            Cybill
            2020-07-29
        
    
    
        650
    


    
        
    
    
        
            Vuex,iView UI面包屑导航使用扩展详解
        
        
            Jacinthe
            2021-03-14
        
    
    
        541
    


    
        
            Docker部署Python应用的方法实现
        
        
            Madge
            2023-07-22
        
    
    
        687
    


    
        
            一文详解Python中多进程和进程池的使用方法
        
        
            Serafina
            2023-07-24
        
    
    
        338
    


    
        
            Python中常用功能的实现代码分享
        
        
            Kathy
            2023-07-24
        
    
    
        934
    


    
        
            python简单几步实现时间日期处理到数据文件的读写
        
        
            Nora
            2023-07-24
        
    
    
        926
    


    
        
    
    
        
            Python采集二手车数据的超详细讲解
        
        
            Pandora
            2023-07-24
        
    
    
        294
    


    
        
            Python进阶之利用+和*进行列表拼接
        
        
            Tani
            2023-07-24
        
    
    
        656
    


    
        
    
    
        
            Python进阶之列表推导与生成器表达式详解
        
        
            Tanisha
            2023-07-24
        
    
    
        1394
    


    
        
    
    
        
            Python实战使用XPath采集数据示例解析
        
        
            Diane
            2023-07-24
        
    
    
        1433
    


    
        
            Python 对象拷贝及深浅拷贝区别的详细教程示例
        
        
            Miette
            2023-08-09
        
    
    
        488
    


    
        
    
    
        
            使用Python对接OpenAi API实现智能QQ机器人的方法
        
        
            Miette
            2023-08-28
        
    
    
        1874
    


    
        
    
    
        
            python进阶学习实时目标跟踪示例详解
        
        
            Serafina
            2023-08-28
        
    
    
        1732
    


    
        
    
    
        
            Python人工智能语音合成实现案例详解
        
        
            Rhea
            2023-08-28
        
    
    
        744
    


    
        
    
    
        
            python Tkinter实例详解
        
        
            Malinda
            2023-08-28
        
    
    
        1999
    


    
        
            Python人工智能构建简单聊天机器人示例详解
        
        
            Kathy
            2023-08-28
        
    
    
        1370
    


    
        
    
    
        
            Python ttkbootstrap的介绍与使用教程
        
        
            Nora
            2023-08-28
        
    
    
        1592


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座