中国大学排名定向爬虫实例

Scarlett ·

更新时间:2024-11-14

· 746 次阅读

功能描述：

程序的结构设计：

网页结构：

网页代码框架：

#第一个大学

... ... ... .......

.......

#第N个大学

... ... ... .......

爬虫代码：


import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):   #输入url，返回HTML
	try:
		r=requests.get(url,timeout=30)
		r.raise_for_status()
		r.encoding=r.apparent_encoding
		return r.text
	except :
		return "爬取失败"
def fillUnivList(ulist,html):  #将HTML页面放到ulist列表中
	soup=BeautifulSoup(html,"html.parser")
	for tr in soup.find('tbody').children:
		if isinstance(tr,bs4.element.Tag):  #将tr不是Tag的标签过滤
			tds=tr('td')   #查tr中的td标签
			ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string])
def printUnivList(ulist,num):   #将ulist信息打印出来，num为个数
	print("{:^10}\t{:^6}\t{:^6}\t{:^10}".format("排名","学校名称","省市","总分"))  #打印表头
	for i in range(num):
		u=ulist[i]
		print("{:^10}\t{:^6}\t{:^6}\t{:^10}".format(u[0],u[1],u[2],u[3]))
if __name__=="__main__":
	uinfo=[]
	url="http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"
	html=getHTMLText(url)
	fillUnivList(uinfo,html)
	printUnivList(uinfo,20)  #20个学校的信息
爬取结果：

输出格式优化：
上述爬取结果可以看出格式不是很好对齐，进行优化


原代码：

def printUnivList(ulist,num):   #将ulist信息打印出来，num为个数
	print("{:^10}\t{:^6}\t{:^6}\t{:^10}".format("排名","学校名称","省市","总分"))  #打印表头
	for i in range(num):
		u=ulist[i]
		print("{:^10}\t{:^6}\t{:^6}\t{:^10}".format(u[0],u[1],u[2],u[3]))
优化后代码：

def printUnivList(ulist,num):   #将ulist信息打印出来，num为个数
	tplt="{0:^10}\t{1:{4}^10}\t{2:^6}\t{3:^10}"  #{1:{4}^10}中的{4}表示用format格式中的4（即第五个）参数：chr(12288)
	print(tplt.format("排名","学校名称","省市","总分",chr(12288)))  #打印表头
	for i in range(num):
		u=ulist[i]
		print(tplt.format(u[0],u[1],u[2],u[3],chr(12288)))
优化后的结果：



作者：LY_624
                    
 
                

                            爬虫
                            中国大学
                            大学


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            Button的四种Click响应方法汇总
        
        
            Vanna
            2021-01-09
        
    
    
        562
    


    
        
            NopCommerce架构分析之(四)基于路由实现灵活的插件机制
        
        
            Rosalba
            2020-03-05
        
    
    
        574
    


    
        
            important的妙用解决firefox和ie的css兼容问题
        
        
            Flower
            2020-11-13
        
    
    
        940
    


    
        
            python网络爬虫实现个性化音乐播放器示例解析
        
        
            Faye
            2022-10-23
        
    
    
        1230
    


    
        
            详解如何使用Python网络爬虫获取招聘信息
        
        
            Roselani
            2022-10-23
        
    
    
        1253
    


    
        
            详解如何用Python写个听小说的爬虫
        
        
            Beth
            2022-10-23
        
    
    
        347
    


    
        
            Python用requests模块实现动态网页爬虫
        
        
            Tricia
            2022-10-23
        
    
    
        1277
    


    
        
            Python使用爬虫爬取贵阳房价的方法详解
        
        
            Fiorenza
            2022-10-23
        
    
    
        612
    


    
        
            爬虫逆向抖音新版signature分析案例
        
        
            Hazel
            2022-10-23
        
    
    
        1443
    


    
        
            python异步爬虫之多线程
        
        
            Nancy
            2022-10-23
        
    
    
        231
    


    
        
            基于Python3制作一个带GUI界面的小说爬虫工具
        
        
            Bonita
            2022-10-23
        
    
    
        1611
    


    
        
            用python爬取中国大学排名网站排名信息
        
        
            Veronica
            2022-10-23
        
    
    
        793
    


    
        
            一篇文章带你了解Python之Selenium自动化爬虫
        
        
            Liana
            2022-10-23
        
    
    
        1206
    


    
        
            Python-Selenium自动化爬虫
        
        
            Jenna
            2022-10-23
        
    
    
        1696
    


    
        
            c#实现爬虫程序
        
        
            Tia
            2022-10-24
        
    
    
        86
    


    
        
            详解C#如何利用爬虫技术实现快捷租房
        
        
            Bambi
            2022-11-07
        
    
    
        1010
    


    
        
    
    
        
            Python用yieldfrom实现异步协程爬虫的实践
        
        
            Tia
            2023-01-19
        
    
    
        1481
    


    
        
            爬虫训练前端基础Bootstrap5排版表格图像
        
        
            Rhea
            2023-02-26
        
    
    
        6
    


    
        
            Python网络爬虫之获取网络数据
        
        
            Tricia
            2023-04-30
        
    
    
        686
    


    
        
            Golang多线程爬虫高效抓取大量数据的利器
        
        
            Tallulah
            2023-05-12
        
    
    
        322


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座