pyhton爬虫：三种爬取csdn首页所有文章的方法

Tertia ·

更新时间:2024-09-20

· 753 次阅读

1. 爬取csdn首页所有文章 1.1 方法1

import urllib.request
import re
url='http://blog.csdn.net/'
#伪装浏览器
headers=('User-Agent','Mozilla/5.0 (Windows NT 10.0； WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)
data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
print(data)
pat='

`<a href="(.?)"' result=re.compile(pat).findall(data) #下载到本地 for i in range(0,len(resture)): file='F:/jupyterpycodes/python_pachongfenxi/result'+str(i)+'.html' urllib.request.urlretrieve(resture[i],filename=file) print('第'+str(i)+'次爬取成功')` 1.2 方法2 import re import urllib.request def function(): """Python爬虫爬取CSDND首页的所有的文章""" html="https://blog.csdn.net/nav/engineering" #模拟浏览器 headers=('User-Agent','Mozilla/5.0 (Windows NT 10.0； WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')#这里用的是Fix浏览器进行爬取的一个报头如果是采用其他的这个报头就要进行更换 opener=urllib.request.build_opener() opener.addheader=[headers] urllib.request.install_opener(opener) data = urllib.request.urlopen(html).read() data = data.decode("utf-8", "ignore") print(data) pattern='
`<a href="(.?)"' mydata=re.compile(pattern).findall(data) print(mydata) for i in range(0,len(mydata)): file="F:/jupyterpycodes/python_pachongfenxi/result"+str(i)+".html" urllib.request.urlretrieve(mydata[i],filename=file) print("第%d次爬取成功"%i) print("CSDN爬虫结束")` 1.3 方法3 import re import os import urllib.request import urllib.error #设置用户浏览器代理 header=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0") opener=urllib.request.build_opener() opener.addheaders=[header] #将header设置为全局 urllib.request.install_opener(opener) url="http://blog.csdn.net/" data=opener.open(url).read().decode("utf-8") pat='''data-track-click='{"mod":"popu_459","con":",(.?),''' blogurl=re.compile(pat).findall(data) #通过列表变为元组在变为列表的方式来进行除重 blogurl=list(set(blogurl)) #获取的链接数 pagesnum=len(blogurl) #指定本地存放目录 localpath="F:/jupyterpycodes/python_pachongfenxi/result" #如果没有这个目录则创建该目录 if not os.path.exists(localpath): os.mkdir(localpath) print("该页面一共有"+str(pagesnum)+"篇文章") #匹配每篇文章题目的正则表达式 pat2='''"keyword":"(.?)"}'>''' for i in range(0,len(blogurl)): try: thislink=blogurl[i] #获取文章标题 data2=urllib.request.urlopen(thislink).read().decode("utf-8") name=re.compile(pat2).findall(data2) #下载该链接到本地 urllib.request.urlretrieve(thislink,localpath+str(name)+".html") #给文件重命名 print("第"+str(i+1)+"/"+str(pagesnum)+"篇文章已成功爬取到本地......"+"\n") except Exception as e: print("第"+str(i+1)+"/"+str(pagesnum)+"下载失败\n原因是："+str(e)) 2. 代理服务器：
是一个处于我们与互联网中间的服务器。如果使用代理服务器，我们浏览信息的时候，先向代理服务器发出请求,然后由代理服务器向互联网获取信息，再返回给我们。
使用代理服务器爬虫，可以很好的解决IP限制的问题。
`import urllib.request #设置代理服务器函数 def use_proxy(url,proxy_addr): proxy=urllib.request.ProxyHandler({'http':proxy_addr}) opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler) urllib.request.install_opener(opener) urllib.request.urlopen(url).read().decode('utf-8','ingnore') return data proxy_addr='119.183.220.224:8888'#尝试免费的代理IP url='http://www.baidu.com' data=use_proxy(url,proxy_addr) print(len(data))`
作者：数据分析阿宇君

方法 csdn

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

定义内联元素span的最小高度问题

Olathe 2021-03-18

853

Laravel 中使用简单的方法跟踪用户是否在线(推荐)

Serwa 2020-03-20

874

docker网卡的IP地址修改方法总结

Rae 2023-07-22

1847

docker命令中必须加上sudo的问题解决方法

Rhoda 2023-07-22

1038

Elasticsearch/Kibana密码设置方法

Hester 2023-07-22

1081

docker查询日志并输出到文件的方法

Grace 2023-07-22

1029

docker容器/etc/hosts文件修改方法

Vanna 2023-07-22

1279

docker容器连接宿主机redis与mysql的配置方法

Peony 2023-07-22

1975

Docker镜像之不同服务器间迁移方法大全

Dorothy 2023-07-22

1993

docker容器使用内存大小限制方法

Dulcea 2023-07-22

493

在Linux中列出Systemd下所有正在运行的服务的方法指南

Zandra 2023-07-22

507

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

VMware克隆虚拟机并重新设置IP和主机名的实现方法

Kathy 2023-08-08

194

使用nginx.exe时闪退的原因和解决方法

Olivia 2023-08-08

694

阿里云服务IIS搭建Web网站外网无法访问的解决方法

Elina 2023-08-08

897

ssh报错nokeyalg的解决方法(关于低版本连接高版本ssh)

Jacinthe 2023-08-08

339

在没有Docker缓存的情况下构建镜像的方法分享

Viridis 2023-08-08

1779

docker-compose中启动镜像失败的几种解决方法

Hana 2023-08-08

725

Windows服务器默认IE浏览器无法下载文件的解决方法

Cybill 2023-08-08

1355

Windows服务器长时间保持远程桌面不被自动断开的方法

Elsa 2023-08-08

1249

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座