python简单实现从静态网页爬取数据

Gloria ·
更新时间:2024-11-14
· 805 次阅读

python简单实现从静态网页爬取数据 静态网页爬取数据

所谓静态网站就是从网页源代码里面找到所需要内容,那么我们怎么从这样网页中抓取需要的数据呢
步骤思路:

获取网页源代码,html 从html解析出所需要的数据 存储到Excel import urllib.request import re import xlwt def getWebSiteData(): data_list = [] for i in range(26700, 26800): # 要爬取的网址 url = 'http://www.risfond.com/case/fmcg/{}'.format(i) # 打开url并读取源代码 html = urllib.request.urlopen(url).read().decode('utf-8') # print(html) # 打印源代码 page_list = re.findall('
.*?(.*?)
', html) # 用正则获取符合条件的数据 # print(page_list) data_list.append(page_list) return data_list def excel_write(items): newTable = '高儿夫.xls' wb = xlwt.Workbook(encoding='utf-8') ws = wb.add_sheet('wpf') headData = ['职位名称', '职位地点', '时间', '行业', '招聘时间', '人数', '顾问'] for column in range(0, 7): ws.write(0,column,headData[column],xlwt.easyxf('font:bold on')) index = 1 for j in range(0, len(items)): for i in range(0, 7): ws.write(index, i, items[j][i]) index+=1 wb.save(newTable) items = getWebSiteData() excel_write(items)

爬取数据简单实现,有问题可随时联系


作者:wpfgaoerfu



数据 静态 静态网页 Python

需要 登录 后方可回复, 如果你还没有账号请 注册新账号