利用爬虫破解简单Custom font

Peggy ·

更新时间:2024-09-20

· 711 次阅读

利用爬虫破解简单Custom font

持续更新第二弹！

前期准备 前提说明：本次选取实习僧的代码字体加密进行破解，需要注意的是，实习僧的字体加密每隔一段时间会发生变化，但破解方法大同小异。对象说明：本次选取实习僧网页中Python实习薪资进行破解，前面一些代码不做过多叙述，主要分享破解方法。 代码破解 铺垫代码展示：

import requests
from bs4 import BeautifulSoup
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"}
def detail_data(url):#定义一个函数，方便操作。
    html=requests.get(url,headers=headers)
    soup=BeautifulSoup(html.text,'lxml')
    title=soup.select('.new_job_name span')[0].get_text()
    salary=soup.select('.job_msg span')[0].get_text()
    print(title,salary)
for i in range (1,4):
    url="https://www.shixiseng.com/interns?page={}&keyword=python&type=intern".format(i)
    html=requests.get(url,headers=headers)
    soup=BeautifulSoup(html.text,"lxml")
    detail_urls=soup.select('.f-l .intern-detail__job p a')
    for d in detail_urls:
        detail_data(d['href'])

出现乱码：

数据实习生 -/天
Python/C++/C#软件开发工程师 -/天
后端开发实习生 -/天
金融工程实习生 -/天

分析乱码：首先新建一个测试py，然后转换为utf8编码形式，多选取几个数据，研究其内在规律，因为篇幅原因，此次只选取6个数字。

print('-'.encode('utf8'))
#200-250
#b'\xee\x8b\x87\xee\x87\xac\xee\x87\xac-\xee\x8b\x87\xef\x93\xbf\xee\x87\xac'
#120-180
#b'\xee\x8b\x87\xef\x9f\xa9\xee\x8b\x87\xee\x87\xac-\xef\x9f\xa9\xee\x9d\xa1\xee\x87\xac'
#80-120
#b'\xee\x8b\x87\xef\x9f\xa9\xee\x8b\x87\xee\x9d\xa1\xee\x87\xac-\xef\x9f\xa9\xee\x8b\x87\xee\x87\xac
#150-200
#b'\xee\x8b\x87\xef\x9f\xa9\xee\x8b\x87\xee\x9d\xa1\xef\x9f\xa9\xef\x93\xbf\xee\x87\xac-\xee\x8b\x87\xee\x87\xac\xee\x87\xac
#50-50
#b'\xee\x8b\x87\xef\x9f\xa9\xee\x8b\x87\xee\x9d\xa1\xef\x9f\xa9\xef\x93\xbf\xef\x93\xbf\xee\x87\xac-\xef\x93\xbf\xee\x87\xac
#250-300
#b'\xee\x8b\x87\xef\x9f\xa9\xee\x8b\x87\xee\x9d\xa1\xef\x9f\xa9\xef\x93\xbf\xef\x93\xbf\xee\x8b\x87\xef\x93\xbf\xee\x87\xac-\xee\x8d\xad\xee\x87\xac\xee\x87\xac
#可以发现规律，‘—’后每三个编码表示一个数字，可以将每个数字和编码对应起来，注意需要多次确认。
#0 \xee\x87\xac
#1  \xef\x9f\xa9
#2  \xee\x8b\x87
#3   \xee\x8d\xad
#5   \xef\x93\xbf
#8  \xee\x9d\xa1

代码转换：因为是通过utf8进行破译的，所以在开始和结束时都要记得转换。

import requests
from bs4 import BeautifulSoup
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"}
def detail_data(url):#定义一个函数，方便操作。
    html=requests.get(url,headers=headers)
    soup=BeautifulSoup(html.text,'lxml')
    title=soup.select('.new_job_name span')[0].get_text()
    salary=soup.select('.job_msg span')[0].get_text().encode('utf8')
    salary=salary.replace(b'\xee\x87\xac',b'0')
    salary=salary.replace(b'\xef\x9f\xa9',b'1')
    salary=salary.replace(b'\xee\x8b\x87',b'2')
    salary=salary.replace(b'\xee\x8d\xad',b'3')
    salary=salary.replace(b'\xef\x93\xbf',b'5')
    salary=salary.replace(b'\xee\x9d\xa1',b'8')
    salary=salary.decode('utf8')
    print(title,salary)
for i in range (1,4):
    url="https://www.shixiseng.com/interns?page={}&keyword=python&type=intern".format(i)
    html=requests.get(url,headers=headers)
    soup=BeautifulSoup(html.text,"lxml")
    detail_urls=soup.select('.f-l .intern-detail__job p a')
    for d in detail_urls:
        detail_data(d['href'])

结果图：

后端开发实习生 150-200/天
金融工程实习生 150-150/天
后台实习生 120-200/天

补充：因为破解数字有限，所以有些还是无法显示，如果要全部显示就可以按照以上方法将数字编码补全即可。
作者：初学苟

爬虫 font

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

HTML 链接

Blossom 2020-05-01

542

important的妙用解决firefox和ie的css兼容问题

Flower 2020-11-13

940

通过淘宝数据爬虫学习python scrapy requests与response对象

Xanthe 2022-10-16

1429

Pycharm使用爬虫时遇到etree红线问题及解决

Vidonia 2022-10-17

702

python网络爬虫实现个性化音乐播放器示例解析

Faye 2022-10-23

1230

详解如何使用Python网络爬虫获取招聘信息

Roselani 2022-10-23

1253

详解如何用Python写个听小说的爬虫

Beth 2022-10-23

347

Python用requests模块实现动态网页爬虫

Tricia 2022-10-23

1277

Python使用爬虫爬取贵阳房价的方法详解

Fiorenza 2022-10-23

612

爬虫逆向抖音新版signature分析案例

Hazel 2022-10-23

1443

python异步爬虫之多线程

Nancy 2022-10-23

231

基于Python3制作一个带GUI界面的小说爬虫工具

Bonita 2022-10-23

1611

一篇文章带你了解Python之Selenium自动化爬虫

Liana 2022-10-23

1206

Python-Selenium自动化爬虫

Jenna 2022-10-23

1696

c#实现爬虫程序

Tia 2022-10-24

详解C#如何利用爬虫技术实现快捷租房

Bambi 2022-11-07

1010

Python用yieldfrom实现异步协程爬虫的实践

Tia 2023-01-19

1481

爬虫训练前端基础Bootstrap5排版表格图像

Rhea 2023-02-26

gulp-font-spider实现中文字体包压缩实践

Heidi 2023-03-17

1059

Python网络爬虫之获取网络数据

Tricia 2023-04-30

686

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座