Python网络爬虫验证码识别

Ursula ·

更新时间:2024-09-21

· 864 次阅读

本文主要利用tesseract识别网页登陆中的验证码（从图像的角度，不是Cookie）

很多人对CAPTCHA（验证码）很熟悉，但是很少有人知道其含义：全自动区分计算机和人类的图灵测试。通俗的讲就是是一种区分人和人工智能程序的方法。很多的网页都设置了验证码，常见的就是由“字母数字”组成的图片，如下：

本文的代码是利用selenium模拟浏览器的运行，识别登陆界面的验证码，分割验证码的区域然后识别验证码（光学字符识别）。

# -*- coding: utf-8 -*-
"""
Created on Sun Apr 26 17:42:23 2020
@author: dell
"""
import re  # 用于正则
from PIL import Image  # 用于打开图片和对图片处理
import tesserocr
import pytesseract  # 用于图片转文字
from selenium import webdriver  # 用于打开网站
import time  # 代码运行停顿
import requests
def get_pictures():
        try:
            driver = webdriver.Chrome()
            driver.get('https:XXXXXXXXXXXX/')
            driver.refresh() #刷新页面
            driver.maximize_window() #浏览器最大化
            # time.sleep(10)
        except:
            print("HaHa!")
            driver.close()
        find_element = driver.find_element_by_css_selector
        driver.save_screenshot('C:/Users/dell/Desktop/shot/pictures.png')
        img = find_element('#verifyCanvas')
        page_snap_obj = Image.open('C:/Users/dell/Desktop/shot/pictures.png')
        location = img.location
        size = img.size  # 获取验证码的大小参数
        print(location, size)
        left = location['x']
        top = location['y']
        right = left + size['width']
        bottom = top + size['height']
        image_obj = page_snap_obj.crop((left, top, right, bottom))  # 按照验证码的长宽，切割验证码
        image_obj.show()  # 打开切割后的完整验证码
        driver.close()  # 处理完验证码后关闭浏览器
        return image_obj
def processing_image():
    image_obj = get_pictures()  # 获取验证码
    img = image_obj.convert("L")  # 转灰度
    img.show()
    pixdata = img.load()
    w, h = img.size
    threshold = 160
    #160, 140, 
    # 遍历所有像素，大于阈值的为黑色
    for y in range(h):
        for x in range(w):
            if pixdata[x, y] < threshold:
                pixdata[x, y] = 0
            else:
                pixdata[x, y] = 255
    img.show()
    # return img.point(pixdata, '1')
    return img
    return img
def image_str():
    image = processing_image()
    pytesseract.pytesseract.tesseract_cmd = "D:/Anaconda/Tesseract-OCR/tesseract.exe"  # 设置pyteseract路径
    result = pytesseract.image_to_string(image)  # 图片转文字
    return result
if __name__ == '__main__':
    yanzheng_code = image_str().replace(" ", "")
    print(yanzheng_code)
    # params = {'userName': 'XXXXX', 'password': 'XXXXXX', 'yanzhengs': yanzheng_code}
    # session=requests.Session() 
    # r = session.get('https://osdds.nsoas.org.cn/#/', headers=head)
# image = Image.open(r'C:\Users\dell\Desktop\shot\code.png')
# print(tesserocr.image_to_text(image))

下图是 灰度+二值化 后的验证码，是最终我们需要的图片格式。

输出的结果有时并不太理想，图片中的字母或数字发生了倾斜重合，是一种干扰，会降低识别的准确性，但是多试几次，一定会有命中的次数。

runfile('C:/Users/dell/Desktop/shot/verify_final.py', wdir='C:/Users/dell/Desktop/shot')
{'x': 1041, 'y': 334} {'height': 45, 'width': 130}
6BBK

如有疑问，欢迎留言哦！

傻灰

原创文章 17获赞 44访问量 3074 关注私信展开阅读全文
作者：傻灰

爬虫验证码验证码识别 Python

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

HTML 字符集

Kamiisa 2020-04-27

703

在html中禁用自动完成不让其显示历史记录

Doris 2020-04-24

761

html之简单网页表格制作示例介绍

Diana 2021-08-07

972

important的妙用解决firefox和ie的css兼容问题

Flower 2020-11-13

940

Docker部署Python应用的方法实现

Madge 2023-07-22

687

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座