利用 Python 中的内置open函数读取二进制文件

Serafina ·

更新时间:2024-11-14

· 276 次阅读

在python中读取一个文本文件相信大家都比较熟悉了，但如果我们遇到一个二进制文件要读取怎么办呢？我们尝试使用 Python 中的内置 open 函数使用默认读取模式读取 zip 文件，抱歉，我们将收到错误消息：

>>> with open("exercises.zip") as zip_file:
...     contents = zip_file.read()
...
Traceback (most recent call last):
  File "<stdin>", line 2, in <module>
  File "/usr/lib/python3.10/codecs.py", line 322, in de
code
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8e in position 11: invalid sta
rt byte

我们收到一个错误，是因为 zip 文件不是文本文件，它们是二进制文件。

要从二进制文件中读取，我们需要使用模式 rb 而不是默认模式 rt 打开它：

>>> with open("exercises.zip", mode="rb") as zip_file:
...     contents = zip_file.read()

当从二进制文件中读取时，我们不会得到字符串。将返回一个字节对象，也称为字节字符串：

>>> with open("exercises.zip", mode="rb") as zip_file:
...     contents = zip_file.read()
...
>>> type(contents)
<class 'bytes'>
>>> contents[:20]
b'PK\x03\x04\n\x00\x00\x00\x00\x00Y\x8e\x84T\x00\x00\x00\x00\x00\x00'

字节字符串中没有字符：它们中有字节。

除非我们理解它们的含义，否则文件中的字节对我们没有多大帮助。

使用库来读取二进制文件

处理二进制文件时，你通常会使用和知道如何处理正在使用的特定类型文件的库（内置 Python 库或第三方库）。该库将完成将文件中的字节解码为更易于使用的工作。

例如，Python 的 ZipFile 模块可以帮助我们读取 zip 文件中的数据：

>>> from zipfile import ZipFile
>>>
>>> with ZipFile("exercises.zip") as zip_file:
...     test_file = zip_file.read("exercises/test.py").decode("utf-8")
...
>>> test_file[:30]
'#!/usr/bin/env python3\nfrom __'

如果有人已经完成了这项工作，最好避免实现自己的字节检查或字节操作逻辑。

在 Python 中以字节级别工作

有时你会使用或被要求直接在字节级别工作的库或 API。在这种情况下，你需要至少需要对二进制文件和字节字符串有一点了解。

例如，假设我们要计算给定文件的 sha256 校验和。

在这里，我们有一个名为 get_sha256_hash 的函数来执行此操作：

import hashlib
def get_sha256_hash(filename):
    with open(filename, mode="rb") as f:
        return hashlib.sha256(f.read()).hexdigest()

此函数读取此文件中的所有二进制数据。我们正在读取字节，因为 Python 的 hashlib 模块要求我们使用字节。hashlib 模块在底层工作：它使用字节而不是字符串。

因此，我们传入文件中的所有字节以获取哈希对象，然后对该哈希对象调用 hexdigest 方法以获取表示该文件的 SHA-256 校验和的十六进制字符串：

>>> get_sha256_hash("exercises.zip")
'9e98242a21760945ec815668fc79d8621fa15dd23659ea29be2c5949153fe96d'

此功能运行良好，但使用此功能读取非常大的文件可能会出现问题。

分块读取二进制文件

我们的 get_sha256_hash 函数一次将整个文件读入内存。一个非常大的文件可能会占用大量内存。

对于文本文件，解决此问题的常用方法是逐行读取文件。但是二进制文件不一定有行！但是，我们可以尝试逐块读取。

首先，我们将从文件中读取一个 8 KB 的块：

import hashlib
def get_sha256_hash(filename, buffer_size=2**10*8):
    file_hash = hashlib.sha256()
    with open(filename, mode="rb") as f:
        chunk = f.read(buffer_size)

我们首先创建一个新的哈希对象，然后读取一个 8 KB 的块（通过将字节数传递给我们的文件对象的 read 方法）。

现在我们需要文件的其余部分。所以我们将循环：

import hashlib
def get_sha256_hash(filename, buffer_size=2**10*8):
    file_hash = hashlib.sha256()
    with open(filename, mode="rb") as f:
        chunk = f.read(buffer_size)
        while chunk:
            file_hash.update(chunk)
            chunk = f.read(buffer_size)
    return file_hash.hexdigest()

我们重复读取一个块，更新我们的哈希对象，然后读取另一个块。

只要我们不在文件的末尾，我们就会在读取时返回一个真实的块。

但是当我们在文件的最后读取时，我们会得到一个空字节字符串。空字节字符串（如空字符串）是错误的，因此在文件末尾我们将跳出循环。然后我们将像以前一样返回十六进制摘要。

>>> get_sha256_hash("exercises.zip")
'9e98242a21760945ec815668fc79d8621fa15dd23659ea29be2c5949153fe96d'

但是，我们现在不是将整个文件读入内存，而是逐块读取文件。

使用赋值表达式

在逐块读取文件时，通常会看到使用的赋值表达式（通过 Python 的海象运算符）：

import hashlib
def get_sha256_hash(filename, buffer_size=2**10*8):
    file_hash = hashlib.sha256()
    with open(filename, mode="rb") as f:
        while chunk := f.read(buffer_size):
            file_hash.update(chunk)
    return file_hash.hexdigest()

在 while 循环中重复读取数据是赋值表达式的一个很好的用例。它可能看起来有点奇怪，但它确实为我们节省了几行代码。