贝利信息

如何在不直接传递字节流的情况下读取 Excel 文件数据

日期:2026-01-09 00:00 / 作者:心靈之曲

本文详解如何安全、合规地使用 pandas 读取 excel 数据,避免因直接传入 bytes 而触发 futurewarning,并提供基于 `bytesio` 的标准解决方案及最佳实践。

在使用 pandas.read_excel() 从内存中(如 Azure Blob Storage、Flask 请求体或 BytesIO 模拟文件)读取 Excel 文件时,若直接将 bytes 对象(例如 blob_data.readall() 返回值)传入 read_excel(),会触发如下弃用警告:

FutureWarning: Passing bytes to 'read_excel' is deprecated and will be removed in a future version. 
To read from a byte string, wrap it in a `BytesIO` object.

该警告明确指出:read_excel 不再接受原始 bytes,而应接收一个类文件对象(file-like object)。BytesIO 正是 Python 标准库中专为此场景设计的内存缓冲区类,它实现了 read(), seek() 等必需方法,完全满足 pandas 内部 IO 处理的要求。

✅ 正确做法(推荐且向后兼容):

from io import BytesIO
import pandas as pd

# 假设 blob_data 是类似 azure.storage.blob.BlobClient 的响应对象
excel_bytes = blob_data.readall()  # type: bytes
df = pd.read_excel(BytesIO(excel_bytes), engine='openpyxl')

? 补充说明与注意事项:

总之,BytesIO 不是临时补丁,而是官方推荐的标准适配方式——它既符合 pandas 的 IO 接口契约,又保持代码简洁、可维护性强。务必摒弃 read_excel(bytes_data) 的写法,统一升级为 read_excel(BytesIO(bytes_data))。