pandas read_excel 如何只读取特定 sheet 且跳过前几行

日期：2026-01-25 00:00 / 作者：冰川箭仙

read_excel 中 sheet_name 与 skiprows 组合使用最常用可靠：先定位目标 sheet，再从其第 0 行起跳过指定行数；sheet_name 支持字符串、整数或列表，单表推荐字符串；skiprows 支持整数或可调用对象。

直接用 sheet_name 选表、skiprows 跳行是最常用也最可靠的方式。pandas 会先定位到目标 sheet，再从该 sheet 的第 0 行开始计数跳过指定行数。

sheet_name 可以是字符串（sheet 名）、整数（索引，如 0 表示第一个 sheet）或列表
（读多个）；单 sheet 场景推荐用字符串，避免因 Excel 重排 sheet 顺序导致出错
skiprows 接受整数（跳过前 N 行）或可调用对象（例如 lambda x: x ），但整数最直观；注意它跳的是“数据区的前 N 行”，不是 Excel 界面里带合并单元格的标题行——如果前几行有空行或格式混乱，skiprows 可能失效
若需跳过含标题的前 3 行，且第 4 行才是列名，应设 skiprows=3，再配合 header=0（默认值），否则列名会被当成数据

Excel 常见的“多层标题”或“单位说明行”会导致 skiprows 数不准。这时不能只靠硬跳，得结合 header 定位真实列名行。

先用 pd.read_excel("file.xlsx", sheet_name="Sheet1", nrows=5) 快速预览前几行，人工确认列名实际在哪一行（比如在第 5 行，索引为 4）
设 skiprows=4 + header=0，或更稳妥地直接用 header=4（表示把第 5 行作为列名），此时 skiprows 可省略
如果合并单元格导致某列名跨两行（如 A1:A2 合并写“销售额”），pandas 默认会读成 NaN 或空字符串，需后续用 df.columns = [...] 手动修复

典型现象是第一列全是 NaN，或数据整体右移一列——大概率是 Excel 中存在隐藏的空首列（比如 A 列全空），pandas 把它当成了索引列。

如果文件极大或 sheet 很多，sheet_name 设为具体名称比 None（读全部）快得多；但引擎选择会影响 skiprows 行为。

默认引擎 openpyxl 支持 .xlsx，skiprows 稳定；老式 .xls 文件必须用 xlrd（v2.0.1+ 仅支持 xls），且不支持 skiprows，只能改用 header
若用 engine="calamine"（新锐高性能引擎），skiprows 仍可用，但某些复杂格式（如条件格式、图表）会被忽略——仅读数据时推荐
不要在 skiprows 里传负数或超出行数的值，会静默失败或报 ValueError: skiprows must be an integer

真正麻烦的是那些手动合并、手写注释、动态插入空行的业务 Excel——它们让自动化读取变成模式识别问题，这时候与其调参，不如先让人清理源文件。