Python文件流操作进阶教程_大文件读写与性能优化

日期：2026-01-07 00:00 / 作者：冷漠man

正确做法是分块读取大文件：设置缓冲区、循环read()、优先行迭代；超大文件随机访问用mmap；写入时批量处理并显式flush；跨平台需指定UTF-8编码和newline参数；流式数据用生成器+itertools实现内存恒定。

直接用 read() 读取几个GB的文件会瞬间占满内存，甚至导致程序崩溃。正确做法是按固定大小分块读取，每次只处理一小段：

当需要频繁跳转读取文件某一段（比如解析日志中的特定偏移记录），mmap 比 seek+read 快得多：

频繁调用 write() 会引发大量系统调用和磁盘 I/O，拖慢速度：

用 io.BufferedWriter 包装文件对象，或直接设置 buffering=8192（避免 buffering=1 的行缓冲，它会强制 flush）
批量拼接内容再写入，而不是逐行 write；若必须逐行，用 print(..., file=f) 替代 f.write(line+'\n')
写完后显式调用 f.flush()（必要时加 os.fsync(f.fileno()) 确保落盘，但慎用——它会阻塞）

在 Windows/macOS/Linux 间传递文本文件时，编码和换行符不一致极易引发乱码或逻辑错误：

真正处理“无限”或“动态增长”的文件（如实时日志、网络响应流），应放弃一次性加载思路：

定义生成器函数：def read_large_file(path):，内部用 for line in open(...) yield 处理后的结果
配合 itertools.islice 取前N条、filter 做条件筛选，全程不构建大列表
结合 concurrent.futures.ThreadPoolExecutor 对每块数据并行处理（注意GIL限制，CPU密集型建议用 multiprocessing）

不复杂但容易忽略