如何从URL读取XML数据 Python请求并解析XML

日期：2025-12-31 00:00 / 作者：畫卷琴夢

Python读取解析XML分两步：先用requests.get()获取响应.content（设timeout、headers、raise_for_status），再用xml.etree.ElementTree.fromstring()解析字节流；支持自动识别XML声明编码，可处理命名空间与异常。

用 Python 从 URL 读取并解析 XML 数据，核心是两步：先用 requests 获取响应内容，再用 xml.etree.ElementTree（标准库）或 lxml 解析。不需要额外安装 lxml（除非需要 XPath 或命名空间高级功能），ElementTree 足够应对大多数情况。

发送请求获取 XML 内容

直接用 requests.get() 请求 URL，检查状态码是否为 200，再确保响应内容是 XML（可通过 Content-Type 头或简单判断是否以 开头）。避免直接用 .text 解析，推荐用 .content（保持原始编码）。

加 timeout=10 防止卡死
必要时设置 headers={'User-Agent': 'Mozilla/5.0'} 避免被部分网站拒绝
用 r.raise_for_status() 自动抛出 HTTP 错误异常

用 ElementTree 解析 XML 字节流

xml.etree.ElementTree.fromstring() 接收字节（bytes）或字符串，但推荐传入 r.content，它能自动处理 XML 声明中的编码（如 encoding="UTF-8"）。如果解析失败，常见原因是编码不匹配或响应不是合法 XML —— 先打印 r.content[:200] 确认结构。

成功后得到根元素（Element 对象），可用 .find()、.findall()、.iter() 查找节点
提取文本用 elem.text，属性用 elem.get('attr_name')
支持路径语法，如 root.find('channel/item/title')

处理常见问题：编码、命名空间、错误响应

如果 XML 声明是，而 requests 返回的 content 是 UTF-8 编码字节，ElementTree 仍能正确识别并解码 —— 它会优先信任 XML 声明。但若服务器返回乱码或无声明，可手动解码再传入 fromstring()：

例如：root = ET.fromstring(r.content.decode('gb2312'))
有命名空间时，注册前缀：ET.register_namespace('', 'http://example.com/ns')，查找时用 root.find('.//{http://example.com/ns}item')
始终用 try/except ET.ParseError 捕获解析失败（比如返回 HTML 错误页）

完整示例代码（RSS 场景）

以下代码读取一个公开 RSS 地址，提取前 3 篇文章标题：

import requests
import xml.etree.ElementTree as ET
url = "https://www./link/57caecc41d16f82e2309eb7abae3886a"  # 测试用公开 XML 地址
try:
r = requests.get(url, timeout=10)
r.raise_for_status()
root = ET.fromstring(r.content)  # 自动按 XML 声明解码
titles = [item.find("title").text for item in root.findall(".//item")[:3]]
print(titles)
except requests.RequestException as e:
print("网络请求失败：", e)
except ET.ParseError as e:
print("XML 解析失败：", e)