贝利信息

如何在 PHP DOM 中正确提取 CDATA 节点内容

日期:2025-12-31 00:00 / 作者:花韻仙語

本文详解如何使用 php 的 domdocument 与 domxpath 高效解析含 cdata 的 xml(如 sitemap),避免手动遍历节点时因空白文本和 cdata 混杂导致的数据丢失,直接获取干净的字符串值。

在使用 DOMDocument 解析 XML 时,CDATA 节点(XML_CDATA_SECTION_NODE)常与周围空白文本节点(XML_TEXT_NODE)共存,导致传统递归转数组逻辑(如 xml_to_array())难以准确提取值——例如 实际包含 3 个子节点:前导换行/空格文本、CDATA 节点、尾随换行/空格文本。若未显式处理,nodeValue 可能为空或混入不可见字符。

虽然可通过设置 $document->preserveWhiteSpace = false 强制忽略空白节点,但这属于“暴力清理”,可能误删业务所需的有意义空格,且无法解决命名空间等复杂场景。更专业、健壮的方案是绕过通用数组转换,直接用 DOMXPath 精准定位并提取内容。

✅ 推荐做法:DOMXPath + 命名空间支持

$xml = <<<'XML'

  
    https://www.blablal.id/news/sitemap.xml
    
      
    
  

XML;

$document = new DOMDocument();
$document->loadXML($xml);

$xpath = new DOMXPath($document);
// 必须为默认命名空间注册前缀(否则 XPath 查询无效)
$xpath->registerNamespace('map', 'http://www.sitemaps.org/schemas/sitemap/0.9');

$sitemaps = [];
foreach ($xpath->evaluate('//map:sitemap') as $sitemap) {
    $sitemaps[] = [
        'loc'     => trim($xpath->evaluate('string(map:loc)', $sitemap)),
        'lastmod' => trim($xpath->evaluate('string(map:lastmod)', $sitemap))
    ];
}

var_dump($sitemaps);
✅ 输出结果:array(1) { [0] => array(2) { ["loc"] => string(39) "https://www.blablal.id/news/sitemap.xml" ["lastmod"] => string(25) "2025-02-02T12:21:02+07:00" } }

? 关键要点说明

⚠️ 注意事项

综上,面对含 CDATA 的 XML,放弃“通用转数组”思维,拥抱 XPath 精准查询,是 PHP 开发者最简洁、可靠、符合标准的实践路径。