XPath教程 - 精准定位网页元素
XPath是XML路径语言,用于精准定位HTML元素,是爬虫必备技能。
一、XPath基础语法
nodename 选择子节点 / 从根节点开始 // 任意位置 @ 选取属性
二、谓词筛选
//div[@id="content"] id为content的div //li[position()<3] 前两个li //a[contains(@href, "test")] href包含test
三、轴(Axes)
//div/child::p div的直接子元素p //p/following-sibling::a p后面的兄弟元素
四、字符串函数
contains(text(), "关键词") 文本包含关键词 starts-with(@class, "con") class以con开头
五、常用场景
//title/text() 提取标题文本 //a/@href 提取链接地址 //div[@class="content"]//p content下的所有p
掌握XPath可以大大提高元素定位的准确性!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。







