XPath教程 - 精准定位网页元素

XPath是XML路径语言,用于精准定位HTML元素,是爬虫必备技能。

一、XPath基础语法

nodename  选择子节点
/         从根节点开始
//        任意位置
@         选取属性

二、谓词筛选

//div[@id="content"]           id为content的div
//li[position()<3]             前两个li
//a[contains(@href, "test")]  href包含test

三、轴(Axes)

//div/child::p                  div的直接子元素p
//p/following-sibling::a         p后面的兄弟元素

四、字符串函数

contains(text(), "关键词")     文本包含关键词
starts-with(@class, "con")     class以con开头

五、常用场景

//title/text()                提取标题文本
//a/@href                     提取链接地址
//div[@class="content"]//p   content下的所有p

掌握XPath可以大大提高元素定位的准确性!

发表回复

后才能评论