XPath教程 - 精准定位网页元素

Python爬虫 5 月前 0 12

XPath是XML路径语言，用于精准定位HTML元素，是爬虫必备技能。

一、XPath基础语法

nodename  选择子节点
/         从根节点开始
//        任意位置
@         选取属性

//div[@id="content"]           id为content的div
//li[position()<3]             前两个li
//a[contains(@href, "test")]  href包含test

//div/child::p                  div的直接子元素p
//p/following-sibling::a         p后面的兄弟元素

contains(text(), "关键词")     文本包含关键词
starts-with(@class, "con")     class以con开头

//title/text()                提取标题文本
//a/@href                     提取链接地址
//div[@class="content"]//p   content下的所有p

掌握XPath可以大大提高元素定位的准确性！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Python爬虫 4 月前 15

python 4 月前 13

python 4 月前 6

python 4 月前 21

python 4 月前 7

python 4 月前 12

python 4 月前 7

python 4 月前 9

后才能评论