python网络爬虫
乐す
记录自己的学习
展开
-
python爬虫——正则表达式常用函数及匹配规则
正则表达式测试工具:http://tool.oschina.net/regex/常用匹配规则模式描述+匹配1个或多个表达式*匹配0个或多个表达式^匹配一行字符串开头$匹配一行字符串结尾.匹配任意字符\d匹配任意数字\s匹配任意空白符号\w匹配字母、数字及下划线{n}精确匹配n个前面的表达式常用匹配方法...原创 2019-08-02 15:29:55 · 207 阅读 · 0 评论 -
python爬虫——解析网页之XPath使用
XPath的使用常用规则句法描述tag选择具有给定标记的所有子元素。例如,spam选择指定的所有子元素spam,并spam/egg选择指定的所有孙子egg的所有命名的孩子 spam。*选择所有子元素。例如,*/egg 选择所有名为egg的元素。.选择当前节点。这在路径的开头非常有用,表明它是相对路径。…选择父元素//选择当前元素下所有级别的...原创 2019-08-06 16:00:59 · 407 阅读 · 0 评论 -
python爬虫——解析网页之Beautiful Soup使用
Beautiful Soup是一个Python包,功能包括解析HTML、XML文档、修复含有未闭合标签等错误的文档(此种文档常被称为tag soup)。这个扩展包为待解析的页面创建一棵树,以便提取其中的数据,这在网络数据采集时非常有用。原创 2019-08-08 23:33:26 · 354 阅读 · 0 评论 -
python爬虫——Selenium屏幕读取
准备工作配置ChromeDriver安装Selenium库导入库from selenium import webdriver初始化browser = webdriver.Chrome()访问页面用get() 方法请求页面,直接传入urlbrowser.get('https://chaoshi.tmall.com/')查找节点根据属性进行查找单个...原创 2019-08-21 15:23:44 · 1009 阅读 · 0 评论