python
zitongChen
IT小白
展开
-
Python爬虫之requests
python爬虫之requests在python中使用requests简化了网络请求,在使用requests之前需要pip install requests来安装requests,requests中文手册是一个很好的入门资料。 制作爬虫需要对html的结构有一定的了解,同时使用正则表达式原生匹配的爬虫也会随网页结构的改变而失效,所以若使下述代码无效,请分析网页的结构是否发生了改变。 抓取网页:极原创 2017-03-02 10:04:29 · 607 阅读 · 0 评论 -
python爬虫之xpath
python爬虫之xpathXPath是一门语言XPath可以在xml文件中查找信息XPath支持HTMLXPath通过元素和属性进行导行XPath比正则表达式厉害,简单XPath使用要使用XPath就必须要在python中安装lxml库from lxml import etreeselector =etree.HTML(网页源代码)selector.xpath(xpath语法)原创 2017-03-02 10:26:51 · 1099 阅读 · 0 评论 -
Python中的正则表达式
在python中使用正则表达式在使用python制作爬虫之前,我们必须要对python的正则表达式有一定的了解,在python中使用正则表示式要导入re包语法\d匹配数字1-9 \w匹配字符 [ ]匹配集合里面的字符 +匹配前面出现的正则表达式1次或多次 .表示匹配任意一个字符,除换行符除外, x.匹配xy23中的xy,若是x..则匹配出xy2 *表示匹配0个或多个其前面的字符,x*匹配x原创 2017-03-02 09:41:08 · 534 阅读 · 0 评论