爬虫
Sun_Sherry
这个作者很懒,什么都没留下…
展开
-
lxml:提取html标签中的内容
lxml中有多种方式可以提取HTML标签中的内容,这篇博客的重点在于各个方法的不同。import lxmlfrom lxml import etreeimport collectionsdoc='''<html> <head> <base href='http://example.com/' /> <title>Example website</title> </head> <body> &原创 2022-01-07 18:44:31 · 2331 阅读 · 0 评论 -
Python爬虫:获取DOM树各个节点的xpath路径
在使用python进行网络爬虫并对网页解析成DOM树时,经常需要用到lxml包,这里主要介绍以下lxml包的用法(以实际问题为切入点,不会系统讲述lxml包)。原创 2021-12-26 23:08:17 · 2587 阅读 · 0 评论 -
python3.4爬虫——urllib等模块的引用
用python写爬虫程序的时候经常使用的库肯定是urllib,除此之外,还有urllib2和cookielib等,但是由于python版本的更新,在一些库和方法的使用上python3并不能向下兼容。所以在写爬虫程序时并不能按照python2的引用方法。现将urllib等方法的引用方法归纳如下(以python3.4为例,是否会适用python3.2等版本不可知):首先,python3.4中,而是...原创 2016-09-15 21:40:10 · 13629 阅读 · 0 评论 -
Python3爬虫爬取百度贴吧
1.需求分析为了爬取贴吧中楼主所发表的帖子,并把内容提取出来保存到txt文件中。2.全部代码这份代码写的比较早,所以里面提取内容基本上用的全是正则表达式,并没有调用一些非常高级的包。代码如下:# -*- coding:utf-8 -*-import urllib.requestimport urllib.parseimport reclass Tools: re...原创 2018-08-31 16:36:53 · 193 阅读 · 0 评论 -
python爬虫——按城市及店铺面爬取大众点评分类
题外话:因为最近遇到很多标签要对其进行分类,其中很多是店铺名,所以就想爬取大众点评的分类信息。因为不是专门做爬虫的,所以下面这段代码仅仅是可以实现要求,如何能避免网站的反爬机制这一点就无能无力了。另外大众点评根据店铺名返回的分类结果也不一定完全争取,这里没有处理这种情况。# -*- coding:utf-8 -*-import urllib.requestimport urllib.pa...原创 2019-01-15 17:52:09 · 2364 阅读 · 0 评论 -
python3中selenium-requests库安装报错
1.selenium-requests由于BeautifulSoup库不能处理JS代码,这种情况下需要使用selenium库。但selenium库有一个缺点就是不同使用post函数。这种时候就需要使用其他第三方库。比如,selenium-requests。2.selenium-request的安装电脑环境:win10 64位。 Python版本:3.6.5pip install s...原创 2019-10-23 17:13:04 · 3028 阅读 · 0 评论