爬虫
4.11.12
这个作者很懒,什么都没留下…
展开
-
urllib
urllib2在python3中使用urllib.request替代python2中的格式python3中的书写:from urllib import requestresponse = request.urlopen("http://www.baidu.com") #实现目标对url的访问,并获取响应response.getcode() #获取相应的状态码r...原创 2019-07-13 15:29:30 · 419 阅读 · 0 评论 -
requests
requests属于第三方库,也是python默认不会自带的库,需要手动安装pip安装:pip3 install requests实例引入:requests中可以使用get请求页面requests其他的请求类型仍然可以使用一句话来完成r = requests. post(' http://httpbin.org/post ’)r = requests.put...原创 2019-08-15 11:10:57 · 308 阅读 · 0 评论 -
爬虫
请求网站并提取数据的自动化程序基本流程:1.发起请求,通过HTTP库向目标站点发起请求,即发送一个request,请求可以包含额外的headers等信息,等待服务器响应2.获取响应内容,如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据等类型3.解析内容,得到的内容可能是HTML,可以用正则...原创 2019-07-06 15:26:16 · 121 阅读 · 0 评论 -
XPath
XPath,全称XML Path Language ,即XML路径语言,它是一门在XML文档中查找信息的语言,。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索XPath常用规则表达式 描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点...原创 2019-07-18 16:01:39 · 3407 阅读 · 0 评论 -
Beautiful Soup
Beautiful Soup是python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据Beautiful Soup提供一些简单的,python式的函数来处理导航,搜索,修改分析数等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,不需要多少代码就可以写出一个完整的应用程序Beautiful Soup自动将输入文档转换为unicode编码,输出文档转换为UTF-...原创 2019-07-22 17:26:50 · 333 阅读 · 0 评论 -
requests抓取猫眼电影
1.安装requests库 pip install requests2.抓取的页面url :https://maoyan.com/board/43. 页面分页显示可以发现页面的 URL 变成 :https://maoyan.com/board/4?offset=10,比之前的 URL 多了一个参数,那 就是 offset=10 ,而目前显示的结果是排行 II 名的电影,初...原创 2019-07-17 17:20:43 · 969 阅读 · 0 评论 -
数据存储
用解析器解析出数据之后,接下来就是数据存储。保存的形式可以多种多样,最简单的形式是直接保存为本地文件,如TXT,JSON,CSV等。另外,还可以保存到数据库中,如关系型数据库Mysql,非关系型数据库MongoDB,Redis等TXT文本存储这里是用requests提取知乎的“发现”页面,然后将热门话题的问题,回答者,答案全文提取出来,然后利用python提供的open()方法打开一个...原创 2019-08-22 21:40:34 · 3559 阅读 · 0 评论