![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 65
GJShine107
这个作者很懒,什么都没留下…
展开
-
python爬虫(三)爬取网易云音乐歌曲列表
1.打开网易云音乐列表,按F12,选择Doc模式,方便查看。2.查看网页的请求方式--get请求3.查看header4. 在Preview中搜索任意一首歌曲,比如:无由可以看到,歌曲列表在‘ul’标签中,那么我们可以通过Be阿UtigulSoup去搜索明晰了结构,就可以写代码了:import requests import re from bs4 import BeautifulSoup h...原创 2018-05-03 23:36:12 · 7354 阅读 · 1 评论 -
python 爬虫(一)爬取百度贴吧图片
网址为https://tieba.baidu.com/f?ie=utf-8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search基本思路就是:下载整个页面,然后用正则匹配要下载的内容,最后保存到本地。1.下载整个页面定义一个下载器#首先定义一个下载器,用来下载网页def load_page(my_url): #设置代理IP user_agent=...原创 2018-02-14 12:15:41 · 655 阅读 · 0 评论 -
python爬虫(二)爬取糗事百科
主要用的request,当然还需要用正则匹配要抓取的网页https://www.qiushibaike.com/hot/page/1/1.首先利用request抓取整个网页from urllib import requestimport reurl='https://www.qiushibaike.com/hot/page/1/'user_agent='Mozilla/5.0 (Windows N...原创 2018-02-16 16:27:53 · 433 阅读 · 0 评论 -
爬虫基本原理
一.什么是爬虫?请求网站并提取数据的自动化程序二.爬虫的基本流程?1.发起请求通过HTTP库向⽬目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器器响应。2.获取响应内容如果服务器器能正常响应,会得到一个Response,Response的内容便便是所要获取的⻚页⾯面内容,类型可能有HTML,Json字符串串,二进制数据(如图⽚片视频)等类型。3.解析内...原创 2018-05-10 16:06:20 · 790 阅读 · 0 评论 -
正则表达式
什么是正则表达式? 正则表达式是对字符串串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成⼀一个“规则字符串串”,这个“规则字符串串”用来表达对字符串串的一种过滤逻辑。本文主要介绍re.match、re.search、re.findall、re.sub、re.compile五种方法。在线测试工具:http://tool.oschina.net/regex/常用的...原创 2018-05-10 21:44:44 · 122 阅读 · 0 评论