![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Requests
requests库作为爬虫的基础是想入门爬虫的基本要求
林中有神君
弱小和无知不是生存的障碍,傲慢才是
展开
-
爬虫实例7 爬取豆瓣电影数据 (json+ajax)
什么是异步加载原创 2020-12-16 11:23:04 · 2506 阅读 · 0 评论 -
爬虫实例3 批量抓取数据之异步请求(ajax)
上代码import requestsimport json#请求地址url="http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList"#浏览器伪装headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/原创 2020-11-25 17:23:09 · 555 阅读 · 0 评论 -
爬虫实例6 爬取联英人才网147页招聘信息,并导入数据库
爬虫基本流程:一、导包二、伪装浏览器三、请求数据四、分析网页五、持久化储存目标网站链接:http://www.hrm.cn/源代码:import requestsfrom lxml import etree #xpath库import reimport pymysql#建立数据库连接conn=pymysql.connect(host="localhost",user="用户名",db="数据库名字",passwd="数据库密码")#定义游标curser=conn.curs原创 2020-12-09 21:17:18 · 340 阅读 · 0 评论 -
爬虫实例十 XX酒店详情信息
import requestsimport jsonimport openpyxlfrom concurrent.futures import ThreadPoolExecutor #开启多线程模式import randomimport time#新建workbook对象wb=openpyxl.Workbook()#创建正在操作的表sheet = wb.active#设置sheet表格的表头sheet.append(['酒店名称','酒店地址','酒店类型','最低价','评价',原创 2021-03-30 14:55:13 · 1023 阅读 · 12 评论 -
爬虫实例十一 全国城市房价排行
目标网址:https://www.creprice.cn/rank/index.html这一看就是个静态页面,没有用任何反爬措施所以很好爬。直接发送请求解析数据就可以了。完整代码import requestsfrom lxml import etreeimport openpyxl#新建workbook对象wb=openpyxl.Workbook()#创建正在操作的表sheet = wb.active#设置sheet表格的表头sheet.append(['序号','城市名称','原创 2021-04-01 14:01:21 · 382 阅读 · 1 评论 -
爬虫实例十二 沪深证券股票全站数据爬取
先上代码import requestsfrom lxml import etreeimport openpyxlimport timeimport random#新建workbook对象wb=openpyxl.Workbook()#创建正在操作的表sheet = wb.active#设置表头sheet.append(['股票名称','股票代码','最新价','涨跌幅','涨跌额','成交量','成交额','今开','昨收','最高','最低'])#遍历全站单页链接并解析数据fo原创 2021-04-01 17:04:29 · 623 阅读 · 0 评论 -
爬虫学习总结
append 把列表作为一个元素放在原列表里extend 在列表的末尾一次性添加多个元素insert 在任意位置添加一个元素split 字符串拆分format 字符串格式化replace 字符串替换json.loads() 将文本转换成json格式json.dumps() 将文本转换成json数据extract() 在scrapy框架提取文字最常用extract_first() 在一个列表里提取第一个值m原创 2021-04-25 09:15:19 · 234 阅读 · 0 评论 -
爬虫实例十三 教你怎么用爬虫一次给女朋友拿下28万张情侣头像
目标地址:http://www.ghost64.com/qqtouxiang/qinglu_5.html先上代码,在一步步解释import requestsfrom lxml import etreeimport timefor i in range(0,268): url="http://www.ghost64.com/qqtouxiang/qinglu_"+str(i)+".html" header={ "User-Agent":"Mozilla/5.0 (W原创 2021-04-04 16:19:12 · 341 阅读 · 0 评论 -
爬虫实例5 爬取58房源信息(xpath)
这篇爬虫代码是根据xpath来写的,所以我们要先知道xpath是什么什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPath 是 XSLT 中的主要元素xpath表达式:需求:爬取58房源信息代码:import requestsfrom lxml import etree#需求 爬取58房源信息headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) Apple原创 2020-12-01 11:42:56 · 1306 阅读 · 1 评论 -
爬虫实例十四 多线程爬取一万张表情包
import requestsimport threadingimport osfrom bs4 import BeautifulSoupfrom queue import Queuefrom threading import Thread"""表情包爬虫"""#创建一个多线程类class DownLoad_Images(Thread): #重写构造函数 def __init__(self,queue,path): Thread.__init__(self)原创 2021-04-09 10:40:03 · 122 阅读 · 0 评论 -
爬虫实例2 用bs4库批量爬取图片
还是老规矩先上代码,在具体有分析import osimport requestsfrom bs4 import BeautifulSoupimport urllib.request'''基于函数去编写爬虫程序 浏览器发送请求 request 服务器响应 response'''#浏览器伪装headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:82.0) Gecko/201原创 2020-11-21 19:28:39 · 635 阅读 · 0 评论 -
爬虫实例4 爬取网络小说
先上代码:import requestsfrom bs4 import BeautifulSoupheaders={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36"}url="https://www.shicimingju.com/book/sanguoyanyi.html"page_te原创 2020-11-30 13:56:19 · 631 阅读 · 1 评论 -
爬虫实例8(os模块的用法)
import requestsimport osurl="https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=460770515,1829173594&fm=26&gp=0.jpg"headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.8原创 2021-03-25 08:26:46 · 320 阅读 · 0 评论 -
爬虫实例九 豆瓣电影详情信息
from bs4 import BeautifulSoup #网页解析,获取数据import re #正则提取import urllib.request,urllib.error #制定url,获取网页数据import xlwt #进行excel操作import timedef main(): baseurl = "https://movie.douban.com/top250?start=" #1、爬取网页 datalist=getData(baseurl)原创 2021-03-30 14:46:30 · 464 阅读 · 0 评论 -
爬虫实例十 爬取百度贴吧小姐姐照片
上上上上代码!!!import requestsimport reurl='https://tieba.baidu.com/f?ie=utf-8&kw=%E7%BA%A6%E4%BC%9A%E5%90%A7&fr=search'headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari原创 2021-03-31 23:49:39 · 910 阅读 · 0 评论