爬虫
Yesir_C
发表的仅为个人笔记哦~仅供参考
展开
-
爬虫之手机信息查询系统
查询手机的详细信息原创 2022-11-03 23:43:12 · 391 阅读 · 0 评论 -
Python之房源信息
import requestsfrom bs4 import BeautifulSoupimport csvimport timefrom tqdm import tqdmbt_list = []all_list = []jg_list = []wz_list = []mj_list = []url_list=[]head=["标题","地区","价格","面积","详情链接"]def run(i): url=f"https://beijing.qfang.com/newho原创 2021-11-05 17:27:43 · 327 阅读 · 0 评论 -
Python豆瓣网Top250
代码import requestsfrom bs4 import BeautifulSoupimport csvstart=25Movie_url = []Movie_name = []top=[]head=["电影名","链接"]headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.原创 2021-10-11 11:20:01 · 74 阅读 · 0 评论 -
批量爬取PPT
import requestsfrom lxml import etreefrom bs4 import BeautifulSoupimport lxmlimport osimport mathheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36 Edg/89原创 2021-05-19 07:50:13 · 358 阅读 · 0 评论 -
4399
import requestsfrom bs4 import BeautifulSoupimport timeimport lxmldef run():url=“http://www.4399.com”headers={“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36”}page_text =原创 2021-05-18 09:54:46 · 110 阅读 · 0 评论 -
爬虫学习之xpath解析
#xpath解析: 最常用且最高效的一种结息方式#1. xpath解析原理:# 1. 实例化一个etree对象, 且需要将被解析的页面源码数据加载到该对象中# 2. 调用etree对象中的xpath方法结合xpath表达式实现标签定位和内容捕获#2. 环境安装# pip install lxml(解析器)#3.实例化一个etree对象: from lxml import etree# 1.实例化一个etree对象, 将被本地的页面源码数据加载到该对象中#原创 2021-04-28 00:01:38 · 223 阅读 · 0 评论 -
爬虫之壁纸批量爬取
import requestsimport osfrom bs4 import BeautifulSoupdef f(url_data): url_data=url_data.split("/") s='' for i in range(len(url_data)-1): s+=str(url_data[i])+'/' return sheaders={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0;原创 2021-04-27 09:35:46 · 132 阅读 · 0 评论 -
爬虫学习之图片爬取
批量爬取美女图片import reimport osimport requestsif __name__=="__main__": folder = os.path.exists("./girls") if not folder: path = os.makedirs("./girls") for i in range(1,11): url='https://smtmm.win/?' headers = { .原创 2021-04-27 07:49:43 · 361 阅读 · 0 评论 -
爬虫学习之小说爬取
数据解析之bs4解析基础使用#导包from bs4 import BeautifulSoupimport lxmlimport requestsimport re"""bs4进行数据解析"""if __name__=="__main__": #将本地的HTML文件加载到该对象中 fp=open('./w.html','r',encoding='utf-8') soup=BeautifulSoup(fp,'lxml') #将互联网上获取的页面源码加载.原创 2021-04-27 00:29:15 · 157 阅读 · 1 评论 -
爬虫学习之基于requests模块ajax的post请求
需求: 爬取肯德基餐厅数据import requestsimport jsonif __name__=="__main__": url="http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword" location=input("-----本程序可以查询肯德基餐厅信息-----\n请输入要查询的地点:").strip() headers={ "User-Agent":"Mozilla/5.0.原创 2021-04-20 21:51:50 · 179 阅读 · 0 评论 -
爬虫学习之基于requests模块ajax的get请求
需求: 爬取豆瓣电影分类排行榜import requestsimport jsonif __name__=="__main__": url="https://movie.douban.com/j/chart/top_list?" headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.438.原创 2021-04-20 21:50:09 · 100 阅读 · 0 评论 -
爬虫学习之requests模块的post请求
基于requests模块的post请求需求: 破解百度翻译import requestsimport jsonif __name__=="__main__": Data=input("请输入数据:").strip() #1. 指定url #从抓包工具中捕获url post_url="https://fanyi.baidu.com/sug" #2. 进行UA伪装 headers={ 'User-Agent':'Mozilla/5.0原创 2021-04-19 21:25:22 · 277 阅读 · 1 评论 -
爬虫学习之requests模块的get请求
基于requests模块的get请求需求: 爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)反爬机制User-Agent:请求载体的身份标识,使用浏览器发起的请求,请求载体的身份标识为浏览器,使用爬虫程序发起的请求,请求载体为爬虫程序。UA检测:相关的门户网站通过检测请求该网站的载体身份来辨别该请求是否为爬虫程序,如果是,则网站数据请求失败。因为正常用户对网站发起的请求的载体一定是基于某一款浏览器,如果网站检测到某一请求载体身份标识不是基于浏览器的,则让其请求失败。因此,UA检测是我们原创 2021-04-19 21:18:15 · 351 阅读 · 0 评论 -
爬虫学习之requests模块学习
爬虫开发-requests模块学习requests模块: python中原生的一款基于网络请求的模块, 功能强大, 简单便捷, 效率高效作用: 模拟浏览器发请求如何使用requests模块环境安装pip install requests如何使用: requests 模块的编码流程指定url发起请求获取响应数据持久化存储实战:爬取搜狗首页的页面数据import requestsif __name__=="__main__": #1. 指定url url原创 2021-04-19 21:13:50 · 77 阅读 · 0 评论