分享68个Python爬虫源码总有一个是你想要的
学习知识费力气,收集整理更不易。
知识付费甚欢喜,为咱码农谋福利。
源码链接:https://pan.baidu.com/s/1_9Yn_4LfXk-fLnMrR1lNIA?pwd=8888
提取码:8888
项目名称:
get informationin CNKI by python&知网爬虫
python dht 爬虫,学习改装版
Python 人工智能爬虫 开发之旅
Python 新浪微博爬虫,支持模拟登陆,微博文字另存为本地文件
Python 某度图片爬虫下载
python 爬虫 Booking(缤客)、Tripadvisor(猫途鹰)
python 爬虫项目爬取猫眼评论数据,并做可视化分析
python 网络爬虫脚本
python,大众点评,爬虫
Python-FastAPI,Django,Docker 资料整理,数据结构,算法,OCR图像识别处理,爬虫,反向爬取,验证码,操作pdf,反爬策略及应对方案
python小说数据爬虫
Python招聘岗位信息聚合系统(拥有爬虫爬取、数据分析、可视化、互动等功能)
python新闻爬虫
Python期末大作业,基于selenium的51job网站爬虫与数据可视化分析
python照片墙设计,将爬虫获取的照片布局成爱心形状~( Python photo wall design, layout photos taken by reptiles into alove shape~)
python爬虫豆瓣明星剧照
python爬虫返回某东各类图书排行榜top20
Python爬虫10分钟速学教程
python爬虫bilibili搜索并进行数据分析
python爬虫下载器(html模板或网站前端源代码)
Python爬虫中国大学排名
python爬虫实战入门(爬取糗事百科)
python爬虫批量处理网站的图片和文字
python爬虫爬取文献信息
python爬虫爬取胡润榜,并进行分析
Python爬虫登陆教务系统查询成绩,附带均分计算和 GPA 计算,可自定义过滤科目
python爬虫练习,selenium+xpath 爬取某宝个人的历史购买数据并简单汇总
Python爬虫,自动登录某东网站,查询商品库存,价格,显示购物车详情等
Python爱好者社区历史文章代码实践,内容涵盖:python基础入门篇、进阶篇 、Python网络爬虫、机器学习、深度学习、数据分析与挖掘等系列
python相关的一些小程序,小想法,包括爬虫,数据分析,机器学习,计算机视觉,(card_ocr)
python笔记,油管爬虫,git用法
Python网络爬虫与信息提取
Python网络爬虫学习项目库
python网络爬虫,爬取安居客网站房源信息,并存入数据库,同时这也是个定时服务
spider formaoyan and douban website 适用于爬取猫眼电影top100榜单,以及豆瓣读书某类书籍特定信息的python爬虫程序
一个python爬虫程序用于爬海量中国财经法规存入mysql数据库当中,不断完善当中
一个由Python语言编写的爬虫项目,用于爬取国内某电商网站产品及商家数据
一些python好玩的小项目(某度音乐爬虫,人脸识别数据检测,图片爬虫)
东方头条新闻数据爬虫(python)
中国行政区域国家统计局标准统计用区划代码,省市区联动以及镇、街道、村、居委会等共5级行政区域数据的获取并建库,同时提供JSON数据文件与Mongodb数据库备份文件
从CNKI(知网)下载联合专利的爬虫、解析、CSV文件过滤及合并(python 2 7)
使用egg搭建的api(主要配合react-umi-admin后台模版)、jwt验证、权限模块、socket、爬虫模块(python)
使用Python爬取了“南京大学实验室安全教育与考试系统”的所有题目,并制作成题库,方便学习以及在考试中查阅,并且记录了爬虫过程中遇到的问题
使用python爬虫下载图片
北航教务小助手-后端(Python Web、爬虫)
华南理工大学找到卷王,基于 Python 的综测系统数据爬虫
基于Python 3的综合性B站(哔哩哔哩弹幕网)数据爬虫
基于Python requests的人人词典数据爬虫,数据共10G左右,爬取时间1小时左右,爬取站点http &&www91dict com 包含:单词、单词词性及翻译、单词发音、单词例句剧照、单词例句及翻译、单词例句发音
基于Python多进程多线程爬虫-必应新闻、新浪新闻、某东商品评论、亚马逊中文商品评论、谷歌翻译
基于Python异步爬虫的易班打卡项目
基于Python的flask网络爬虫web项目
基于Python的scrapy爬虫框架实现爬取招聘网站的信息到数据库
基于python的批量下载pdf文档的简单爬虫程序
大众点评店铺信息爬虫程序,python、beautifulSoup,通过一个有规律的url,可以一页一页的获取到店铺的ID,从而完成所有的抓取工作
头歌平台Python程序设计作业报告爬虫
学习Java和Python爬虫
学习python爬虫框架Scrapy的一个小案例,参考刘硕《精通Scrapy网络爬虫》
小说爬虫服务,python实现
微博python爬虫并生成词云
支持自动m3u8爬取、密钥爬取、断点续传及文件清理的Python爬虫
某宝店铺爬虫-python
深度学习,python爬虫,Linux脚本的学习笔记
热搜榜-python爬虫+正则re+beautifulsoup+xpath
爬虫实例:爬取某度百科python相关词条
用Python写的爬虫,包括爬取当当,豆瓣,B站等
用python爬取github上信息的爬虫
石之家Python爬虫作业
豆瓣图书Python大爬虫
通过python爬虫获取人民网、新浪等网站新闻作为训练集,基于BERT构建新闻文本分类模型,并结合node js + vue完成了一个可视化界面
采集代码
# region 采集
def spider_git(self):
"""
采集git网
:return:
"""
spider_url = self.txt_spider_url.GetValue()
# if os.path.exists(self.first_path):
# os.makedirs(self.first_path)
# else:
# os.makedirs(self.first_path)
edge_options = Options()
diy_prefs = {'profile.default_content_settings.popups': 0,
'download.default_directory': '{0}'.format("D:\\Temp")}
# 添加路径到selenium配置中
edge_options.add_experimental_option('prefs', diy_prefs)
edge_options.add_argument('--headless') # 隐藏浏览器
# 实例化chrome浏览器时,关联忽略证书错误
browser = webdriver.Edge(options=edge_options)
browser.set_window_size(1300, 1000) # 分辨率 1280*800
browser.get(spider_url)
self.browser = browser # 将浏览器的独行值赋予给全局
title_element = browser.find_element(By.CLASS_NAME, "my-3")
coder_title=str(title_element.text)
# response = requests.get(spider_url,timeout=10, headers=UserAgent().get_random_header("https://github.com/"))
# response.encoding = 'UTF-8'
# soup = BeautifulSoup(response.text, "html5lib")
# p_element = soup.find('p', attrs={"class": 'my-3'})
# print(p_element.text.strip())
try:
folder_name = str(coder_title).strip()
folder_name = folder_name.split("。")[0]
folder_name = folder_name.strip().replace("⭐", "") \
.replace("🍌", "") \
.replace("/", "&") \
.replace("⏰", "") \
.replace("🌈", "") \
.replace("🎉", "") \
.replace("网易", "163") \
.replace("京东", "某东") \
.replace("淘宝", "某宝") \
.replace("QQ", "企鹅") \
.replace("腾讯", "鹅厂") \
.replace("知乎", "zhihu") \
.replace("斗鱼", "DY") \
.replace("百度", "某度") \
.replace("抖音", "电音") \
.replace("天猫", "TCat") \
.replace("美团", "MEITUAN") \
.replace("今日头条", "今日头疼") \
.replace(": ", " ").replace(".", " ").replace(":", " ").replace("开源", "")
if len(folder_name) > 150:
folder_name = folder_name[0:150]
pass
file_name=""
files = os.listdir(self.base_path) #理论就一个文件
for file in files:
file_ext = os.path.splitext(file)[-1]
if file_ext is None or file_ext == "":
continue
if "zip" == str(file_ext.split(".")[1]):
file_name=file
if file_name=="":
self.lable_down_number.config(text="下载文件夹不存在ZIP文件因此程序停止...")
self.is_spider = False
return
srcFile = self.base_path + os.sep + file_name # 原始zip文件
ZipTools.extract_zip(srcFile, self.three_path, "123123") # 解压文件
extract_folder_name = self.three_path + os.sep + file_name.replace(".zip", "")
target_folder_name= self.three_path + os.sep + folder_name
os.rename(extract_folder_name, target_folder_name)
os.remove(srcFile) # 移除原始文件
self.down_number = int(self.down_number) + 1
self.lable_down_number.config(text="下载文件数量:" + str(self.down_number))
self.lable_message.config(text="文件解压及保存成功!")
self.is_spider = False
except Exception as e:
print(e)
self.lable_message.config(text=str(e))
self.is_spider = False
self.txt_spider_url.SetValue("")
好了就写到这吧
你有时间常去我家看看我在这里谢谢你啦...
我家地址:亚丁号
最后送大家一首诗:
山高路远坑深,
大军纵横驰奔,
谁敢横刀立马?
惟有点赞加关注大军。
感谢您的支持