【Python爬虫实战】
.
Giyn
个人博客:https://giyn.work
联系邮箱:490601115@qq.com
展开
-
爬取广东工业大学新闻通知网最新通知并发送至 QQ 邮箱
待爬取网站1. 分析新闻通知标题:2. 分析新闻通知链接此处获取的是相对 URL,需要加上前缀 http://news.gdut.edu.cn/。3. 分析新闻通知来源4. 分析新闻通知日期如何获取 smtp 授权码:https://blog.csdn.net/weixin_45961774/article/details/105040536完整源代码:https://github.com/Giyn/PythonSpider/blob/master/GDUT/scrape_GDUT原创 2020-11-09 22:02:49 · 3568 阅读 · 3 评论 -
模拟Ajax请求爬取4000部豆瓣电影
进入准备爬取的网页:编写一个获取页面的函数:def get_html(url, proxies): """ @功能: 获取页面 @参数: URL链接、代理IP列表 @返回: 页面内容 """ failed = 1 # 请求失败参数 headers = [ {'User-Agent': "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20原创 2020-07-13 09:57:35 · 1728 阅读 · 1 评论 -
Python 网络爬虫实现 QQ 音乐下载
项目需求① 模拟QQ音乐网页中的搜索和下载功能:输入歌手或歌名搜索出相关的歌曲列表,然后可选下载。可以将歌曲下载到本地。下载到本地的命名方式为:歌名+歌手+id,下载信息同步到 MySQL 数据库,用于检测是否重复下载。一、首先去QQ音乐寻找音频下载接口:随便搜索一首歌:然后打开Chrome浏览器的开发者工具,同时点击播放歌曲:接下来找到media类型的文件,显然我们要的...原创 2020-04-19 09:24:23 · 1997 阅读 · 2 评论 -
爬取广东工业大学官网并将内容发送到 QQ 邮箱
此爬虫程序大致分为以下步骤:1. 获取官网页面2. 提取各新闻的链接3. 提取各板块的新闻标题4. 发送到QQ邮箱1. 首先使用Requests库获取官网页面:import requestsdef get_html(url): print("正在获取页面……") url = 'http://www.gdut.edu.cn/' headers = { ...原创 2020-03-23 14:49:55 · 1932 阅读 · 4 评论 -
爬取豆瓣电影Top 250的海报图片以及相关信息
大致分为以下步骤:使用 requests库获取页面使用 lxml库解析页面使用 pandas库将数据存储为csv文件原创 2020-03-07 11:39:44 · 2837 阅读 · 2 评论 -
使用Scrapy爬虫框架爬取一个页面
参考资料:Python网络爬虫与信息提取(北京理工大学慕课)这个就是我们准备爬取的页面:使用Scrapy库,首先需要产生一个Scrapy爬虫框架,它分为如下一些步骤:1.建立一个Scrapy爬虫工程首先我们打开Pycharm,新建一个Project,这里我新建了一个叫demo的Project然后我们打开Pycharm的终端,输入scrapy startproject python1...原创 2020-03-03 08:56:49 · 2718 阅读 · 1 评论 -
使用Scrapy爬虫框架爬取books.toscrape.com上书籍的相关信息并存储为csv文件
此处准备使用Scrapy爬虫框架对 http://books.toscrape.com/(一个专门用来被爬取的网站)上书籍的相关信息进行爬取。相关信息包括:书名、价格、评价等级、产品编码、库存量、评价数量。首先我们分析一下网页页面:这里补充一下,分析网页页面虽然可以直接进入网页,然后F12打开开发者工具进行分析。但通常现在的浏览器都会对html文本进行一定的规范化, 所以在使用Chro...原创 2020-02-28 17:33:07 · 3458 阅读 · 2 评论 -
爬取b站视频的名称、地址、简介、观看次数、弹幕数量及发布时间并保存为csv文件(附csv文件乱码解决方法)
该爬虫大致分为以下步骤:搜索关键词、点击搜索、进入新页面获取每个页面的HTML解析每个页面的HTML将爬取到的数据写入csv文件(这里搜索的例子是华晨宇,爬取前5页)因为刚学爬虫,所以注释会写得比较多,方便自己理解。文章末尾有完整源代码,分析过程的代码比较杂。先引入相关模块、做好准备工作:import requestsfrom bs4 import BeautifulSou...原创 2020-02-17 17:10:42 · 6816 阅读 · 2 评论 -
爬取豆瓣Top100电影并存储为csv文件(附csv文件乱码解决方法)
大致分为以下步骤:使用requests库爬取网页使用BeautifulSoup库解析网页使用pandas库将数据存储为csv文件1.首先引入第三方库:import requestsfrom bs4 import BeautifulSoupimport pandas as pd我们去豆瓣电影Top250会发现每个页面有25个电影:查看URL发现每个URL都有标志:2.下...原创 2020-02-07 14:03:20 · 4013 阅读 · 3 评论