小刘要努力。
未来不担心,过去不后悔,现在不犹豫。
展开
-
13 | 使用代理ip爬取安居客房源信息
在上述代码中,通过调用代理API获取代理IP,然后在爬虫请求中使用这些代理IP,从而达到绕过反爬虫机制、提高稳定性和保护隐私的目的。需要注意的是,在使用代理IP时,应确保遵守相关法规和网站的使用条款,以免引起不必要的法律问题。该爬虫使用了代理IP来绕过可能的封禁,并提供了一些基本的信息抽取功能。通过使用代理IP,可以更换请求的源IP,减少被封锁的风险。通过使用代理IP,可以模拟不同地理位置的访问,获取更全面的数据。代理IP服务商通常提供稳定的网络连接和高质量的IP地址,可以提高爬虫的稳定性和可靠性。原创 2024-01-14 20:56:42 · 593 阅读 · 0 评论 -
9 | 爬取CSDN博客并保存为Markdown教程
欢迎来到本教程!本教程将带您学习如何使用Python编程语言 爬取CSDN博客并保存为Markdown教程。该爬虫程序能够从CSDN(程序员专业社区)网站中抓取指定博客文章的内容,并将其保存为便于阅读和编辑的Markdown格式。总结整个教程,强调实现的功能和所学的知识点。鼓励读者尝试其他爬取和数据处理的项目。原创 2023-07-27 11:24:19 · 1361 阅读 · 1 评论 -
8 | 爬虫解析利器 PyQuery 的使用
PyQuery 是一个 Python 的库,它是 jQuery 的 Python 实现。PyQuery 可以让开发者使用类似于 jQuery 的语法来解析 HTML/XML 文档,非常适合用于爬虫解析网页。本教程将介绍 PyQuery 的基本用法和常用功能,并提供练习题和答案供读者练习。PyQuery 是一个非常强大的 Python 库,可以让开发者使用类似于 jQuery 的语法来解析 HTML/XML 文档。本教程介绍了 PyQuery 的基本用法和常用功能,并提供了练习题和答案供读者练习。原创 2023-07-27 11:11:58 · 1141 阅读 · 0 评论 -
1 | Requests
Requests是Python中一个强大且简洁的第三方库,用于处理HTTP请求。它是基于Python的原生HTTP库(urllib)进行封装,让我们能够以更加人性化和简洁的方式进行网络请求,无需处理繁琐的底层细节。使用Requests库,我们可以轻松地发起HTTP请求,获取网页内容,处理响应数据,并进行各种数据提取和处理。通过本文的介绍,您已经初步了解了如何使用Python的Requests库发起HTTP请求,获取网页内容和提交数据。原创 2019-05-25 20:25:03 · 1008 阅读 · 0 评论 -
7 | 电影数据
接下来,我们将向XX电影TOP250的网页发送请求,并解析返回的HTML内容。我们需要在XX电影TOP250的网页中提取电影的名称、排名、海报链接、电影链接、评分、评分人数、导演、上映时间、国家和类型等信息。这是因为很多网站会检查请求头,如果请求头中没有包含浏览器信息,那么网站可能会拒绝我们的请求。为了模仿浏览器发送请求,我们需要在请求头中添加一些信息。在这篇博客中,我们将使用Python中的。最后,我们将把提取到的数据写入到之前创建的CSV文件中,并在爬取完所有数据后关闭文件。方法来提取需要的数据。原创 2023-07-23 16:59:28 · 412 阅读 · 0 评论 -
6 | 中国天气网
这是一个简单的Python web爬虫的示例,它展示了如何获取和解析HTML,以及如何从HTML中提取和保存数据。这个爬虫只爬取了中国天气网上的一小部分数据,但是这个示例可以轻易地扩展到其他网站和其他类型的数据。这将涵盖如何获取HTML页面,解析页面内容并从中提取我们需要的数据,以及如何将这些数据保存到CSV文件中。,这个函数接受一个URL,使用requests库去获取这个URL的HTML内容。,它接受一个文件名,一个数据列表和一个天数,然后将数据写入到CSV文件中。我们需要创建两个函数。原创 2023-07-23 16:42:20 · 412 阅读 · 0 评论 -
5 | Xpath
当进行网页爬取时,有多种方法可以从HTML文档中提取所需信息。其中一种常用的方法是使用XPath。XPath是一种用于在XML和HTML文档中定位元素的查询语言。在Python中,我们可以使用lxml库来实现XPath查询。本教程将教您如何使用Python中的lxml库和XPath来解析HTML文档,并提取所需数据。原创 2023-07-23 16:32:05 · 240 阅读 · 0 评论 -
4 | 百度贴吧
百度贴吧是一个流行的中文在线社区,用户可以在各种话题下发表帖子并参与讨论。本教程将指导您使用Python来爬取百度贴吧首页,并将帖子信息保存到Excel文件中。该脚本旨在爬取指定百度贴吧的前100页内容,并保存每个帖子的信息,包括评论数、标题、链接、内容、作者和时间戳。原创 2023-07-23 16:27:18 · 627 阅读 · 0 评论 -
3 | 爬取银行信息
我们的爬虫将获取每一页的数据,并将这些数据保存到Excel文件中,以便进一步使用和分析。首先,我们需要导入所需的库,包括requests用于发起HTTP请求,BeautifulSoup用于解析HTML页面,以及openpyxl用于创建和保存Excel文件。这样,完成了爬取2023全国联行号开户行数据列表的教程。运行以上完整的代码,您将得到一个名为"data.xlsx"的Excel文件,其中包含了2023全国联行号开户行数据列表。现在,我们已经获取了需要的数据,接下来,我们将把数据保存到Excel文件中。原创 2019-05-28 16:39:50 · 1393 阅读 · 0 评论 -
2 | BeautifulSoup
BeautifulSoup是Python中一个功能强大且易于使用的HTML解析库。它能够帮助我们从HTML或XML文档中提取数据,让我们能够以更加优雅的方式处理网页内容。与正则表达式相比,BeautifulSoup提供了更加简单、直观的方式来解析HTML,而且能够处理复杂的嵌套结构,让我们能够更专注于数据提取和处理。原创 2023-07-23 15:37:50 · 197 阅读 · 0 评论 -
爬取了京东商城上的部分手机评论数据,仅供学习使用
京东的手机评论数据爬虫,仅供学习使用说明爬取了京东商城上的部分手机评论数据。由于项目的数据量要求不大,仅仅采用了比较简单的方式来进行数据的爬取,过程分为两个部分:根据不同的手机品牌选择了第一页的三十个条目,提取其名称和京东商品的编号。根据商品编号,直接使用分析出的请求接口来请求对应的评论数据。具体内容如下:Step 1 不同品牌对应的链接的获取首先,jd手机类的商品列表都在https://list.jd.com/list.html?cat=9987,653,655 链接下:通过requ原创 2021-06-22 16:08:36 · 1731 阅读 · 0 评论 -
通过豆瓣电影的多方法解析,带你学会爬虫的所有解析方法
文章目录豆瓣电影的多方法解析1. 分析网页,确认爬取目标的数据类型。打开 [目标url](https://movie.douban.com/tag/Top100), 定位数据位置定位需要的数据位置,查看爬取目标。查看请求,分析数据来源请求(F12 >> network 打开请求界面,如下图)确认数据请求来源(Ctrl + F 搜索: 辛德勒)查看headers,分析请求报文2. 利用requests进行请求测试3. 提取数据1. 正则提取提取 海报地址以及电影名称整体提取观察整体数据情况,提取数原创 2021-06-21 14:39:18 · 1213 阅读 · 0 评论 -
Scrapy爬取新浪微博用户信息、用户微博及其微博评论转发
项目介绍新浪微博是国内主要的社交舆论平台,对社交媒体中的数据进行采集是舆论分析的方法之一。本项目无需cookie,可以连续爬取一个或多个新浪微博用户信息、用户微博及其微博评论转发。实例选择爬取的用户:https://weibo.com/u/5806943776 ID 是5806943776抓取用户信息scrapy crawl user抓取用户微博scrapy crawl mblog抓取微博转发scrapy crawl repost此人没有转发微博抓取微博评论scra原创 2021-05-27 16:51:45 · 1900 阅读 · 3 评论 -
知乎回答多线程爬虫案例
知乎回答多线程爬虫模式单问题爬取模式相似问题爬取模式输出 文件名 问题题目 文件内容问题问题id回答者昵称回答者空间id回答者id回答者内容单问题爬取模式功能 主要通过用户提供的问题id,爬取单个问题下的所有回答相似问题爬取模式功能 通过用户提供的起始问题id,以及相关内容爬取数量,利用知乎的相关问题进行自动检索,并不断递归至用户提供的爬取数量(默认数量为20)。bug 由于知乎具有一定的反爬,所以在相似问题检索时最大的检索量为400,如果到达500就会原创 2021-05-26 19:35:54 · 1327 阅读 · 0 评论 -
来跟我学爬虫,爬取网易云音乐的邓紫棋歌单MP3,注意:VIP歌曲不可以爬取
@Author:Runsen我又回来了写几个爬虫案例了,这次是写一个简单的爬虫,我来教你如何爬取网易云音乐的歌单MP3,正所谓下载一个mp3很麻烦,你们的女朋友想听歌,秀即使帮她爬取所有MP3,从此博得女朋友的欢心。网易云音乐下载爬虫最近老是听邓紫棋的歌,这个歌手我觉得唱的最好听的,于是开始了爬虫之路。https://music.163.com/#/playlist?id=2883994216具体代码#!/usr/bin/env python # -*- coding:utf-8 -*-原创 2021-05-26 17:26:41 · 1689 阅读 · 2 评论 -
11 | 爬取了虎牙36709主播信息
2021 年 3 月,虎牙交出了去年成绩单,披露发布了 2020 年 Q4 及全年财报。2020 年第四季度,虎牙总收入为 29.90 亿元,全年总收入为 109.14 亿元。后面就是不断的遍历page得到新的内容,后面就是一个json取值的方法。于是一个恶心的念头想起来,就是看看这个虎牙每天都是直播什么玩意。爬取的内容是 :2021/4/15晚上的虎牙直播。代码也就是四十行,目前还是可以运行成功的。一共有可怕的306条信息。原创 2021-04-15 22:12:25 · 1449 阅读 · 0 评论 -
10 | 中国大学MOOC所有课程信息爬虫
中国大学MOOC所有课程信息爬虫中国大学 MOOC 是网易旗下一款慕课视频教育网站。实话说,这是网易几款教育类产品中,我最喜欢的一个。10 | 中国大学MOOC所有课程信息爬虫(课程ID、学校简称、课程名字、教师、学校全称、学生人数、学生人数、评价人数、平均评价)爬取成果:这里有一个难点:就是课程评价和评分 参加人数。很多人是用selenium处理,但是我觉得太慢了,而且没必要。原创 2021-04-02 15:03:09 · 3431 阅读 · 4 评论 -
寻找百度翻译参数,实现百度翻译
破解百度翻译首先要分析浏览器是怎么发送请求的。构造请求找到关键请求之后,就要分析请求,然后去构造请求。分析请求有一下几个要素,url,请求方法,请求头,请求参数。请求参数有七个,可以通过反复请求然后比较的方法得出from,to是表示翻译语言的,transtype,simple_means_flags这两个的值没有变。最关键的是query,sign,token参数,其中que...原创 2020-10-16 22:56:56 · 1285 阅读 · 0 评论 -
12 | 爬取信用中国,里面的行政许可内容,行政处罚,守信激励的内容
第一个作业就是信用中国里面能够输入一个公司,输出里面的行政许可内容,行政处罚,守信激励,失信惩戒,重点关注,资质资格,风险提示,其他。里面的内容,并以excel形式显示。最近爬取了信用中国,输出里面的行政许可内容,行政处罚,守信激励的内容,并以excel形式显示。网址:https://www.creditchina.gov.cn/就比如查询:国网江苏省电力有限公司江阴市供电分公司。下面是我写的爬代码,逻辑不写了。爬取 的结果如下所示。原创 2020-08-25 11:24:11 · 3812 阅读 · 3 评论 -
四十七、Ansible自动化入门
@Author:Runsen本专栏,我决定更新Python自动化运维方面的,其实爬虫也是自动化爬取的方法,我认为Python爬虫本身就是自动化的一方面,我先从Ansible,到saltstack,然后到nogios,最后到Appium。反正我也是刚开始学习。文章目录AnsibleAnsible安装AnsibleAnsible是什么呢?其官方的介绍是“Ansible is Simple IT Automation”,翻译过来就是一种简单地IT自动化工具。上图为ansible的基本架构,从上图可以了原创 2020-08-06 18:54:38 · 1043 阅读 · 0 评论 -
四十六、You-Get爬取B站热门排名的小视频
今天,我教大家如何爬取B站的小视频的,首先B站的小视频是完全加密的我们是很难通过视频的网址进行爬取。原创 2020-08-06 11:17:12 · 1205 阅读 · 0 评论 -
四十五、爬取QQ音乐Lemon 日语歌的评论
我们继续学习Python爬虫。本次爬取的对象是QQ音乐Lemon 日语歌的评论原创 2020-08-04 18:54:58 · 1149 阅读 · 0 评论 -
四十三、Scrapy 爬取前程无忧51jobs
爬了拉钩,爬了boss ,你认为我会放过51jobs 吗不可能的今日用下scrapy 来爬新建项目和spider 不说了今日用scrapy 对接selenium来爬先看下 itemfrom scrapy import Item,Fieldclass QcwyItem(Item): # define the fields for your item here like: ...原创 2020-08-03 16:16:36 · 1589 阅读 · 1 评论 -
二十一、Python爬取百度文库word文档内容
百度文库在我们需要查找复制一些文档的时候经常用到,下载要收费,开会员,一个字都不给复制,这个时候初学python的小伙伴肯定有个写个百度文库爬虫的想法,这里我给各位分享一下一个简易但实用的爬虫脚本,提供url,生成txt文件。原创 2020-07-30 17:47:37 · 3689 阅读 · 1 评论 -
二十七、 爬取Boss直聘的招聘信息
对于之前学的知识,作一个整合,爬取有点难度的boss招聘。不知不觉,七月份已经过去了,传说中的暑假实习招聘也应该随之结束了,我还是那个屌丝,发了几份,结果屁都没有,可能我是一个屌丝。原创 2020-07-30 16:26:56 · 1987 阅读 · 0 评论 -
二十六、爬取拉钩网Python职位的数据
受疫情影响,很多小伙伴都主动或者被动的需要重新找工作,都说今年的就业形势不好,特别是对传统行业的冲击特别大。想知道最近python的市场如何,爬一波拉钩看下究竟。原创 2020-07-29 18:56:45 · 1125 阅读 · 20 评论 -
二十五、爬取毛豆新车的数据
中国领军的汽车消费服务一站式平台,旗下拥有瓜子二手车、毛豆新车、瓜子养车、车速拍四大主力品牌,今天先爬取毛豆新车。原创 2020-07-29 18:45:27 · 1110 阅读 · 0 评论 -
二十四、爬取古诗网中的100首古诗文
今天安利一个网站:[古诗文网](https://www.gushiwen.org/),简直就是学生党的福音,我的噩梦,尤其是对于古代汉语方面的学习者及工作者。里有大量的诗文及古籍,对于人物生平也进行了详细记载,还有经典名句供你选择积累。原创 2020-07-29 18:14:26 · 1222 阅读 · 0 评论 -
二十三、 爬取mzsock网站写真社区
本次爬取的网站是mzsock。具体网址:http://mzsock.com/。原创 2020-07-29 17:56:51 · 95169 阅读 · 4 评论 -
二十、App爬虫环境搭建并测试监听微信
App爬虫环境搭建并测试监听微信原创 2019-04-10 16:48:58 · 1354 阅读 · 0 评论 -
URI结构和ABNF操作符
下面来源:https://www.cnblogs.com/breka/articles/9791664.html一、URI结构HTTP使用统一资源标识符(URI)来传输数据和建立连接。URL(统一资源定位符)是一种特殊种类的URI,包含了用于查找的资源的足够的信息,我们一般常用的就是URL,而一个完整的URL包含下面几部分:http://www.fishbay.cn:80/mix/76.h...原创 2019-10-04 16:22:41 · 1176 阅读 · 0 评论 -
玩转Python爬虫系列专栏简介
欢迎来到《玩转Python爬虫系列专栏》!本专栏将带您深入了解Python爬虫的世界,探索网络数据的无限可能。无论您是初学者还是有一定经验的开发者,本系列都为您提供了全面的指导和实用的技巧,助您成为一名卓越的网络爬虫工程师。原创 2020-06-02 13:01:56 · 1243 阅读 · 2 评论 -
十九、抓包利器Charles的使用
@Author:Runsen文章目录介绍下载设置HTTPS证书连接手机介绍Charles是一个网络抓包工具,相比Fiddler,其功能更为强大,而且跨平台支持得更好,所以这里选用它来作为主要的移动端抓包工具。Charles是收费软件,可以免费试用30天。如果试用期过了,其实还可以试用30分钟。下载下载链接:https://www.charlesproxy.com/download设置HTTPS证书对于https的请求,解密抓包时需要电脑安装证书,选择“Help->SSL Proxyin原创 2020-05-19 18:37:26 · 1107 阅读 · 0 评论 -
十一、练习:爬取图虫网付费图片
十、练习:爬取图虫网免费图片今天爬下图虫网付费的图片,比之前的免费图片简单。这里的付费图片都是一个专辑的这个我在一个公开课听的,说这个是:https://tuchong.com/rest/tags/美女/posts,是爬取图虫网付费图片的接口,我在整个图虫网都没有发现。因此,很简单就是拿到json数据,进行解析。拿到import requestsimport jsonheader = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Wi原创 2020-05-18 17:28:29 · 3069 阅读 · 1 评论 -
一、学爬虫前,你需要知道的爬虫常识
@Author : By Runsen@Author : 2020/5/16作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件。导致翘课严重,专业排名中下。.在大学60%的时间,都在CSDN。我决定把去年写的关于Python爬虫文章整理一个专栏,垃圾的就直接删除,将多篇博文整理成一篇,还补充一下其他的东西。零基础Python专栏,到底写了什么内容希望大家都是Python大牛。一、学爬虫前,网页结构不知道怎么行?1、网页结构1.原创 2020-05-16 23:38:07 · 1309 阅读 · 0 评论 -
爬虫经典面试题
网站:http://datamining.comratings.com/exam如何抓取10个ip,这题很经典先查看网页源代码,啥也没有 <iframe src="/exam2" frameborder="no" width="750" height="500"></iframe>看不懂就抓包可以看到经过了3次请求,最后在http://datamining....原创 2019-10-12 09:37:14 · 1605 阅读 · 0 评论 -
七、Python简单爬取学堂在线合作院校页面内容
这是一个大学生的爬虫作业,我是收钱干活的,比较简单,来过来分享一下。就是要爬取到合作院校的名称及该所院校在学堂在线开课的数量,将爬取到的数据保存到一个json文件中!例如:“{“清华大学”:308}”直接用xpath就可以了,保存为字典,然后转化成json就OK了。dict(zip(course,nums))将两个列表变成字典,这个需要知道。爬取代码如下。'''@Author: R...原创 2020-04-23 14:49:19 · 3343 阅读 · 0 评论 -
八、爬虫解析利器 PyQuery 的使用
@Author: Runsen每个网页,都有一定的特殊结构和层级关系,而且很多节点都有 id 或 class 作为区分,我们可以借助它们的结构和属性来提取信息。如果你用惯了xpath和bs4,学习Pyquery是一个不错的选择。pyquery 是 Python 的第三方库,我们可以借助于 pip3 来安装,安装命令如下:pip install pyquery下面,我以CSDN首页为例。...原创 2020-04-23 14:23:23 · 1126 阅读 · 0 评论 -
四十一、完成scrapy爬取官方网站新房的数据
在前几天,接到一个大学生的作业的爬虫单子,要求采用scrapy爬取链家官方网站新房的数据(3-5页即可,太多可能被封禁ip),网址:https://bj.fang.lianjia.com/loupan/,将楼盘名称、价格、平米数等(可以拓展)数据保存到一个json文件中。原创 2020-04-17 19:27:55 · 2951 阅读 · 3 评论 -
九、爬虫学会如何入库
对于关系型数据库的访问,Python社区已经指定了一个标准,称为Python Database API SepcificationV2.0.MySQL、Qracle等特定数据库模块遵从这一规范,而且可添加更多特性高级数据库API定义了一组用于连接数据库服务器、执行SQL语句并获得结果的函数和对象,其中有两个主要的对象:一个是用于管理数据库连接的Connection对象,另一个是用于执行查询的C...原创 2019-10-16 15:12:44 · 1311 阅读 · 0 评论