网络爬虫
1.网络爬虫1之HttpClient抓取数据、Jsoup解析数据;
2.使用HttpClient和Jsoup爬取京东手机信息案例;
3.网络爬虫2之WebMagic;
4.使用WebMagic爬取51job上的招聘信息。
hello-hebin
这个作者很懒,什么都没留下…
展开
-
python豆瓣电影爬虫以及信息图像化
文章目录python豆瓣电影爬虫1. ModuleNotFoundError: No module named 'xlwt'2. AttributeError: module 'urllib' has no attribute 'request'3. UnboundLocalError: local variable 'xxx' referenced before assignment4. SyntaxError: invalid syntax5. NameError: name 'saveData' is原创 2020-11-30 18:11:02 · 1260 阅读 · 1 评论 -
python爬取网页图片
python爬取网页图片在这里插入代码片1. ModuleNotFoundError: No module named ‘requests’未安装该模块,安装一下即可;在python安装目录输入cmd,再输入以下代码:python -m pip install request2. ModuleNotFoundError: No module named ‘bs4’python -m pip install bs43. bs4.FeatureNotFound: Couldn’t find原创 2020-11-26 14:27:04 · 446 阅读 · 2 评论 -
使用WebMagic爬取51job上的招聘信息
案例开发分析我们已经学完了WebMagic的基本使用方法,现在准备使用WebMagic实现爬取数据的功能。这里是一个比较完整的实现。在这里我们实现的是聚焦网络爬虫,只爬取招聘的相关数据。5.1. 业务分析今天要实现的是爬取https://www.51job.com/上的招聘信息。只爬取“计算机软件”和“互联网电子商务”两个行业的信息。首先访问页面并搜索两个行业。结果如下点击职位详情页,我们分析发现详情页还有一些数据需要抓取:职位、公司名称、工作地点、薪资、发布时间、职位信息、公司联系方式、.原创 2020-06-12 12:47:37 · 1149 阅读 · 0 评论 -
网络爬虫2之WebMagic
网络爬虫21. WebMagic介绍2. WebMagic功能3. 爬虫分类[4. 使用WebMagic爬取51job上的招聘信息](https://editor.csdn.net/md?articleId=106706999)1. WebMagic介绍基础知识:WebMagic是一款爬虫框架,其底层用到了HttpClient和Jsoup,让我们能够更方便的开发爬虫。WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括原创 2020-06-12 12:47:21 · 540 阅读 · 0 评论 -
使用HttpClient和Jsoup爬取京东手机信息案例
使用HttpClient和Jsoup爬取京东手机信息案例1. 需求分析2. 开发准备3. 代码实现4. bug分析:1. 需求分析首先访问京东,搜索手机,分析页面,我们抓取以下商品数据:商品图片、价格、标题、商品详情页,SPU和SKU除了这四个属性以外,我们发现中的苹果手机有四种产品,我们应该每一种都要抓取。那么这里就必须要了解spu和sku的概念:SPU = Standard Product Unit (标准产品单位)SPU是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息原创 2020-06-09 12:14:11 · 1158 阅读 · 3 评论 -
网络爬虫1之HttpClient抓取数据、Jsoup解析数据
网络爬虫1HttpClient抓取数据Jsoup使用HttpClient和Jsoup爬取京东手机信息案例入门介绍:网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本环境准备JDK1.8IntelliJ IDEAIDEA自带的Maven创建Maven工程给pom.xml加入依赖<dependencies> <!-- HttpClient --> <dependency> <原创 2020-06-09 12:13:46 · 479 阅读 · 0 评论