网络爬虫_hello-hebin的博客-CSDN博客

网络爬虫

关注

1.网络爬虫1之HttpClient抓取数据、Jsoup解析数据； 2.使用HttpClient和Jsoup爬取京东手机信息案例； 3.网络爬虫2之WebMagic； 4.使用WebMagic爬取51job上的招聘信息。

关注数：文章数：6 文章阅读量：5030 文章收藏量：23

作者: hello-hebin

这个作者很懒，什么都没留下…

展开

python豆瓣电影爬虫以及信息图像化

文章目录python豆瓣电影爬虫1. ModuleNotFoundError: No module named 'xlwt'2. AttributeError: module 'urllib' has no attribute 'request'3. UnboundLocalError： local variable 'xxx' referenced before assignment4. SyntaxError: invalid syntax5. NameError: name 'saveData' is

原创 2020-11-30 18:11:02 · 1260 阅读 · 1 评论
python爬取网页图片

python爬取网页图片在这里插入代码片1. ModuleNotFoundError: No module named ‘requests’未安装该模块，安装一下即可；在python安装目录输入cmd,再输入以下代码：python -m pip install request2. ModuleNotFoundError: No module named ‘bs4’python -m pip install bs43. bs4.FeatureNotFound: Couldn’t find

原创 2020-11-26 14:27:04 · 446 阅读 · 2 评论
使用WebMagic爬取51job上的招聘信息

案例开发分析我们已经学完了WebMagic的基本使用方法，现在准备使用WebMagic实现爬取数据的功能。这里是一个比较完整的实现。在这里我们实现的是聚焦网络爬虫，只爬取招聘的相关数据。5.1. 业务分析今天要实现的是爬取https://www.51job.com/上的招聘信息。只爬取“计算机软件”和“互联网电子商务”两个行业的信息。首先访问页面并搜索两个行业。结果如下点击职位详情页，我们分析发现详情页还有一些数据需要抓取：职位、公司名称、工作地点、薪资、发布时间、职位信息、公司联系方式、.

原创 2020-06-12 12:47:37 · 1149 阅读 · 0 评论
网络爬虫2之WebMagic

网络爬虫21. WebMagic介绍2. WebMagic功能3. 爬虫分类[4. 使用WebMagic爬取51job上的招聘信息](https://editor.csdn.net/md?articleId=106706999)1. WebMagic介绍基础知识：WebMagic是一款爬虫框架，其底层用到了HttpClient和Jsoup，让我们能够更方便的开发爬虫。WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括

原创 2020-06-12 12:47:21 · 540 阅读 · 0 评论
使用HttpClient和Jsoup爬取京东手机信息案例

使用HttpClient和Jsoup爬取京东手机信息案例1. 需求分析2. 开发准备3. 代码实现4. bug分析：1. 需求分析首先访问京东，搜索手机，分析页面，我们抓取以下商品数据：商品图片、价格、标题、商品详情页，SPU和SKU除了这四个属性以外，我们发现中的苹果手机有四种产品，我们应该每一种都要抓取。那么这里就必须要了解spu和sku的概念：SPU = Standard Product Unit （标准产品单位）SPU是商品信息聚合的最小单位，是一组可复用、易检索的标准化信息

原创 2020-06-09 12:14:11 · 1158 阅读 · 3 评论
网络爬虫1之HttpClient抓取数据、Jsoup解析数据

网络爬虫1HttpClient抓取数据Jsoup使用HttpClient和Jsoup爬取京东手机信息案例入门介绍：网络爬虫（Web crawler），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本环境准备JDK1.8IntelliJ IDEAIDEA自带的Maven创建Maven工程给pom.xml加入依赖<dependencies>  <dependency> &lt

原创 2020-06-09 12:13:46 · 479 阅读 · 0 评论

网络爬虫

作者: hello-hebin

python豆瓣电影爬虫以及信息图像化

python爬取网页图片

使用WebMagic爬取51job上的招聘信息

网络爬虫2之WebMagic

使用HttpClient和Jsoup爬取京东手机信息案例

网络爬虫1之HttpClient抓取数据、Jsoup解析数据