![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
HarveyWen05
计算机科学与技术,本科,在校生。主要语言方向:python,mysql,web前端。主要的从事方向:数据分析,数据挖掘,机器学习
展开
-
链家租房-深圳租房分析(1/2)网络爬虫
深圳租房分析(1/2)网络爬虫01、运行环境02、主要信息03、完整代码04、结语:01、运行环境# 操作系统:win10 专业版pycharm professional 2019.1python 3.8requests == 2.23.0random # 内置的02、主要信息房屋城区房屋面积房屋价格房屋朝向房屋布局房屋小区03、完整代码import requestsfrom lxml import etreeimport randomimport pandas原创 2020-09-10 16:10:40 · 3203 阅读 · 3 评论 -
selenium的介绍、原理,安装,基本使用演示
selenium1、selenium的介绍1-1、介绍1-2、运行流程图2、selenium安装2-1、pycharm安装2-2、下载对应版本的webdriver2-2-1、查看Google Chrome的版本2-2-2、访问: [chromedriver镜像http://npm.taobao.org/mirrors/chromedriver/](http://npm.taobao.org/mirrors/chromedriver/)2-2-3、点击notes.txt进入版本说明页面2-2-4、查看chro原创 2020-08-23 22:44:26 · 1021 阅读 · 0 评论 -
爬虫实战05--python爬虫爬取糗事百科标题,多进程--面向对象版本(3_3)(面向对象,多进程面向对象,多进程面向对象) (3)
爬虫实战05--爬虫多进程0.0说明:为啥有多线程还要用多进程?01、运行环境02、开始爬虫02-1、目标02-2、开始抓取内容02-2-1、分析02-2-2、线程改成进程02-2-3、Queue 改成 JoinableQueue02-2-4、设置守护进程03、完整代码(多线程面向对象版)04、结语:0.0说明:这一个爬取的网站是糗事百科的页面去全部标题!最后是以打印的方式展现的!这是第二篇文章,多进程的爬取糗事百科全部标题。一共是有三个版本,我一共会发三篇文章!第一篇:前篇,正常爬取原创 2020-08-21 21:51:26 · 311 阅读 · 0 评论 -
爬虫实战04--python爬虫爬取糗事百科标题,多线程--面向对象版本(2_3)(面向对象,多线程面向对象,多进程面向对象) (2)
爬虫实战04--爬虫多线程0.0说明:01、运行环境02、开始爬虫02-1、目标02-2、开始抓取内容02-2-1、分析02-3、其他知识02-3-1、队列模块的使用02-3-2、多线程的方法使用02-3-3、多线程实现设计思路生产消费模式单线程爬虫流程多线程爬虫流程实现03、完整代码(多线程面向对象版)04、结语:0.0说明:这一个爬取的网站是糗事百科的页面去全部标题!最后是以打印的方式展现的!这是第二篇文章,多线程的爬取糗事百科全部标题。一共是有三个版本,我一共会发三篇文章!第一篇:上篇,正常原创 2020-08-21 21:35:29 · 339 阅读 · 0 评论 -
爬虫实战03--python爬虫爬取糗事百科标题,正常版--面向对象版本(1/3)(面向对象,多线程面向对象,多进程面向对象)(1)
爬虫实战03--爬虫单线程0.0说明:01、运行环境+02、开始爬虫02-1、目标02-2、开始抓取内容02-2-1、分析03、完整代码(面向对象版)04、结语:0.0说明:这一个爬取的网站是糗事百科的页面去全部标题!最后是以打印的方式展现的!这是第一篇文章,就是正常的爬取。一共是有三个版本,我一共会发三篇文章!第一篇:本篇,正常爬取 糗事百科全部标题第二篇:下篇,多线程的爬取糗事百科全部标题第三篇:后篇,多进程的爬取糗事百科全部标题01、运行环境+# 操作系统:win10原创 2020-08-21 21:17:35 · 256 阅读 · 0 评论 -
爬虫实战02--python爬虫百度贴吧标题与图片,遇上反爬(JS渲染后的页面无法抓取),附解决方案,完整代码
爬虫实战02--百度贴吧01、运行环境02、开始爬虫02-1、爬取的内容02-2、开始抓取内容02-2-1、首先02-2-2、接下来02-2-3、没结果02-3、JS渲染后的页面无法抓取02-4、明确一点03、再次开始爬虫!~~03-1、基础信息03-2、提取信息03-2-1、提取文本03-2-2、提取图像04、完整代码(面向对象版)05、结语:01、运行环境# 操作系统:win10 专业版pycharm professional 2019.1python 3.8lxml == 4.5.1req原创 2020-08-20 20:15:04 · 1335 阅读 · 0 评论 -
爬虫实战01--爬虫某某(quanben5)小说网网站小说
爬虫实战01--小说01、运行环境02、开始爬虫02-1、分析要点02-1-1、页面之间处理:02-1-2、页面内内容提取02-2、开始页面处理02-2-1、文章目录链接地址:02-2-2、第一个页面链接地址:02-2-3、第2-5个页面链接地址:02-2-4、最后一个页面链接地址:02-2-5、分析结果02-2-6、获取全部页面的code02-3、页面内处理02-3-1、页面分析102-3-2、文章标题分析:02-3-3、获取标题代码实现:02-3-4、获取内容分析:02-3-5、内容获取代码描述03、其原创 2020-08-19 16:08:54 · 12396 阅读 · 7 评论 -
另一种解决方式:编码问题:UnicodeEncodeError: ‘gbk‘ codec can‘t encode character u‘\xa0‘ in position 148:
目录0、描述1、环境2、错误3、其他人的方法(未解决我的问题)4、解决方案5、如果解决不了6、结语:0、描述今天在写一个爬虫的时候,遇到了一个问题,困扰了好久。而且我用同样的编码错误网站搜索,发现解决方式都是一样的,重点是并没有解决我的问题,于是我自己摸索了很久,然后请教了大神才解决了这么一个问题。记录一哈!!!也算是为这样的一个报错提供一个新的解决方式和思路吧!欢迎浏览留言交流探讨!就是在文件写入的是,一直提示编码不对!1、环境windows 10 专业版python 3.8request原创 2020-08-18 18:33:07 · 526 阅读 · 1 评论