自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 2021-05-29 —— 天池python学习打卡

主要学习一些python的基础知识。1、注释:# 这个是注释"""这是多行注释"""2、运算符:①注意一下地板除:除完以后取整。②is和not is 对比的是两个变量的内存地址,如果是不可变类型,和=没啥区别。③优先级:如果记不住,就记得多加括号。3、变量和赋值数字不能开头对大小写敏感4、数据类型①数据类型其实可以看作一种对象,既然是对象就会有对应的方法。可以用dir去看。②bool:布尔类型的方式,只要是为空或者是0则为False,其他为True.③Decimal 对象的

2021-05-29 13:33:11 85

原创 selenium再爬百度图片

上次爬百度图片的时候本来是不想去详情页进行爬取的,而是想通过模拟下拉的方式进行爬取,但是一直没有成功。因为我的思路是下拉一点,爬取一点,这样很难把控。今天突然想到,可以一下全部下拉,等下拉到最下面的时候,开始进行爬取。具体代码如下,使用了运行js文件的方法完成下拉的操作。一开实验了一下,按照我设定的下拉的幅度,大概五十多次可以拉到底。等拉到底部,下面哪一行小字出现的时候,开始读取源码,进行爬取。...

2019-05-28 22:11:25 230

原创 selenium爬百度图片

一开始学习爬虫的时候就想爬一下百度图片,但是怎么也爬不成功。学习了几天才知道,百度图片库中的图片也不是放在源代码里面的,用requests去直接去请求是拿不到的。最近几天学习了一下selenium,也趁着今天我的IP又被某网址封了,我也没有代理可以用,就拿百度图片来练一下,了却一下心愿。用selenium来爬百度图片就比较简单了,直接进入要爬取类型的图片的第一张详情页,获取源代码,找到图片的u...

2019-05-28 22:09:37 925

原创 使用selenium爬取淘宝商品

爬取的页面是:“https://s.taobao.com/search?q=手机”,这个是淘宝搜索手机时候的网址。爬取的思路:使用selenium来模拟登陆淘宝,然后爬取这一页中商品的一些信息;爬取完以后,找到输入页面的输入框,依次输入下一页的页码,比如刚刚爬的是第一页,就输入2,再点击确定按钮,以此类推,就可以实现翻页的功能。其中需要多次使用WebDriverWait,来保证需要爬取的内容出...

2019-05-28 22:06:04 1549

原创 爬一爬百思不得姐上的搞笑图片

前两天看了一个爬百思不得姐上段子的视频,然后特意去百思不得姐网址看了一下,发现还有声音,就想爬一下声音这个一栏。使用的是我新学的多线程O(∩_∩)O,没想到居然掉进一个坑。这个网站的声音有十页,但是十页的内容都一毛一样,爬的时候看着我设置的提示信息,有点怀疑人生,比如一下出现5个“xxxxxx已经下载完成”,找了好久才发现是网站的问题。哎本着来都来了的心态,就再爬一下图片吧。网址:http://...

2019-05-25 13:04:36 643

原创 为了斗图,爬一爬表情包

爬取的网址:http://www.doutula.com/photo/list/?page=本次主要是学习多线程爬虫,使用queue队列下的生产者与消费者模式。网站分析:这个网站的构造比较简单,直接在上面的网址后面加上1表示第一页,加上2表示第二页,以此类推。数据也都可以用requests直接访问到,没有什么反爬虫的措施,但是要爬的慢一点,太快了还是会出问题。我这里使用的多线程的方法,爬取...

2019-05-25 12:38:16 1285

原创 python爬取电影天堂

爬取的网址:http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html使用的环境:pychram+anaconda5.4.7+python3.7.1使用的函数库:requests+pyquery+csv+time爬取思路:先在爬取的网址中得到电影详情页的网址,再访问详情页提取需要的信息。网站分析:关于翻页,网站第一页为http://www...

2019-05-19 16:42:24 2343

原创 python爬取拉勾网的职位信息

爬取的网址为https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=使用pycharm+anaconda使用到的库:requests+time+json+pandas网页分析:当我们进入拉勾网,输入python搜索,查看源码时,发现居然没有这些职位的信息,而且翻页的时候发现网址...

2019-05-19 15:08:08 1025 1

原创 多种方式爬取猫眼电影TOP100

最近开始学习爬虫,用的是崔庆才老师的教程,其中第一个实战就是爬取猫眼电影的TOP100,使用的是requests+re。但我觉得re有点复杂,于是探索了一下用其他解析库来爬取。爬取思路:首先我要爬取的网站为:https://maoyan.com/board/4?offset=,当翻到第二时网址变成了https://maoyan.com/board/4?offset=10,第三页网址时变成了ht...

2019-05-19 13:49:05 1734

原创 python爬取豆瓣正在上映的电影

爬取的目标网址:https://movie.douban.com/cinema/nowplaying/zhuhai/(后面这个珠海是表示的地点)使用的工具:Jupyter Notebook(5.4.7),python3.7.1使用的python库:requests、pyquery、pandas要爬取的网站长这个样子:先引入库import requestsfrom pyquer...

2019-05-19 11:09:03 1279

原创 数据分析——Glassdoor上各公司员工的评价分析

(参考:小象学院公开课,网络文献)1、分析目的:通过对美国各科技公司员工的匿名评价,分析员工满意度;2、数据来源:Glassdoor网站(类似于国内的看准等);3、数据大小:37576kb,共67k条数据;4、使用的分析工具:jupyter notebook5、使用到的python库:pandas、matplotlib、seaborn、wordcloud6、分析思路:先通过pandas...

2019-05-17 20:57:59 3408 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除