Juno的学习日记-CSDN博客

原创 2021-05-29 —— 天池python学习打卡

主要学习一些python的基础知识。1、注释：# 这个是注释"""这是多行注释"""2、运算符：①注意一下地板除：除完以后取整。②is和not is 对比的是两个变量的内存地址，如果是不可变类型，和=没啥区别。③优先级：如果记不住，就记得多加括号。3、变量和赋值数字不能开头对大小写敏感4、数据类型①数据类型其实可以看作一种对象，既然是对象就会有对应的方法。可以用dir去看。②bool：布尔类型的方式，只要是为空或者是0则为False，其他为True.③Decimal 对象的

2021-05-29 13:33:11 167

原创 selenium再爬百度图片

上次爬百度图片的时候本来是不想去详情页进行爬取的，而是想通过模拟下拉的方式进行爬取，但是一直没有成功。因为我的思路是下拉一点，爬取一点，这样很难把控。今天突然想到，可以一下全部下拉，等下拉到最下面的时候，开始进行爬取。具体代码如下，使用了运行js文件的方法完成下拉的操作。一开实验了一下，按照我设定的下拉的幅度，大概五十多次可以拉到底。等拉到底部，下面哪一行小字出现的时候，开始读取源码，进行爬取。...

2019-05-28 22:11:25 321

原创 selenium爬百度图片

一开始学习爬虫的时候就想爬一下百度图片，但是怎么也爬不成功。学习了几天才知道，百度图片库中的图片也不是放在源代码里面的，用requests去直接去请求是拿不到的。最近几天学习了一下selenium，也趁着今天我的IP又被某网址封了，我也没有代理可以用，就拿百度图片来练一下，了却一下心愿。用selenium来爬百度图片就比较简单了，直接进入要爬取类型的图片的第一张详情页，获取源代码，找到图片的u...

2019-05-28 22:09:37 1071

原创使用selenium爬取淘宝商品

爬取的页面是：“https://s.taobao.com/search?q=手机”，这个是淘宝搜索手机时候的网址。爬取的思路：使用selenium来模拟登陆淘宝，然后爬取这一页中商品的一些信息；爬取完以后，找到输入页面的输入框，依次输入下一页的页码，比如刚刚爬的是第一页，就输入2，再点击确定按钮，以此类推，就可以实现翻页的功能。其中需要多次使用WebDriverWait，来保证需要爬取的内容出...

2019-05-28 22:06:04 1702

原创爬一爬百思不得姐上的搞笑图片

前两天看了一个爬百思不得姐上段子的视频，然后特意去百思不得姐网址看了一下，发现还有声音，就想爬一下声音这个一栏。使用的是我新学的多线程O(∩_∩)O，没想到居然掉进一个坑。这个网站的声音有十页，但是十页的内容都一毛一样，爬的时候看着我设置的提示信息，有点怀疑人生，比如一下出现5个“xxxxxx已经下载完成”，找了好久才发现是网站的问题。哎本着来都来了的心态，就再爬一下图片吧。网址：http://...

2019-05-25 13:04:36 805

原创为了斗图，爬一爬表情包

爬取的网址：http://www.doutula.com/photo/list/?page=本次主要是学习多线程爬虫，使用queue队列下的生产者与消费者模式。网站分析：这个网站的构造比较简单，直接在上面的网址后面加上1表示第一页，加上2表示第二页，以此类推。数据也都可以用requests直接访问到，没有什么反爬虫的措施，但是要爬的慢一点，太快了还是会出问题。我这里使用的多线程的方法，爬取...

2019-05-25 12:38:16 1431

原创 python爬取电影天堂

爬取的网址：http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html使用的环境：pychram+anaconda5.4.7+python3.7.1使用的函数库：requests+pyquery+csv+time爬取思路：先在爬取的网址中得到电影详情页的网址，再访问详情页提取需要的信息。网站分析：关于翻页，网站第一页为http://www...

2019-05-19 16:42:24 3896

原创 python爬取拉勾网的职位信息

爬取的网址为https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=使用pycharm+anaconda使用到的库：requests+time+json+pandas网页分析：当我们进入拉勾网，输入python搜索，查看源码时，发现居然没有这些职位的信息，而且翻页的时候发现网址...

2019-05-19 15:08:08 1122 1

原创多种方式爬取猫眼电影TOP100

最近开始学习爬虫，用的是崔庆才老师的教程，其中第一个实战就是爬取猫眼电影的TOP100，使用的是requests+re。但我觉得re有点复杂，于是探索了一下用其他解析库来爬取。爬取思路：首先我要爬取的网站为：https://maoyan.com/board/4?offset=，当翻到第二时网址变成了https://maoyan.com/board/4?offset=10，第三页网址时变成了ht...

2019-05-19 13:49:05 1844

原创 python爬取豆瓣正在上映的电影

爬取的目标网址：https://movie.douban.com/cinema/nowplaying/zhuhai/（后面这个珠海是表示的地点）使用的工具：Jupyter Notebook（5.4.7），python3.7.1使用的python库：requests、pyquery、pandas要爬取的网站长这个样子：先引入库import requestsfrom pyquer...

2019-05-19 11:09:03 1410

原创数据分析——Glassdoor上各公司员工的评价分析

（参考：小象学院公开课，网络文献）1、分析目的：通过对美国各科技公司员工的匿名评价，分析员工满意度；2、数据来源：Glassdoor网站（类似于国内的看准等）；3、数据大小：37576kb，共67k条数据；4、使用的分析工具：jupyter notebook5、使用到的python库：pandas、matplotlib、seaborn、wordcloud6、分析思路：先通过pandas...

2019-05-17 20:57:59 4254 4

weixin_45075241的博客