爬虫
小白的爬虫学习分享
喜欢coding的谢同学
2020年网易实习
2021年字节跳动校招
小Red书同名,一起努力学习吧~
展开
-
Python爬取天天基金网历史数据
前言最近开始学习基金????,感觉需要收集一些数据统计分析才靠谱????毕竟给A股交学费的感觉可不好受????网上有很多公开的数据,我这里选择的是天天基金网进行爬取页面分析接口我分析过了,有些验证不太好获取数据,所以直接从html提取在天天基金网中随便选择一款基金,然后点击进入历史数据页面容易定位出日增长率的css选择器还有翻页按钮程序编写使用selenium打开chrome浏览器进行爬取,全代码如下from selenium import webdriverfrom sel原创 2021-04-24 16:05:43 · 2622 阅读 · 1 评论 -
selenium控制已经打开的chrome浏览器
文章目录1.启动浏览器传统方式快捷方式2.接管chrome1.启动浏览器传统方式在cmd或者pycharm的terminal启动一个chrome,并指定数据存放的路径chrome.exe --remote-debugging-port=9222 --user-data-dir="E:\MyWork\MyProject\Crawler\chaoxing\AutomationProfile"这里需要确保chrome.exe在环境变量当中快捷方式在自己的项目下新建一个chrome.exe的快捷方式原创 2020-05-19 16:32:33 · 6120 阅读 · 1 评论 -
python爬取视频网站中video标签的m3u8文件与ts文件
文章目录网站分析代码参数配置下载m3u8文件下载ts文件解密合并转换为MP4网站分析许多网站使用的都是video加载的视频,无法获得视频的源地址。但是通过抓包可以获得两类文件,一类是m3u8,相当于ts文件的索引将不同的ts文件串起来;另一类是很多个ts片段,由这些片段构成我们观看的视频。上图的m3u8文件显示的ts文件是未加密的,所以下载下来的ts文件可以直接播放;下载的时候还能注意...原创 2020-02-06 17:18:14 · 5336 阅读 · 0 评论 -
requests一个简单封装解决失败重试问题
python在用requests请求的时候可能会出各种各样的异常,我这个封装能抓住这些异常然后自动重试。其中超时时间应该根据业务的请求时间进行调整,连接用时久的超时时间也适当加长,否则会自动断掉重试。 @retry() # 利用retry装饰函数,使得抛出异常的时候自动重试知道成功。 def my_request(url): requests.adapters.DEFAU...原创 2020-02-06 16:01:09 · 1019 阅读 · 0 评论 -
python多线程requests下载数据的模版代码
python用requests爬取的时候,可以用多线程提高速度。这里封装了一个文件,只需修改具体的业务url就可以直接拿去使用。import requestsimport timeimport threading# 使用 threading 模块创建线程import queue#优先级队列模块#线程优先级队列(Queue)from config import *from retr...原创 2020-02-06 17:16:43 · 2246 阅读 · 3 评论 -
python爬取阿里巴巴校招研究型实习生项目数据进行简单分析
文章目录前言爬取网站分析代码分析统计分析前言意外地从阿里巴巴校园招聘官网中发现了阿里巴巴的人才计划有研究型实习生项目,但是只能按领域方向筛选而不能按毕业时间筛选,便想把数据爬下来自己筛选爬取网站分析可以根据tableTr定位到每一行,tableTd定位到一行中的各列通过rightCount可以定位到翻页的按钮代码分析这里采用selenium加bs4的技术方案,主要是为了翻页的方...原创 2019-11-14 22:02:55 · 539 阅读 · 0 评论 -
19年深圳杯D题之爬取电视收视率排行榜
前言D题与地方电视台有关,多年的收视率数据可能有一些用站点分析http://www.tvtv.hk/archives/category/tv可以发现每天的排行榜以一个静态页面发布,获得了每天的排行榜链接才能进一步获取每天的数据每天前10的信息以文字发布在p标签内,抓取段落的时候,最后按空格拆分一下具体代码抓取每天排行的链接def get_href_list(): hre...原创 2019-05-11 19:44:33 · 1520 阅读 · 0 评论 -
19年深圳杯D题之爬取微博粉丝基本信息
前言由于第一问需要频道用户信息,便选择从深圳卫视的微博中爬取其粉丝的信息作为数据。网站分析具体代码原创 2019-05-11 19:45:18 · 877 阅读 · 2 评论 -
19年深圳杯D题之爬取京东评论数据
前言由于问题需要产品销量情况的数据,在此选择爬取京东的评论,根据日期来确定产品的销量。原创 2019-05-11 19:45:52 · 919 阅读 · 0 评论 -
19年深圳杯D题之爬取实时收视率信息
文章目录前言网站分析具体代码前言由于了解每个时段的收视率信息,这里爬取了酷云的数据网站分析进入酷云的界面,可以发现它的数据是通过Ajax获取http://eye.kuyun.com/web/#epglist/225/深圳卫视双击刚才的请求进去,可以直接拿到json数据,并没有过滤操作,使用直接用request请求即可。广告表现也是一样的道理具体代码获得EPG信息直接写入文件...原创 2019-05-11 20:01:32 · 1690 阅读 · 3 评论 -
爬取牛客网校招日程制作邮件提示助手
文章目录前言发送邮件爬取页面分析代码部署前言求职的时候,简历免不了不断改动。如果一次早早投完,可能就无法再更改。如果一直等待,可能会错过截至日期。所以我爬取牛客网的校招日程,比截至日期早两天提示自己即将截止的公司。发送邮件这里直接改了改网上的代码#!/usr/bin/python3# coding: utf-8import smtplibfrom email import enc...原创 2019-08-15 21:27:00 · 465 阅读 · 0 评论 -
python爬取各国美景图片制作照片墙和动图
前言由于工作需要制作照片墙,就顺便爬了一波美景图,用来练手。爬取先给出我爬取的网站地址 http://www.win4000.com/zt/guowaifengguang_1.html网站分析这里的选择器很多,有很多组合方式,我这里给出最简单的’.Left_bar li’,这样可以定位到每个li,然后再依次获取当中图片和文本。需要注意的是获得的图片链接只是缩略图,去除掉尺寸即可访问原...原创 2019-08-31 12:08:10 · 882 阅读 · 0 评论 -
python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接
前言在从两个小网站爬取了书籍之后,我想研究一下大网站的网页,便把自己分析出来的一点结果分享出来,希望能帮助大家,也请大佬指出其中不足。百度文库任意打开一篇文档F12调出控制台试着检查一下图片元素,可以发现一个urlurl很长,包含了很多参数,我单独分析了一下参数的内容,没能找到页面之间的循环规律,如果有大佬发现了还望点拨点拨。把链接拿出来直接从浏览器访问看看,成功获得了图片资源。...原创 2019-02-22 21:49:25 · 7559 阅读 · 0 评论 -
python爬取book118中的书籍
文章目录前言网站分析提取内嵌html分析内嵌html获取图片链接代码展示运行结果下载并合成pdf前言不满足于上次从360doc爬取了概率论的答案,这次便研究了一下book118,爬取了里面我需要的答案书。不过由于网站的设计比360doc的复杂,我又不擅长java的爬虫,所以这次用python获取图片链接,接着用之前写的java下载图片并合并成pdf。网站分析提取内嵌html任意打开一本书...原创 2019-02-21 19:41:03 · 7951 阅读 · 6 评论 -
爬虫入门-HTML基础标签学习分享
文章目录前言页面示例纵观全局head部分body部分标签简述htmlheadmetatitlebodypdivspan前言初学爬虫时,看到一堆陌生的html标签是件头疼的事情,在这里我总结了一些基础的标签,希望能帮助大家快速熟悉起html标签。页面示例纵观全局这里拿我以前写的静态淘宝首页来展示head部分body部分标签简述下面是对常用标签的一些简述,结合目录结构与示例可理...原创 2019-01-25 12:56:34 · 375 阅读 · 0 评论 -
爬虫入门-HTML高级标签学习分享
文章目录前言标签简述divulimgaform前言继续之前那篇基础HTML标签的博客,简单分享一下高级标签的学习。标签简述这里再列出一些做爬虫时,经常遇到的标签。div咱们来看图说话我这就用div将页面分成了四块。实际分析页面的时候,div可能是最常见的一个标签,合理分析div有助于帮我们理解网页的整个布局。点击查看详情ul一个ul里可以嵌套多个li,在分析页面的时候,也是很...原创 2019-01-25 12:57:32 · 239 阅读 · 0 评论 -
爬虫入门-常用CSS选择器学习分享
文章目录简单选择器id选择器class选择器标签选择器复杂选择器父子选择器直接子元素选择器并列选择器分组选择器简单选择器id选择器有些标签后面会有id=“xxx”,这里面的内容就是我们要用的。由于id的唯一性,我们也比较好利用它来定位的想要操作的内容,进而实现我们的爬虫。在这里我们只需要用#q就能定位到淘宝搜索栏中的输入框了。class选择器分析页面之时,经常能做标签之后看到许多c...原创 2019-01-25 12:58:10 · 346 阅读 · 0 评论 -
爬虫入门-巧用Chrome浏览器
文章目录前言基本操作审查元素复制选择器页面分析查看cookie查看XHR(Ajax的核心技术)前言巧用chrome浏览器,可以极大的提升我们爬虫的效率。基本操作审查元素这个较为简单,我们右键点击想要定位的元素,再点击检查即可在这我就能迅速定位到爱奇艺指数首页中输入框的位置复制选择器选中具体的元素,右键-copy-copy selector便是复制CSS选择器粘贴效果如下bod...原创 2019-01-25 12:59:00 · 2143 阅读 · 0 评论 -
python爬虫入门-Requests学习分享
文章目录前言安装学习推荐前言安装学习推荐原创 2019-01-26 16:23:32 · 143 阅读 · 0 评论 -
python爬虫入门-selenium学习方法分享
文章目录前言简介安装pycharm导入常见的坑学习推荐文档推荐视频推荐前言这篇博客是本人对自己自学selenium的一些总结,希望通过自己的分享能帮上刚开始自学的朋友们;同时也请已经掌握selenium的大佬们指出当中的不足。简介曾经看到的名字由来:Selenium的中文名为“硒”,是一种化学元素的名字,它对汞 (Mercury)有天然的解毒作用,实验表明汞暴露水平越高,硒对汞毒性的拮抗作...原创 2019-01-26 16:24:10 · 256 阅读 · 0 评论 -
python爬虫入门-BeautifulSoup学习分享
前言Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。简单演示我们试着来提取出这些电影的名字,在BeautifulSoup当中无需了解css选择器(其实select方法支持css选择器),我只需给定class名字ranking-m...原创 2019-01-26 16:24:42 · 208 阅读 · 0 评论 -
python爬虫入门-pyquery学习分享
前言pyquery是一个类似于JQuery的库,能够方便的通过css选择器定位元素,如果还不了解css选择器,可以先去看一下我 的另一篇博客https://blog.csdn.net/weixin_44112790/article/details/86624844安装cmdpip install pyquerypycharmfrom pyquery import PyQuery as...原创 2019-01-26 16:25:28 · 241 阅读 · 0 评论 -
python爬虫入门-使用cookie解决登录问题
前言在做爬虫时,对于一些网站,不得不登录而获取需要的信息,这个时候就需要cookie来解决问题啦cookie简介cookie是指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常会被加密)拿我曾经的一个项目来看:Cookie ssidCookie = new Cookie("ssid",md5Encrypt(userName));这就用java在后端...原创 2019-01-28 13:16:59 · 2060 阅读 · 0 评论 -
python爬取360百科获取春晚基本信息
前言之前看到大佬爬取维基百科获取春晚的信息,做了些数据分析,我也想跟着试一下,但是…不过我居然在360百科上面发现了多年春晚的信息,便选择从360百科爬取。站点分析从网站可以看出,它的每个词条应该对应着唯一的一个html页面我们搜索的参数并没有直接通过get在地址栏显示出来,而是藏在了cookie当中,也就是我们可以通过修改cookie了打开不同年份的页面。但是我图个简单没选择这种...原创 2019-02-05 05:59:28 · 763 阅读 · 0 评论 -
java爬取360doc中的pdf文档
文章目录前言网站分析图片获取合成pdf前言辛辛苦苦地找到了自己需要的答案,但却无法下载,便打算分析一下网站将内容爬取出来,自己简单实现了自己的需求,现在把代码拿出来分享分享。网站分析好不容易在360doc中找到了完整版的答案,更值得高兴的是,它的结构很简单,图片没有百度文库那样反爬措施;这也是为什么我用java来爬取的原因之一。从上图不难看出,src指向的就是需要的图片,而文件名与页码...原创 2019-02-08 15:06:49 · 1261 阅读 · 0 评论 -
python爬取豆瓣短评,提取出现最多的词语
项目已经放在GitHubs上 https://github.com/JiajunBernoulli/douban-short-commentary ,感兴趣的朋友可以通过**修改配置文件**实现其他电影的短评爬取及绘图。原创 2019-01-24 13:12:28 · 1249 阅读 · 1 评论