- 博客(6)
- 资源 (21)
- 收藏
- 关注
原创 浏览器常驻的线程
js引擎线程 (解释执行js代码、用户输入、网络请求)GUI线程 (绘制用户界面、与js主线程是互斥的)http网络请求线程 (处理用户的get、post等请求,等返回结果后将回调函数推入任务队列)定时触发器线程 (setTimeout、setInterval等待时间结束后把执行函数推入任务队列中)浏览器事件处理线程 (将click、mouse等交互事件发生后将这些事件放入事件队列中)解析①JS可以操作DOM元素,进而会影响到GUI的渲染结果,因此JS引擎线程与GUI渲染线程是互斥的。也就是.
2021-07-25 17:04:36 197
原创 数据采集---json格式数据
页面展示【智联招聘】:URL:https://sou.zhaopin.com/?jl=801&kw={0}&p={1}例:https://sou.zhaopin.com/?jl=801&kw=python&p=1右键–>查看网页源码【切片处理获得json数据】json数据获取要用的数据【一一相对应】在列表页函数中解析: def parse(self, response): js = response.xpath('//script[
2021-07-15 20:28:21 897 6
原创 招聘网站分析-智联招聘网的爬虫设计与实现
爬虫文件原理1、分析智联招聘网是招聘网站中爬取难度最高的网站。为了减轻爬虫对网站运营的影响,要求用户必须注册登录,否则提示登录后才能进行信息检索。智联招聘网的页面布局以及列表页请求url。注册登录后,职位搜索列表页和详情页如图1、图2所示。图1 智联招聘网职位搜索列表页图2智联招聘网职位搜索详情页2.爬虫数据存储设计对于爬虫来说,最重要的是爬取下来的数据,所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内,数据量较小,所以考虑采用 CSV
2021-07-15 20:01:36 3808 1
原创 招聘网站分析-猎聘网的爬虫设计与实现
爬取文件原理:1.需求分析猎聘网需要设计简单反爬虫策略,可通过配置请求头、下载延迟、动态用户代理缓解,猎聘网职位搜索列表页和详情页如图所示。图1 猎聘网职位职位搜索列表页图2 猎聘网职位职位搜索详情页2.爬虫数据存储设计对于爬虫来说,最重要的是爬取下来的数据,所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内,数据量较小,所以考虑采用 CSV 等文本格式或 MySQL 数据库进行存储。如果采用 CSV 文本格式进行存储,在数据清洗前还要考虑
2021-07-14 12:02:42 2656 4
原创 招聘网站分析-前程无忧网站的爬虫设计与实现
爬取文件原理:1.需求分析前程无忧招聘网没有设计反爬虫策略,只需要利用开发者工具分析出页面的数据来源和分页规律即可。前程无忧招聘网职位搜索列表页和详情页如图所示。2.爬虫数据存储设计对于爬虫来说,最重要的是爬取下来的数据,所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内,数据量较小,所以考虑采用 CSV 等文本格式或 MySQL 数据库进行存储。如果采用 CSV 文本格式进行存储,在数据清洗前还要考虑数据合并。结合需求分析中的数据分析目标,
2021-07-14 11:46:04 2308
原创 JavaScript基础学习
速写属性var name = "成哥";var age = 18;var person = {//属性名:属性值 name:name, age:age,};console.log(person);//{ name: '成哥', age: 18 }语法糖:var name = "成哥";var age = 18;var person = { name, age,};console.log(person);//{ name: '成哥', age: 18 }
2021-07-04 14:30:12 63
Tableau奥运会数据集可视化分析.twb
2021-05-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人