2021年07月_outside-R

12月 11月 10月 09月 08月 07月 06月 05月 01月

原创浏览器常驻的线程

js引擎线程（解释执行js代码、用户输入、网络请求）GUI线程（绘制用户界面、与js主线程是互斥的）http网络请求线程（处理用户的get、post等请求，等返回结果后将回调函数推入任务队列）定时触发器线程（setTimeout、setInterval等待时间结束后把执行函数推入任务队列中）浏览器事件处理线程（将click、mouse等交互事件发生后将这些事件放入事件队列中）解析①JS可以操作DOM元素，进而会影响到GUI的渲染结果，因此JS引擎线程与GUI渲染线程是互斥的。也就是.

2021-07-25 17:04:36 197

原创数据采集---json格式数据

页面展示【智联招聘】：URL：https://sou.zhaopin.com/?jl=801&kw={0}&p={1}例：https://sou.zhaopin.com/?jl=801&kw=python&p=1右键–>查看网页源码【切片处理获得json数据】json数据获取要用的数据【一一相对应】在列表页函数中解析： def parse(self, response): js = response.xpath('//script[

2021-07-15 20:28:21 897 6

原创招聘网站分析-智联招聘网的爬虫设计与实现

爬虫文件原理1、分析智联招聘网是招聘网站中爬取难度最高的网站。为了减轻爬虫对网站运营的影响，要求用户必须注册登录，否则提示登录后才能进行信息检索。智联招聘网的页面布局以及列表页请求url。注册登录后，职位搜索列表页和详情页如图1、图2所示。图1 智联招聘网职位搜索列表页图2智联招聘网职位搜索详情页2.爬虫数据存储设计对于爬虫来说，最重要的是爬取下来的数据，所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内，数据量较小，所以考虑采用 CSV

2021-07-15 20:01:36 3808 1

原创招聘网站分析-猎聘网的爬虫设计与实现

爬取文件原理：1.需求分析猎聘网需要设计简单反爬虫策略，可通过配置请求头、下载延迟、动态用户代理缓解，猎聘网职位搜索列表页和详情页如图所示。图1 猎聘网职位职位搜索列表页图2 猎聘网职位职位搜索详情页2.爬虫数据存储设计对于爬虫来说，最重要的是爬取下来的数据，所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内，数据量较小，所以考虑采用 CSV 等文本格式或 MySQL 数据库进行存储。如果采用 CSV 文本格式进行存储，在数据清洗前还要考虑

2021-07-14 12:02:42 2656 4

原创招聘网站分析-前程无忧网站的爬虫设计与实现

爬取文件原理：1.需求分析前程无忧招聘网没有设计反爬虫策略，只需要利用开发者工具分析出页面的数据来源和分页规律即可。前程无忧招聘网职位搜索列表页和详情页如图所示。2.爬虫数据存储设计对于爬虫来说，最重要的是爬取下来的数据，所以爬虫项目在开发前需要考虑数据的保存格式以及保存的数据项。前期预估网站爬取的数据在 10 万以内，数据量较小，所以考虑采用 CSV 等文本格式或 MySQL 数据库进行存储。如果采用 CSV 文本格式进行存储，在数据清洗前还要考虑数据合并。结合需求分析中的数据分析目标，

2021-07-14 11:46:04 2308

原创 JavaScript基础学习

速写属性var name = "成哥";var age = 18;var person = {//属性名：属性值 name:name, age:age,};console.log(person);//{ name: '成哥', age: 18 }语法糖：var name = "成哥";var age = 18;var person = { name, age,};console.log(person);//{ name: '成哥', age: 18 }

2021-07-04 14:30:12 63