爬虫
Xiaoyeforever
这个作者很懒,什么都没留下…
展开
-
JS逆向基础教程(一):某道词典JS解密(扣全部JS代码最新2020年8月12日)
一、先试着英汉翻译一波:1.按F12打开调试台,再点击Network,再点击Headers,可以找到i=good,这就是我们刚才输入需要翻译的词语good,from Data中的就是请求的参数,分别为:i: good from: AUTOto: AUTOsmartresult: dictclient: fanyideskwebsalt: 15972332870677sign: 3a078c10344e67f95822ae9389e1363flts: 15972332...原创 2020-08-12 23:21:16 · 1033 阅读 · 0 评论 -
某道词典最新JS解密(一)(2020年8月)
絮叨一下前个爬了boss直聘,感觉这些大网站的反爬总是有办法安排的,不要望而生畏,又想到即将面临毕业,论文是个大问题,便想到一招进行翻译,然后实现将重的功能,于是今个就安排了有道翻译一波。分析有道主页打开F12进行抓包就会发现http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule这个才是真正的请求地址既然是post请求看一下发送了什么数据然后刷新,输入新的内容对比一下发现这四...转载 2020-08-12 19:44:42 · 392 阅读 · 0 评论 -
(七)Python爬虫------有道翻译JS(JavaScript)参数分析,实现在线实时翻译(2020年1月16日)
最近工作有点忙,也就没有太多时间去学习Python爬虫,感觉身体好累,可能是想偷懒了吧!不说那么多了,回归本源,学习,搞起!!今天爬取有道翻译词典数据,实现一个小小的在线实时翻译功能,那就开始干!有道翻译官方网站:http://fanyi.youdao.com/一、抓包分析,有道翻译是否是通过JS文件加载的数据1.在有道中不输入任何关键字时,打开谷歌浏览器的开发者工具(按F12),...原创 2020-01-16 06:38:14 · 1587 阅读 · 1 评论 -
(六)Python爬虫------使用Scrapy库简单爬取天气网城市天气预报信息,并使用MySQL数据库保存数据
一、使用Scrapy库做爬虫项目,前提是已经安装好了Scrapy库,没有没有安装,请查看我前几天的Scrapy库pip离线安装方法。1.在使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目:scrapy startproject PythonScrapyWeather (PythonScrapyWea...原创 2020-01-13 04:22:45 · 2632 阅读 · 0 评论 -
windows下使用pip离线安装Scrapy库(只能这样做)
Scrapy库不能直接使用 pip install 库名 安装,我们只能选择离线方式安装Scrapy一、先windows环境下永久修改pip镜像源,加速下载安装速度,因为下载的依赖库数量较多,需要网速保障,但是国外的网站响应速度实在不敢恭维。已经修改pip镜像源的,可忽略(1):在windows文件管理器中,输入%APPDATA%(2):会定位到一个新的目录下,在该目录下新建pi...原创 2020-01-13 03:02:41 · 2525 阅读 · 1 评论 -
20个正则表达式,能让你少写1,000行代码
正则表达式,一个十分古老而又强大的文本处理工具,仅仅用一段非常简短的表达式语句,便能够快速实现一个非常复杂的业务逻辑。熟练地掌握正则表达式的话,能够使你的开发效率得到极大的提升。正则表达式经常被用于字段或任意字符串的校验,如下面这段校验基本日期格式的JavaScript代码:var reg = /^(\\d{1,4})(-|\\/)(\\d{1,2})\\2(\\d{1,2})$/; ...转载 2020-01-12 12:13:42 · 164 阅读 · 0 评论 -
(五)基于Python面向对象使用自动化工具Selenium+Xpath爬取京东商品(手机)列表
一、准备工作1.安装selenium类库:2种方法可供选择(1)提前条件是已经安装好了Python,直接进入cmd命令行,输入python -m pip install selenium指令,就可以自动安装selenium(2)或者已经安装好了pip,直接进入cmd命令行,输入pip install selenium,就可以自动安装selenium2.检查Selenium是否安装成...原创 2020-01-07 03:25:30 · 667 阅读 · 0 评论 -
(四)基于Python面向对象简单爬虫Ajax数据爬取---今日头条图片数据
一、Ajax简介Ajax = 异步JavaScript和 XML 或者是 HTML(标准通用标记语言的子集)。Ajax 是一种用于创建快速动态网页的技术。Ajax 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。二,基本库import requests#构...原创 2020-01-05 08:55:04 · 552 阅读 · 0 评论