爬虫
6and0
这个作者很懒,什么都没留下…
展开
-
js破解基本用法------有道、产品(涉及pycharm中执行js的安装)
js破解有道思路代码有道思路获取到请求地址---->查看请求方式----->post请求一定是有表单的---->粘贴复制表单,里面不知道的东西,先空过比如下面的salt sign def seng_request(self): form_data = { #'i': '啊哈', 'i': '', 'from': 'AUTO', 'to': 'AUTO',原创 2020-06-28 11:55:52 · 454 阅读 · 0 评论 -
bs4的用法
这里写目录标题BS4安装对象种类BS4Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.安装pip install beautifulsoup4解析器表达式使用方法优势Python标准库BeautifulSoup(markup, “html.parser”)Python的内置标准库 执行速度适中原创 2020-06-26 11:38:38 · 467 阅读 · 0 评论 -
selenium的用法
selenium的用法selenium的基本用法一、Selenium二、文档地址三、安装四、驱动下载五、使用六、设置代理七、添加Cookie八、显示等待九、隐式等待十、执行JS十一、设置无页面十二、切换页面selenium的基本用法一、SeleniumSelenium是一款自动化测试工具,支持Chrome,Safari,Firefox 等主流界面式浏览器;支持多种语言开发,比如Java,C,Python等二、文档地址https://selenium-python-zh.readthedocs.i原创 2020-06-25 15:03:14 · 196 阅读 · 0 评论 -
99作文网、微博、双色球、汽车之家
案例99作文网微博数据双色球汽车之家99作文网import requestsfrom lxml import etreeimport urllib.parseimport osclass ZuoWenSpider(): def __init__(self): self.url = 'https://www.99zuowen.com/xiaoxuezuowen/' self.headers = { 'User-Agent': 'M原创 2020-06-25 14:45:10 · 389 阅读 · 0 评论 -
request的其他用法和识别验证码
request的其他用法和识别验证码request的其他用法上传文件Web客户端验证代理设置CookiesSession跳过SSL验证request的其他用法上传文件url = 'https://httpbin.org/post'files = {'file': open('image.png', 'rb')}response = requests.post(url, files=files)print(response.text)Web客户端验证import requestsauth=原创 2020-06-24 15:15:39 · 528 阅读 · 0 评论 -
request和xpth的案例
案例斗图啦爬取保存数据的时候,什么时候用response.text ,什么时候用response.content?链家爬取这个案例爬取下来得数据是要保存到数据库当中得,所以要创建数据库xpath取文本注意想要把字典当中的值取出来,可以借助json.loads(),把json转换成字符串,而dumps()是把字符串转化成json把链家用csv保存(另一个版本)蔬菜网爬取(指定时间爬取)post请求,上面是get下厨房爬取斗图啦爬取只要两个标签不挨着,就用//,挨着的话,就用/,还有,@是艾特属性的,像sr原创 2020-06-19 14:56:40 · 163 阅读 · 0 评论 -
request的get使用和post使用以及xpath的使用
request的get使用和post使用Get请求添加请求头post请求Xpath的使用什么事xpath什么是xml?[W3School](http://www.w3school.com.cn/xml/xml_intro.asp)XML和 HTML 的区别要想用xpath就得安装,pip install lxml常见语法常用用法通配符常用用法表达式常见用法函数常见用法插件开始用request的这个库,他的实现原理也是基于urllib的requests是python实现的简单易用的HTTP库,使用起来比u原创 2020-06-15 17:09:10 · 1220 阅读 · 1 评论 -
Urllib代理和模拟登录
代理自定义Opener代理设置案例西刺爬爬爬自定义Opener我们之前一直都在使用的urlopen,它是一个特殊的opener,是模块帮我们创建好的。但是我们可以不用他的,我们可以重新写一个自定义Opener会有更高级的用法import urllib.request# 构建一个HTTPHandler 处理器对象,支持处理HTTP请求http_handler = urllib.request.HTTPHandler()# 构建一个HTTPHandler 处理器对象,支持处理HTTPS请求# h原创 2020-06-14 19:48:23 · 422 阅读 · 0 评论 -
爬虫------urllib的工具模块和异常模块
urllib的其他用法url由哪些组成urlparse()实现URL的识别和分段urlunparse()可以实现URL的构造urljoin()传递一个基础链接,根据基础链接可以将某一个不完整的链接拼接为一个完整链接url由哪些组成锚点是指定位到网页的哪一个部分urlparse()实现URL的识别和分段举个例子:解析https://book.qidian.com/info/1004608738?wd=123&page=20#Catalog url = 'https://book.q原创 2020-06-13 11:54:37 · 275 阅读 · 0 评论 -
爬虫------ urllib的post请求and两个小案例
post请求urllib是怎么区分get和post的urllib的ajax请求如果遇到是ajax请求的话分析完之后就写代码还有的网页他的https是不安全的。那如果遇到了不是安全的https的网站,需要忽略验证案例一般get请求的话,url是会有变化的,如果没有的话就不是get请求。urllib是怎么区分get和post的点进去看源码data是none,他就是get请求,如果有值就是post请求urllib的ajax请求像这种url没有变化的,一定是ajax请求那遇到这种url没有变化的原创 2020-06-13 11:57:58 · 304 阅读 · 0 评论 -
爬虫 ------ 简单的爬一下百度和段子 以及爬取段子里面的标签内容
简单爬虫爬虫反爬虫解决:爬内涵段子先分析URL代码爬取并保存里面的div内容爬虫简单的爬取一下易烊千玺的图片import urllib.requestimport urllib.parse#编码的,把汉字转化成url里面的参数url = 'http://www.baidu.com/s?'wd = input('请输入你要搜索的内容:')pn = int(input('请输入你要跳转的页数:'))kw = {'wd':wd}kw =urllib.parse.urlencode(kw)u原创 2020-06-08 19:16:34 · 417 阅读 · 1 评论 -
爬虫 ----了解爬虫 爬虫的虚拟环境 http和https
爬虫爬虫?什么是爬虫?获取数据几种途径爬虫的作用爬虫需要知识爬虫的分类爬虫的流程web 共同点Robots协议虚拟环境**Python虚拟环境搭建和使用**Ubuntu下配置virtualenv和virtualenvwrapperhttp和https爬虫?什么是爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人), 是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。简单来说:就是一个爬取web或者app数据的程序,他又名数据采集。获取数据几种途径用户产生数据 百度指数数据平台购买数据原创 2020-06-08 15:27:10 · 291 阅读 · 0 评论