爬虫
疙瘩村呓语
人间凑数
展开
-
爬虫忽略ssl证书认证
只需要在请求的时候设置verfiy=False即可import requestsurl = 'https://www.12306.com'headers = { 'User-Agent': '********'}# https 是有第三方 CA 证书认证的,类似的还有银行等自己自己设计的令牌等等# 但是 12306 虽然是https 但是他不是CA证书,他是自己 颁布的证书# ...原创 2019-11-08 15:39:58 · 485 阅读 · 0 评论 -
爬虫练习--多线程 抓取图片
文章目录斗图网单线程多线程斗图网单线程# -*- coding: utf-8 -*-import osimport reimport timeimport requestsimport urllib.requestdef parse_page(url): headers = { "User-Agent": "Mozilla/5.0 (Windows N...原创 2019-10-29 19:37:35 · 163 阅读 · 0 评论 -
Scrapy爬取图片并重命名总结
文章目录Scrapy爬取图片并重命名总结项目分析:开始项目:启动项目:总结Scrapy爬取图片并重命名总结项目分析:1、现在很多网页都是动态加载资源,数据都不在静态html模板上,都是通过重定向从json文件中加载而来,因此只要抓取json数据包即可,这是一种捷径,比较容易,并不利于爬虫的学习,所以以后还是在数据实在不好得到的情况下使用2、开发环境及工具介绍python 3.6scra...原创 2019-10-22 16:50:45 · 1383 阅读 · 2 评论 -
挖掘机入门-------Scrapy框架
文章目录环境本质准备环境python 3.7 pycharm scrapy–1.73本质将非结构性数据转换成结构化数据准备1、pycahrm创建虚拟环境,创建项目,pip install scrapy, scrapy startproject spider 【创建scrapy框架,内置的】2、...原创 2019-10-20 19:06:41 · 252 阅读 · 0 评论