![](https://img-blog.csdnimg.cn/20190907192043886.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
简单爬虫使用,
zmjames2000
这个作者很懒,什么都没留下…
展开
-
sqlite数据库 ------- 记录总结tool
1-- 安装数据库: sudo dpkg -i *.deb2-- 创建数据库 sqlite3 stu.db 必须指定数据库名称3-- sqlite命令 系统命令 以 "."开头 普通命令 ,以";"结束 .schema 查看表的结构 .quit 退出数据库 ...原创 2019-03-10 21:04:05 · 182 阅读 · 0 评论 -
1.正则表达式 简单学习
\n 换行符 \t 制表符\w 匹配一个字母,数字,下划线 word\W 除\w了以外的任意字符\d 十进制数 digit\D 除十进制数之外的任务字符\s 空白字符 [\s]表示,只要出现空白就匹配\S 除空白字符任意字符 space [\S]表示,非空白就匹配原子表 [] : ...原创 2019-09-07 19:28:00 · 141 阅读 · 0 评论 -
2. urllib基础说明
主要是 urlretrieve(), urlcleanup(), info(), getcode()urlretrieve("网址地址","本地路径(带后缀名)")urlcleanup() 删除缓存file = urllib.request.urlopen("web.htm")print (file.info()) #获得页面的信息print (file.getcode()) ...原创 2019-09-07 19:43:01 · 173 阅读 · 0 评论 -
3. 异常处理模版 及状态码查询
file.getcode()网页状态码查询:https://www.runoob.com/http/http-status-codes.html简单模版import urllib.requestimport urllib.errortry: data = urllib.request.urlopen('http://blog.csdn.net')except u...原创 2019-09-07 19:55:44 · 102 阅读 · 0 评论 -
4.浏览器伪装技术
1.用户伪装uapools = [ "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5...原创 2019-09-09 20:31:36 · 690 阅读 · 0 评论 -
5. 抓包分析
参考:https://www.cnblogs.com/yyhh/p/5140852.htmlFiddler是以代理web服务器的形式工作的,它使用的代理地址是127.0.0.1,port:8888当fiddler会自动设置代理,退出的时候它会自动注销代理,不会影响其他程序。Fiddler主要是设置的是过滤会话。1.过滤功能开启2.过滤功能设置3.过滤类型设置4.过...原创 2019-09-09 20:38:22 · 150 阅读 · 0 评论 -
debug函数
像linux一样 使用 __func__,__line__,def debug(message):import sysimport inspectcallerframerecord = inspect.stack()[1]# 0代表当前行 , 1当前调用frame = callerframerecord[0]info = insp...原创 2019-09-09 20:41:05 · 769 阅读 · 0 评论 -
6. scrapy框架基础
使用scray可以提高开发效率,并且非常适合做一些中大型的爬虫项目urllib适合写一些爬虫文件,scrapy适合做一些爬虫项目安装教程:1. update pip: python -m pip install --upgrade pip2. install wheel: pip install wheel3.install lxml : 下载安装(ldf网站) p...原创 2019-09-09 20:52:42 · 153 阅读 · 0 评论 -
7.xpath表达式
XPath与正则表达式对比:xpath表达式效率会高一点正则表达式功能会强大一点优先使用xpath表达式,xpath解决不了用正则表达式/ 逐层提取/html/head/title 这样就提取到title的标签text() 提取标签下面的文本/html/head/title/text()//标签名 表示提取名为“标签名”所有的标签//div//div ...原创 2019-09-10 09:33:48 · 113 阅读 · 0 评论 -
8.sqlite3 数据库
简单介绍'''pythonimport sqlite3conn = sqlite3.connect('test.db', timeout=10)print("Open database successfully")c = conn.cursor()sql = ""c.execute('''CREATE TABLE COMPANY (ID INT PRIMARY ...原创 2019-09-10 09:37:03 · 93 阅读 · 0 评论 -
9.scrapy 模版
itemsimport scrapyclass PachongScrapyItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() #想爬的内容 title = scrapy.Field() title_link = scrapy.Fi...原创 2019-09-10 09:54:34 · 174 阅读 · 0 评论 -
10.scrapy 模拟登陆
登陆之后的信息会保存在cookie中,所以需要保存cookieimport scrapy,randomfrom pachong_scrapy.items import PachongScrapyItemfrom scrapy.http import Requestfrom scrapy import FormRequestclass DdSpider(scrapy.Spider):...原创 2019-09-10 10:02:40 · 89 阅读 · 0 评论 -
11.BeautifulSoup基础
正则=xpath=BeautifulSoupfrom bs4 import BeautifulSoup as bsfimport urllib.requestdata = urllib.request.urlopen('xxxx.com').read().decode('utf-8','ignore')bs = bsf(data) #格式化输出print(bs.prettify())...原创 2019-09-10 10:22:55 · 89 阅读 · 0 评论 -
12.PhantomJS 基础
PhantomJS基础PhantomJS效率不高,但是能解决很多反爬问题本质是一个浏览器,效率不高,但是对异步处理的数据非常有效只要拿到有效数据就行了下载 PhantomJS http://phantomjs.org完成之后需要将 /phantomjs/bin/phantomjs.exe 添加到 环境变量中import timefrom selenium import web...原创 2019-09-10 10:51:29 · 113 阅读 · 0 评论 -
看架构 from:假如从餐饮店的角度来看架构…
come from: [假如从餐饮店的角度来看架构…]https://www.javazhiyin.com/42641.html数据源单独存储前后端分离常用的技术框架搭配可以是vue,react...结合 ssh,ssm,springboot系列进行搭配。负载均衡 轮询访问:按照Tomcat1-->Tomcat2-->Tomcat3的顺序轮流访问,...转载 2019-09-11 15:35:20 · 206 阅读 · 0 评论 -
13.分布式爬虫 Docker
Docker+Redis+UriLib+mysqlDocker+Redis+Scrapy+Scrapy-Redis+MySql容器化虚拟机创建虚拟机非常的快,启动也非常的快,部署10几个虚拟机也是非常的容易,也不会卡。所以Dokcer部署轻快,性价比高linux 安装 yum -y install docker基本介绍systemctl start dockersystemct...原创 2019-09-11 15:52:08 · 138 阅读 · 0 评论 -
14.分布式爬虫 Redis基础
Redis基础docker attach 3ba4apt-get install redis-server启动: /etc/init.d/redis-server restart退出:exit查看是否能ping通: redis-cli -h 127.0.0.1 -o 6379Redis命令redis-cli -h 127.0.0.1 p 6379set hello 12345...原创 2019-09-11 16:00:13 · 91 阅读 · 0 评论 -
15.分布式爬虫 mysql
默认redis和mysql是不支持远程连接的mysql制作一个镜像文件docker run --tid --name center 3a54 (默认的ubutun)docker ps -a配置中心节点docker attach 2eafcat /etc/hostsmysql -h 127.0.0.1 -u root -ppassword/etc/init.d/mysql re...原创 2019-09-11 16:25:57 · 161 阅读 · 0 评论