笔记
文章平均质量分 68
蜜糖雪兒
还有什么比坚持更可怕
展开
-
爬虫笔记(9/25)------正则表达式
1.正则表达式常用函数re.match(pattern,string,flag)#(正则表达式,源字符,可选参数对应的标志位)re.search()原创 2017-09-25 19:20:51 · 189 阅读 · 0 评论 -
爬虫笔记(10/2)------爬虫框架
常见的爬虫框架:1)Scrapyhttp://scrapy.org/2)Crawleyhttp://project.crawley-cloud.com/主要特点:1.高速爬取内容2.内容存储在关系型数据库中(Postgres,MySQL,Oracle,SQLite等)3.数据导出为JSON,XML格式4.支持非关系型数据库(MongoDB,CouchDB等)5.支持使用命令行工原创 2017-10-02 14:42:15 · 284 阅读 · 0 评论 -
爬虫笔记(10/4)-------scrapy项目管理
1.爬虫项目1)创建爬虫项目scrapy startproject 项目名scrapy startproject myfirstpjt2)进入项目cd 爬虫项目所在目录..................>cd myfirstpjt3)scrapy参数scrapy startproject -h4)--logfile=FILE用来指定日志文件日志原创 2017-10-04 16:08:38 · 574 阅读 · 0 评论 -
爬虫笔记(10/5)------实战spider编写(处理xml文件)
1.实战spider编写:结构化数据存储到item对象中import scrapyclass MyfirstspjtItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() urlname = scrapy.Field() urlkey原创 2017-10-05 22:14:42 · 558 阅读 · 0 评论 -
爬虫笔记(10/6)--------CSVFeedSpider
1.下载一个csv文件:http://yum.iqianyue.com/weisuenbook/pyspd/part12/mydata.csv2.创建项目mycsv..............myfirstspjt>scrapy startproject mycsv3.修改items文件:创建name用来存储名字信息,sex用来存储性别# -*- coding: utf-8 -*-原创 2017-10-06 10:25:25 · 790 阅读 · 0 评论 -
CSS的几个属性display,float,clear,overflow,visibility
display属性:block/inline/nonedisplay:block(作用是把行属性标签显示成块属性标签,可以设置宽高) ;display:inline(作用是把块属性标签显示成行属性标签,这时块属性标签就不能设置宽高啦);display:none(作用是使所控制的标签不显示)visibility:hidden(是设置元素的框的不可见,但是在布局中的位置是不变的)转载 2017-10-13 18:05:09 · 265 阅读 · 0 评论 -
web笔记(10/13)-----课程内容
今天上课的要点如下:一、HTML部分内容:1、HTML标记的特点和使用,属性赋值2、常用的HTML标记:、、、、、、、、、、等标题系列3、块级元素和行内元素区别、变换(CSS的display属性应用)4、id属性、class属性的使用二、CSS部分内容:1、CSS的赋值语法2、CSS选择器:标记选择器、id选择器、类选择器、派生选择器、属性选择器等3、C原创 2017-10-13 19:26:14 · 244 阅读 · 0 评论 -
python学习路线图(10/24)
语言基础:1.python入门,数据类型,字符串2.判断/循环语句,函数,命名空间,作用域3.类与对象,继承,多态4.thinker界面编程5.文件与异常,数据处理简介6.pygame实战飞机大战,2048语言高级:1.python常见第三方库与网络编程2.python正则表达式原创 2017-10-24 17:18:13 · 335 阅读 · 0 评论 -
pandas数据的导入与导出【CSV,JSON】(10/25)
一:CSV数据 一】:导入数据 1)从CSV文件读入数据:pd.read_csv("文件名"),默认以逗号为分隔符 D:\data\ex1.csv文件内容: D:\data\ex2.csv文件内容 a,b,c,d,message 1,2,3,4,hello转载 2017-10-25 11:07:50 · 1516 阅读 · 0 评论 -
whoosh使用手册(1)
最近想做一个搜索引擎,当然少不了看下闻名遐迩的Lucene,不得不说确实非常出色,但是对于python的实现pylucene确是差强人意,首先它 不是纯python实现而是做了一层包装到头来还是使用java,依赖于JDK不说安装步骤繁琐至极,而且Lucene可用的中文分词词库非常之多但是由 于这层粘合关系很多都用不上,最终还是放弃,不过平心而论如果用Java实现的确很完美。其它的有sphinx以及转载 2018-01-24 16:51:12 · 990 阅读 · 1 评论 -
爬虫笔记(10/2)------定向爬取
定向爬取步骤:1)爬取目的2)设置网址过滤规则3)设置内容采集规则4)设置爬虫线程和爬虫数量5)修正结果格式6)进一步完善结果核心内容是信息筛选:1)正则表达式2)XPath表达式3)xslt筛选原创 2017-10-02 11:30:51 · 250 阅读 · 0 评论 -
爬虫笔记(9/30)---------爬虫伪装技术
反爬虫机制主要有:(1)分析用户请求的Headers信息进行反爬虫------反爬虫会对用户请求的Headers信息的“User-Agent”进行检测;反爬虫网站还会对“Referer”字段进行检测(2)检测用户行为,ip在短时间内是否频繁访问------使用代理服务器,经常切换(3)动态页面增加爬虫难度-------利用工具软件(selenium+phantomJS)常见原创 2017-09-30 21:09:46 · 617 阅读 · 0 评论 -
爬虫笔记(10/1)--------http.cookiejar模块
http.cookiejar模块定义了以下类:1.class http.cookiejar.CookieJar(policy=None)CookieJar对象有些方法如增加cookie header,extract cookie,参考文档。2.class http.cookiejar.FileCookieJar(filename,delayload=None,policy=None)转载 2017-10-01 20:33:40 · 733 阅读 · 0 评论 -
爬虫笔记(9/23)-----urllib库的使用
1.读取内容1)file.read()读取内容的全部,读取到额度内容赋给一个字符串变量2)file.readline()读取全部内容,读取的内容赋给一个列表变量3)File.readline()读取文件的一行内容原创 2017-09-23 11:02:45 · 310 阅读 · 0 评论 -
jupyter笔记9/23-----jupyter快捷键
一、Jupyter的各种快捷键执行当前cell,并自动跳到下一个cell:Shift Enter执行当前cell,执行后不自动调转到下一个cell:Ctrl-Enter是当前的cell进入编辑模式:Enter退出当前cell的编辑模式:Esc删除当前的cell:双D为当前的cell加入line number:单L原创 2017-09-23 10:38:36 · 1853 阅读 · 0 评论 -
xmind的快捷键
XMind是一款非常实用的思维导图软件,能够帮助人们快速理清思路,打开新的局面。熟练地掌握快捷键的操作不光能够提供便捷,更能很大程度上的缩短制作时间,提高工作效率。本文总结了XMind Windows以及Mac版本的XMind快捷键指南。快捷鍵(Windows)快捷鍵(Mac)描述Ctrl+N原创 2017-09-26 18:49:18 · 405 阅读 · 0 评论 -
jupyter笔记(9/27)-------快捷键
打开jupyter-ipython其实人家就叫jupyter了,后面咱可能就少提ipython了。# 打开命令行,让我们输入jupyter notebook当然,这个前提是你已经安装了jupyter并学会了基本使用,请看本系列的前两篇文章。jupyter巨好玩-简介与安装jupyter巨好玩-常用设置ok,咱们继续!这时候应该已经自动打开一个网转载 2017-09-27 14:49:43 · 538 阅读 · 0 评论 -
爬虫笔记(9/27)------常用爬虫(图片,链接,内容)
1.图片爬虫1)建立爬取图片的自定义函数2)通过for循环将该分类下的所有网页都爬取一遍import reimport urllib.requestdef craw(url,page): html1 = urllib.request.urlopen(url).read() html1 = str(html1) pat1='' result1 = re原创 2017-09-27 20:57:06 · 651 阅读 · 0 评论 -
爬虫笔记(10/6)-------多开技能
爬虫文件批量运行,方法:1.使用CrawProcess官网:http://doc.scrapy.org/en/latest/topics/practices.html2.使用修改craw源码+自定义命令的方式实现(1)创建一个project:scrapy startproject mymultispd(2)进入mymultispd:cd mymultispd(3)创建3个爬原创 2017-10-06 11:05:31 · 381 阅读 · 0 评论 -
爬虫笔记(10/7)-----------避免被禁止
在scrapy项目中,避免被禁止:(1)禁止cookie(2)设置下载延迟(3)使用IP池(4)使用用户代理池(5)其他方法,如进行分布式爬取等(1)禁止cookie可在对应scrapy项目中的settings.py文件中进行设置# Disable cookies (enabled by default)COOKIES_ENABLED = False原创 2017-10-08 08:14:38 · 756 阅读 · 0 评论 -
爬虫学习(9/30)-------Fiddler的使用
1.cls:清屏2.select:选择出某一类型http会话3.?:查找网址中包含某些字符的会话信息4.help:帮助手册fiddler断点功能:1)响应时断点2)请求时断点方式:1)可视化2)命令行断点可视化:rules--->Automatic Breakpoints---->After Responsesfiddler默认监控地址:127.原创 2017-09-30 20:42:23 · 519 阅读 · 0 评论 -
爬虫笔记(9/28)-------多线程
多线程需要用到队列的基础,先进先出1.实现队列功能:queue模块2.实例化队列对象:queue.Queue()3.数据入队列操作:put()4.检测入列完成:task_done()5.出队列:get()原创 2017-09-28 22:17:31 · 157 阅读 · 0 评论 -
爬虫笔记(10/9)-------scrapy核心架构
(1)常用的scrapy组件1.scrapy引擎控制整个数据处理流程,以及触发一些事务处理。2.调度器存储爬取的网址,确定网址的优先级。3.下载器对网络上要爬去的网页资源进行高速下载,该组件需要通过网络进行大量数据的传输,压力负担会比其他组件大4.下载中间件可以加入自定义代码,比如实现ip池和用户代理池等功能5.蜘蛛接受scrapy引擎中的response响原创 2017-10-09 10:04:10 · 283 阅读 · 0 评论 -
jieba中文分词
jieba中文处理¶by 寒小阳(hanxiaoyang.ml@gmail.com)和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。转载 2018-01-24 16:52:40 · 696 阅读 · 0 评论