python
zcc_0015
业精于勤,荒于嬉
展开
-
pip install 安装指定版本的包
pip安装指定版本号原创 2022-12-26 17:35:47 · 9976 阅读 · 0 评论 -
python等距分箱
按最小最大值,指定的区间个数,将连续的dense值进行分箱。",".join([str(round(e,4)) for e in np.linspace(0.0412093,1.0,100)]);0.0412,0.0509,0.0606,0.0703,0.0799,0.0896,0.0993,0.109,0.1187,0.1284,0.1381,0.1477,0.1574,0.1671,0.1768,0.1865,0.1962,0.2059,0.2155,0.2252,0.2349,0.2446,.原创 2021-11-18 16:12:35 · 1853 阅读 · 0 评论 -
python正则表达式学习
Python正则表达式正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替原创 2016-10-29 13:42:51 · 444 阅读 · 0 评论 -
scrapy 中解决 xpath 中的中文编码问题
1、问题描述: 实现定位品牌节点 brand_tag = sel.xpath("//h2[text()= '品牌']") 报错:ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters 2、解决方法:原创 2016-08-22 11:09:25 · 10792 阅读 · 2 评论 -
sklearn的svc参数总结及cross_validation
1、svc参数的说明SVC参数解释(1)C: 目标函数的惩罚系数C,用来平衡分类间隔margin和错分样本的,default C = 1.0;(2)kernel:参数选择有RBF, Linear, Poly, Sigmoid, 默认的是"RBF";(3)degree:if you choose 'Poly' in param 2, this is effective, degree决定了原创 2016-08-08 15:00:04 · 8346 阅读 · 1 评论 -
关于scrapy网络爬虫的xpath书写经验总结
借助于scapy的爬虫框架,能方便实现低网络数据的爬取,其中xpath如何写法,对元素的定位在爬取过程中起着至关重要的作用。以下是对xpath写法的一些经验:(1)优先遵循“自底向上”原则,即从所要爬取的字段节点出发,层层向上,向父节点去遍历,找到其他爬取的字段。 这样的好处在于,首先从自己必然要的字段出发,不会发生任何歧义或其他问题命中该字段,再从该节点出发再去层层向父元原创 2016-05-17 12:05:20 · 16135 阅读 · 2 评论 -
linux下测试python程序执行时间
1、借助于time模块def statistic_time(): pool = redis.ConnectionPool(host='123.56.184.53', port=6379, db=0) r = redis.Redis(connection_pool=pool) print "check time is beginning ..原创 2016-02-19 19:22:36 · 1742 阅读 · 0 评论 -
Scrapy+splash抓取js生成的数据
一、python、lua、js间参数传递原理抓取过程是python调用splash的lua脚本,lua中又调用了js代码实现相关页面内容的提取及js动作的模拟。在python中通过meta的splash中的args设置python将要传入splash的参数信息,在splash中通过splash:jsfunc的接口封装js代码成为lua函数,进而将lua中的参数传入js代码中。(1)原创 2016-03-17 17:16:52 · 11764 阅读 · 1 评论 -
Scrapy通过redis实现分布式抓取
scrapy-redis所实现的两种分布式:爬虫分布式以及item处理分布式。分别是由模块scheduler和模块pipelines实现。一、Scrapy-redis各个组件介绍(I) connection.py负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用,总之涉及到redis存取的都要使用到这个模块。(II) dupefil原创 2016-02-18 19:35:45 · 11532 阅读 · 0 评论 -
Scrapy如何借助于BloomFilter实现增量爬取
一、增量爬取的思路:即保存上一次状态,本次抓取时与上次比对,如果不在上次的状态中,便视为增量,保存下来。对于scrapy来说,上一次的状态是抓取的特征数据和上次爬取的 request队列(url列表),request队列可以通过request队列可以通过scrapy.core.scheduler的pending_requests成员得到,在爬虫启动时导入上次爬取的特征数据,并且用上次request原创 2016-01-29 16:23:26 · 13323 阅读 · 5 评论 -
python正则表达式去除两个特殊字符间的内容
以去掉去掉为例进行说明:def clearContentWithSpecialCharacter(content):# 先将 content = content.replace("# 再将-->替换成,普通字符l content = content.replace("-->","l")# 分组标定,替换, pattern = re.comp原创 2016-01-04 20:01:21 · 8782 阅读 · 2 评论 -
python的yield作用解析
带有 yield 的函数在 Python 中被称之为 generator(生成器),何谓 generator ?我们先抛开 generator,以一个常见的编程题目来展示 yield 的概念。如何生成斐波那契數列斐波那契(Fibonacci)數列是一个非常简单的递归数列,除第一个和第二个数外,任意一个数都可由前两个数相加得到。用计算机程序输出斐波那契數列的前 N 个数是一个非常简单的问题,转载 2015-12-15 15:14:43 · 853 阅读 · 0 评论 -
python的编码问题
字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。 decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成un原创 2015-09-23 15:55:20 · 750 阅读 · 0 评论