机器学习中的特征工程

引言在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模。特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。 特征工程的重要意义数据特征会直...

2017-02-19 22:54:54

阅读数 4753

评论数 0

scrapy 爬取数据时踩到的几个坑

1、将配置放在settings.py 中时,注意该脚本中配置会被使用pickle 进行持久化操作,因此,如使用redis,不要在此处进行如 rdb = redis.Redis(db=0 此类操作,可以放到执行脚本中 2、使用CrawlerProcess 进行替代scrapy crawl Crawl...

2019-04-17 16:32:01

阅读数 34

评论数 0

爬取代理IP记录

爬取代理IP 因工作需要,爬取了几十万数据加数百万图片,因为需要用到代理IP,作为程序员,当然是先爬为敬了… 可选的有 快代理 89IP 西祠代理 站大爷 蚂蚁代理 西祠、快代理、89ip都没啥难度,西祠不要太频繁爬取,会封IP,不过一天左右就会解封,快代理,89ip完全一个模式,基本爬取代码都不...

2019-04-09 21:12:39

阅读数 65

评论数 0

Redis 可视化界面工具

TreeNMS 下载的时候注意,上面的是MySQL,MongoDB等等用的,下面那个才是For Redis 该可视化界面工具是国人用Java写的,虽然官网有点随意,不过软件还是挺好用的。...

2018-09-06 14:54:02

阅读数 237

评论数 0

什么是 noqa

在查看开源代码时,经常会看到 #noqa ,不解其意,百度之,没查到,谷歌第一条貌似还挺靠谱,大致意思就是 No Q/A,即无质量保证 。原来如此,记录之~ ...

2018-07-09 15:03:37

阅读数 1035

评论数 0

分类-回归-聚类-异常检测

分类: 支持向量机(SVM)可用于找到尽可能宽的分类的边界。当两个分类不能被清楚地分开时,该算法会找到其所能找到的最佳边界。其真正的亮点在于处理特征密集的数据,比如文本或者基因组(特征数量> 100)。在这些情况下,除了仅需要适量的记忆外,支持向量机(SVM)能够比其它大多...

2018-06-06 18:49:15

阅读数 763

评论数 0

python 使用format的一个小问题

之前遇到一个场景,具体是需要使用python 操作mysql 数据库, 大概需要这种操作: In [96]: '{%s!r}' % 'test' Out[96]: '{test!r}' 如果不使用% 进行格式化操作,而是使用format,在这里貌似会有点问题, 如果通过format 完...

2018-05-09 17:41:14

阅读数 1126

评论数 0

python美化输出信息

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 # -*- coding: utf-8 -*- # @Author: xiaodong # @Date: just hide # @Last Modified by: xiaodong...

2018-04-12 18:38:25

阅读数 945

评论数 0

比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南读后感

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南,看到了代码运行后的图片显示效果,因为好奇是如何做到patch块显示无重叠,就想研究下python代码,但是里面的代码是没缩进的...

2018-04-12 10:17:54

阅读数 289

评论数 0

使用matplotlib绘制3D立方体图

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 使用matplotlib绘制3D立方体图(含两种样式) # -*- coding: utf-8 -*- # @Author: xiaodong # @Date: just hide # ...

2018-04-04 14:54:08

阅读数 1808

评论数 2

使用Python监视指定目录下文件变更

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 监视指定目录下文件变更。 # -*- coding: utf-8 -*- # @Author: xiaodong # @Date: just hide # @Last Modified ...

2018-04-03 17:50:19

阅读数 1255

评论数 0

Python调用graphviz绘制结构化图形网络

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 首先要下载:Graphviz - Graph Visualization Software 安装完成后将安装目录的bin 路径加到系统路径中,有时候需要重启电脑。 然后: pip insta...

2018-03-21 18:02:06

阅读数 2898

评论数 1

从dict中一次性取出指定一组key对应的value

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 有时候我们需要从dict (或者json)中取出指定key值对应的value ,当然可以逐个去取,那么,可不可以一次性取呢,回答当然是Yes, 如下: # 随意构造一个dict In [102]...

2018-03-20 14:41:12

阅读数 2488

评论数 0

过拟合

有意思的图示: 1953年春天,戴森和自己的学生利用赝标介子理论计算了介子与质子的散射截面,得到了与费米的实验观测值十分相符的结果。然而该理论需要4个自由参数,费米很不屑,讲了一句日后很著名的话:“我记得我的朋友约翰·冯·诺依曼(John von Neumann)曾经说过,用四个参数我可以拟...

2018-03-18 22:57:57

阅读数 204

评论数 0

使用python去除HTML中标签的几种方式

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 待删除HTML示例标签如下: In [96]: test Out[96]: '<p>just for test</p&a...

2018-03-08 17:53:48

阅读数 9008

评论数 1

使用numpy截取连续的测试集及剩余作为训练集

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 本来想从numpy中找一个可以将array格式的数据提取出连续的测试集,其余作为训练集的函数,但是没找到,就自己写了几个,记录之~ import numpy as np "&...

2018-02-27 17:51:43

阅读数 629

评论数 0

string 中的maketrans和translate

maketrans 和 translate 是 Python 内置的 string 包中的两个类似于密码本的方法,一般来说,使用 translate 前需要先制作一个 maketrans 的 “密码本”(table)。 # ---------------------此处有误---------...

2018-02-08 11:47:45

阅读数 10761

评论数 0

机器学习练习数据来源

我在github 上建了个repo DataSetForMachineLearning,用来存放各种数据集,如果有需要,欢迎star。 进行机器学习时,有时候需要一些数据做练手,数据从何而来呢,可以充分利用一些库,像sklearn,seaborn 都是自带一些数据的(如常见的iris花卉,tit...

2018-02-01 18:27:41

阅读数 775

评论数 0

使用numba对Python运算加速

有时候需要比较大的计算量,这个时候Python的效率就很让人捉急了,此时可以考虑使用numba 进行加速,效果提升明显~ (numba 安装貌似很是繁琐,建议安装Anaconda,里面自带安装好各种常用科学计算库) from numba import jit @jit def t(count...

2018-01-27 14:16:45

阅读数 2345

评论数 0

ValueError:embedden null byte 报错

今天遇到个比较奇怪的错误: ValueError: embedded null byte 后来在How to fix Python error: ValueError: embedded null byte 看到了解决方案, 然后按下图改正后就可以了, 其实我想改成 zh-CN 或...

2018-01-26 15:32:52

阅读数 1580

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭