排序:
默认
按更新时间
按访问量

机器学习中的特征工程

引言在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模。特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。 特征工程的重要意义数据特征会直...

2017-02-19 22:54:54

阅读数:4419

评论数:0

Redis 可视化界面工具

TreeNMS 下载的时候注意,上面的是MySQL,MongoDB等等用的,下面那个才是For Redis 该可视化界面工具是国人用Java写的,虽然官网有点随意,不过软件还是挺好用的。...

2018-09-06 14:54:02

阅读数:67

评论数:0

什么是 noqa

在查看开源代码时,经常会看到 #noqa ,不解其意,百度之,没查到,谷歌第一条貌似还挺靠谱,大致意思就是 No Q/A,即无质量保证 。原来如此,记录之~ ...

2018-07-09 15:03:37

阅读数:442

评论数:0

分类-回归-聚类-异常检测

分类: 支持向量机(SVM)可用于找到尽可能宽的分类的边界。当两个分类不能被清楚地分开时,该算法会找到其所能找到的最佳边界。其真正的亮点在于处理特征密集的数据,比如文本或者基因组(特征数量> 100)。在这些情况下,除了仅需要适量的记忆外,支持向量机(SVM)能够比其它大多...

2018-06-06 18:49:15

阅读数:258

评论数:0

python 使用format的一个小问题

之前遇到一个场景,具体是需要使用python 操作mysql 数据库, 大概需要这种操作: In [96]: '{%s!r}' % 'test' Out[96]: '{test!r}' 如果不使用% 进行格式化操作,而是使用format,在这里貌似会有点问题, 如果通过format 完...

2018-05-09 17:41:14

阅读数:359

评论数:0

python美化输出信息

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 # -*- coding: utf-8 -*- # @Author: xiaodong # @Date: just hide # @Last Modified by: xiaodong...

2018-04-12 18:38:25

阅读数:522

评论数:0

比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南读后感

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南,看到了代码运行后的图片显示效果,因为好奇是如何做到patch块显示无重叠,就想研究下python代码,但是里面的代码是没缩进的...

2018-04-12 10:17:54

阅读数:181

评论数:0

使用matplotlib绘制3D立方体图

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 使用matplotlib绘制3D立方体图(含两种样式) # -*- coding: utf-8 -*- # @Author: xiaodong # @Date: just hide # ...

2018-04-04 14:54:08

阅读数:417

评论数:0

使用Python监视指定目录下文件变更

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 监视指定目录下文件变更。 # -*- coding: utf-8 -*- # @Author: xiaodong # @Date: just hide # @Last Modified ...

2018-04-03 17:50:19

阅读数:554

评论数:0

Python调用graphviz绘制结构化图形网络

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 首先要下载:Graphviz - Graph Visualization Software 安装完成后将安装目录的bin 路径加到系统路径中,有时候需要重启电脑。 然后: pip insta...

2018-03-21 18:02:06

阅读数:991

评论数:0

从dict中一次性取出指定一组key对应的value

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 有时候我们需要从dict (或者json)中取出指定key值对应的value ,当然可以逐个去取,那么,可不可以一次性取呢,回答当然是Yes, 如下: # 随意构造一个dict In [102]...

2018-03-20 14:41:12

阅读数:1005

评论数:0

过拟合

有意思的图示: 1953年春天,戴森和自己的学生利用赝标介子理论计算了介子与质子的散射截面,得到了与费米的实验观测值十分相符的结果。然而该理论需要4个自由参数,费米很不屑,讲了一句日后很著名的话:“我记得我的朋友约翰·冯·诺依曼(John von Neumann)曾经说过,用四个参数我可以拟...

2018-03-18 22:57:57

阅读数:138

评论数:0

使用python去除HTML中标签的几种方式

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 待删除HTML示例标签如下: In [96]: test Out[96]: '<p>just for test</p&a...

2018-03-08 17:53:48

阅读数:3271

评论数:1

使用numpy截取连续的测试集及剩余作为训练集

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎star github地址 本来想从numpy中找一个可以将array格式的数据提取出连续的测试集,其余作为训练集的函数,但是没找到,就自己写了几个,记录之~ import numpy as np "&...

2018-02-27 17:51:43

阅读数:180

评论数:0

string 中的maketrans和translate

maketrans 和 translate 是 Python 内置的 string 包中的两个类似于密码本的方法,一般来说,使用 translate 前需要先制作一个 maketrans 的 “密码本”(table)。 # ---------------------此处有误---------...

2018-02-08 11:47:45

阅读数:10511

评论数:0

机器学习练习数据来源

我在github 上建了个repo DataSetForMachineLearning,用来存放各种数据集,如果有需要,欢迎star。 进行机器学习时,有时候需要一些数据做练手,数据从何而来呢,可以充分利用一些库,像sklearn,seaborn 都是自带一些数据的(如常见的iris花卉,tit...

2018-02-01 18:27:41

阅读数:423

评论数:0

使用numba对Python运算加速

有时候需要比较大的计算量,这个时候Python的效率就很让人捉急了,此时可以考虑使用numba 进行加速,效果提升明显~ (numba 安装貌似很是繁琐,建议安装Anaconda,里面自带安装好各种常用科学计算库) from numba import jit @jit def t(count...

2018-01-27 14:16:45

阅读数:1437

评论数:0

ValueError:embedden null byte 报错

今天遇到个比较奇怪的错误: ValueError: embedded null byte 后来在How to fix Python error: ValueError: embedded null byte 看到了解决方案, 然后按下图改正后就可以了, 其实我想改成 zh-CN 或...

2018-01-26 15:32:52

阅读数:750

评论数:0

json.load 与 pandas.read_csv 效率对比

工作需要将读入文件时间降低,之前采用的是读取csv文件,使用的Pandas,数据条数大概有130余万条,大概要耗时2-3s,速度有点慢,看是否能通过转换为json数据后用json.load 来代替, 具体对比如下: 可以看到使用pandas.read_csv 耗时不到json.load 的三...

2018-01-24 16:01:20

阅读数:249

评论数:0

windows进程细节查看工具

推荐一个windows下用来查看进程使用状况及详情的工具,Process Explorer 官方下载地址 显示如下:

2018-01-24 14:56:41

阅读数:1295

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭