2018年11月_OceanProo

原创机器学习完整流程

目录1.项目概述1.1.划定问题1.2.选择性能指标1.3.核实假设2.获取数据2.1.创建工作空间2.2.下载数据2.3.快速查看数据结构2.4.创建测试集3.数据探索并可视化数据，发现规律3.1.查找关联3.2.属性组合试验4.为机器学习模型学习准备数据4.1.数据清洗4.2.处理文本和类别属性4.3.自定义转换器4.4.特征...

2018-11-29 19:17:50 1906 2

原创 python之scikit-learn

目录特征工程选择模型调整模型模型融合官方文档：http://scikit-learn.org/stable/# input--模型-output数据分析是为了发现规则数据分析--数据挖掘和机器学习，算法相同推荐系统语音识别--科大讯飞，百度垄断，比较成熟，自然语言的分支机器视觉--卷积神经网络，图像识别，图片搜索，目标检测（无人驾驶）NLP-...

2018-11-28 17:47:47 353

原创卷积神经网络

从神经网络到卷积神经网络（CNN）我们知道神经网络的结构是这样的：那卷积神经网络跟它是什么关系呢？其实卷积神经网络依旧是层级网络，只是层的功能和形式做了变化，可以说是传统神经网络的一个改进。比如下图中就多了许多传统神经网络没有的层次。卷积神经网络的层级结构 • 数据输入层/ Input layer　　• 卷积计算层/ CONV layer　　• ReLU激励层 /...

2018-11-27 16:55:01 467

文本处理算法：分词后根据词频处理文本TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的...

2018-11-27 16:52:10 180

原创推荐系统

jaccard系数：协同过滤：最简单、最基本的算法LFM(Latent Factor Model)隐语义模型是最近几年推荐系统领域最为热门的研究话题，它的核心思想是通过隐含特征(Latent Factor)联系用户兴趣和物品。那这种模型跟ItemCF或UserCF有什么不同呢？这里可以做一个对比：对于UserCF，我们可以先计算和目标用户兴趣相似的用户，之后再根据计算出来的用户喜欢的物...

2018-11-27 16:45:34 175

原创聚类

无监督学习，没有y值的算法多用于文章聚类，作为辅助算法，辅助监督学习预测 K-MEANS：K均值聚类算法，使用最广泛的聚类算法，也可作为其他算法的基础，对初始值太敏感，不保证达到全局最优解层级聚合：凝聚和分裂方法：abcde，ab聚合后，只能再聚为abc，不会聚成bcDBSCAN：一种基于密度的聚类方法，对噪声不敏感轮廓系数：？？距离：欧式距离、满哈距离，与玄距离 ...

2018-11-26 20:42:04 182

原创主成分分析

特征过多-过拟合，特征灾害特征相关性高-数据冗余异常值-噪声，缓解-消除不了的特征选择-降维特征分解的特征值或者特征和训练数据的特征没有关系，只是名称相同...

2018-11-26 10:32:53 196

原创 python之Pillow(PIL Fork)

官网：https://pillow.readthedocs.io/en/5.3.x/handbook/tutorial.htmlPython Imaging Library中最重要的类是 Image类，它在模块中定义，具有相同的名称。您可以通过多种方式创建此类的实例; 通过从文件加载图像，处理其他图像或从头开始创建图像。要从文件加载图像，请使用模块中的open()函数Image：&g...

2018-11-23 16:57:34 479

原创人工神经网络

目录简介计算过程scikit-learn实现简介非线性问题：异或：逻辑与，非线性问题转换为线性问题：即所以曲线看成无数小线段组成playground--体验神经网络模型归一化：所有数值减小，比如X_train/100也是归一化激活函数：支持向量机：不支持大数据，因为算量大，数据量大的话计算时间太长计算过程scikit-learn实现sklearn...

2018-11-23 12:04:27 299

原创支持向量机

目录简介计算过程scikit-learn实现简介支持向量机（SVM,Support Vector Machine）是一组用于分类(SVM)，回归(SVR)和异常值检测的监督学习方法。支持向量机的优点是：在高维空间有效。在尺寸数量大于样本数量的情况下仍然有效。在决策函数中使用训练点的子集（称为支持向量），因此它也具有内存效率。多功能：可以为决策功能指定不同...

2018-11-22 11:23:38 363

原创 python之pyechart

Echarts是百度可视化工具，pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库。用 Echarts 生成的图可视化效果非常棒，为了与 Python 进行对接，方便在 Python 中直接使用数据生成图官方教程：http://pyecharts.org/#/zh-cn/prepare支持图形Bar（柱状图/条形图） ...

2018-11-21 19:09:22 7549 2

原创 python之scipy

SciPy是一组专门解决科学计算中各种标准问题域的包的集合，主要包括下面这些包：scipy.integrate 数值积分例程和微分方程求解器 scipy.stats 标准连续和离散概率分布（如密度函数、采样器、连续分布函数等）、各种统计检验方法，以及更好的描述统计法 scipy.linalg 扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能 sci...

2018-11-21 11:44:41 1022 2

原创特征工程

目录0 前言1 什么是特征工程2 数据与特征处理2.1 数据采集2.2 数据格式化2.3 数据清洗2.4 数据采样2.5 特征处理3 特征选择3.1 过滤型3.2 包裹型3.3 嵌入型0 前言一个项目的基本流程：1.了解项目情况：项目概述，项目目标(需求)，现有解决方案情况2.获取数据：数据来源、数据量3.数据清洗：处理异常值、空...

2018-11-21 11:14:36 357

原创 python之random

如果你对在Python生成随机数与random模块中最常用的几个函数的关系与不懂之处，下面的文章就是对Python生成随机数与random模块中最常用的几个函数的关系，希望你会有所收获，以下就是这篇文章的介绍。random.random() 生成随机数In [33]: import randomIn [34]: random.random() #生成0-1的随机浮点数Out[34]...

2018-11-20 13:16:29 182

原创决策树

简介决策树（DT）是用于分类和回归的非参数监督学习方法。目标是创建一个模型，通过学习从数据特征推断出的简单决策规则来预测目标变量的值。adboost：集成算法，基本算法的优化算法gbdboost决策树的一些优点是：易于理解和解释。树木可以看到。需要很少的数据准备。其他技术通常需要数据规范化，需要创建虚拟变量并删除空值。但请注意，此模块不支持缺失值。使用树的成本（即，预...

2018-11-20 11:43:22 223

原创 python之queue

Queue是python标准库中的线程安全的队列（FIFO）实现,提供了一个适用于多线程编程的先进先出的数据结构，即队列，用来在生产者和消费者线程之间的信息传递基本FIFO队列class queue.Queue(maxsize=0)FIFO即First in First Out,先进先出。Queue提供了一个基本的FIFO容器，使用方法很简单,maxsize是个整数，指明了队列中能存放...

2018-11-20 09:40:42 243

原创 python之pickle

Python提供了一个标准库，名为pickle(泡菜、腌制)，它可以保存和加载几乎任何Python数据独享，包括列表。一旦把数据“腌制”到一个文件，它将会持久存储，可以在以后某个日期/时间读入另外一个程序。用dump保存，用load恢复使用pickle很简单：只需要导入所需的模块，然后使用dump（）保存数据，以后某个时间使用load（）恢复数据。处理腌制数据时的唯一要求是，必须以...

2018-11-19 16:31:32 176

原创贝叶斯分类器

目录简介计算过程scikit-learn实现简介朴素贝叶斯方法是一组监督学习算法，基于贝叶斯定理应用给定类变量值的每对特征之间的条件独立性的“朴素”假设。不同的朴素贝叶斯分类器主要区别于他们对分布的假设高斯朴素贝叶斯：假设特征的可能性是高斯的多项朴素贝叶斯补充朴素贝叶斯伯努利朴素贝叶斯核心外朴素贝叶斯模型拟合尽管它们显然过于简化了假设，但朴素的贝叶斯分...

2018-11-19 11:49:11 287

原创 K近邻(KNN)

目录简介计算过程scikit-learn实现K近邻分类器K近邻回归简介K近邻学习是一种常用的监督学习方法，K为1时，又称最近邻法，即1NN，K近邻的工作机制为：给定测试样本，基于某种距离度量找出训练集中与其最靠近的K个训练样本，然后基于这K个邻居的信息来进行预测简介：近邻法（K-nearest neighbor，K-NN）是一种基本分类与回归方法，它的原理...

2018-11-16 19:30:48 466

原创逻辑回归

目录简介计算过程scikit-learn实现简介Logistic回归，尽管它的名字是一个分类，但是属于回归的线性模型。Logistic回归在文献中也称为logit回归，最大熵分类（MaxEnt）或对数线性分类器。计算过程。。。scikit-learn实现linear_model.LogisticRegression，Logistic回归分类器。实现可以适合二元，...

2018-11-16 11:18:23 428

原创线性回归

目录简介计算过程scikit-learn实现简介线性回归模型：自变量和因变量万的关系为线性关系的一种回归分析模型，即y=ax+b训练：训练样本集中有多个(x,y)的实际值，可求出参数(a,b)的预测值，即通过训练可获得预测的线性回归模型损失函数：通过训练样本得到的预测y值和训练样本集中的实际y值的误差(均方误差)，是预测模型最优的判定标准优化：获得损失函数的最优解的过...

2018-11-16 09:03:13 197

原创基本术语和符号

离散值:就是孤立的点集，如区间，如连续值：123456789,离散化即分为区间[1,3),[3,7),[7,10）反函数：单位向量：i,j,k分别表示在x,y,z轴上的单位向量向量算子：点积：向量空间即内积叉积：1、指示函数数学中，指示函数是定义在某集合X上的函数，表示其中有哪些元素属于某一子集A。　　指示函数有时候也称为特征函数。现在已经少用这一称呼。概率论有另一意...

2018-11-15 12:43:52 495

原创 python之matplotlib无法显式中文

1.Linux环境：确认mpl-data路径下的font/ttf目录，并将下载的中文字体文件复制到该目录下，然后重启电脑1@1:~$ locate -b 'mpl-data'/home/zelin/anaconda3/lib/python3.7/site-packages/matplotlib/mpl-data/home/zelin/anaconda3/pkgs/matplotlib...

2018-11-14 20:21:44 371

原创 python之jieba

中文分词调用jieba的cut对中文字符串进行分词即可，返回一个生成器In [1]: import jiebaIn [2]: strings='直方图是用面积表示各组频数的多少，矩形的高度表示每一组的频数或 ...: 频率，宽度则表示各组的组距，其高度与宽度均有意义'In [3]: data=jieba.cut(strings)In [4]: type(data)Ou...

2018-11-13 16:20:52 585

原创 python之数据可视化

各种图形简介线性图:plt.plot(x,y,*argv)条形图：plt.bar(x,y)x和y的长度应相等水平条形图：plt.barh(x,y)x轴成垂直,y轴水平而已条形图高度表示某项目内的数据个数，由于分组数据具有连续性，直方图的各矩形通常是连续排列，而条形图则是分开排列直方图：plt.hist(x)，数据集种各数据出现的频数/频率图2d直方图：plt.hist2d(...

2018-11-13 15:39:07 1305

原创 python之数据清洗脚本

#coding=utf-8import numpy as npimport pandas as pdna_list=['NO CLUE','N/A','0']#na包含的类型data=pd.read_csv('311-service-requests.csv',na_values=na_list,dtype={'Incident Zip':str})#列值数据类型设置为字符串#prin...

2018-11-09 19:44:24 1155

原创 python之pandas

目录目录1.生成数据表读取csv文件构建DataFrame2.数据信息查看和索引查看DataFrame的基本信息索引3.数据可视化可视化：matplotlib.pyplot绘图可视化：pandas绘图制图实例4.数据清洗缺失值处理字符串处理数据转换：格式转换和异常值处理重复项重命名索引离散化5.数据规整丢弃数据...

2018-11-08 13:15:24 878

原创 python之numpy

@numpy1.15.1数据科学的基础库0维，标量1维，向量2维，矩阵3维，两个矩阵生成数组array，生成数组In [43]: import numpy as npIn [44]: np.array([1,2,3,4])Out[44]: array([1, 2, 3, 4])shape，形状ndim，维度dtype，数据类型size，数据...

2018-11-07 10:37:49 254

原创 python之scrapy(六)总结

1. Scrapy的基本原理Engine(引擎)：控制数据流的走向Scheduler(调度器)：请求的调度，维护了一个请求队列，当需要新的请求去跟网络进行交互的时候，就会从请求队列里面拿出一个request,（dontfliter=True,针对某一request的不去重）Downloader(下载器):主要用来跟Internet(目标服务器)进行交互Spiders(爬虫)：实现爬...

2018-11-05 17:37:11 227

原创 python之scrapy(五)分布式爬虫

Scrapy是一个比较好用的Python爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个主机的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。一、分布式爬虫的原理下面是单机版本的Scrapy框架：Scrapy单机爬虫中只有一个本地爬取队列Queue，如果新的Request生成，就...

2018-11-05 17:20:12 849

原创 python之scrapy(四)downloader middlewares的用法

下载中间件是处于引擎(Engine)和下载器（DownLoader）)之间的一层组件，可以有多个下载中间件被加载运行。当引擎传递请求给下载器的过程中，下载中间件可以对请求进行处理（例如增加http header信息，增加proxy信息等）；在下载器完成http请求，传递响应给引擎的过程中，下载中间件可以对响应进行处理（例如进行gzip的解压等） 1.使用...

2018-11-05 16:48:18 7473

原创 python之scrapy(三)spider的用法

Scrapy框架中Spider的用法在Scrapy里面，要抓取网站的链接配置、抓取逻辑、解析逻辑里，都是在Spider里面去完成的。一、Spider的运行流程在实现Scrapy爬虫项目里面，最核心的就是Spider类了，它定义了如何爬取某个网站的流程和解析方式。简单来讲，Spider就做两件事情：定义爬取的动作分析爬取下来的网页对于Spider类来说，整...

2018-11-05 15:37:56 1410

原创 python之scrapy(二)选择器的使用

{"cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "Selector的用法" ] }, { "cell_type": "markdown", "metadata": {}, &q

2018-11-05 13:52:40 1709

原创 python之scrapy(一)基础和入门

Scrapy框架的使用一、 Scrapy框架的介绍Scrapy是一个基于 Twisted 异步处理的框架，是一个纯python的网络爬虫框架，是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据或者通用的网络爬虫。Scrap...

2018-11-05 12:52:48 387

原创 python之xlwt、xlrd和openpyxl

实现对excel文件的读写功能1.xlwt：对xls等excel文件的写入2.xlrd：对xls等excel文件的读取3.openpyxl:对xlsm、xlsx等excel文件的读写一、读excel表(xlrd)读excel要用到xlrd模块，官网安装（http://pypi.python.org/pypi/xlrd）。然后就可以跟着里面的例子稍微试一下就知道怎么用了。大概的流...

2018-11-02 19:57:29 18366 1

原创 python之pyautoit

专门针对Python语言的AutoItX3.dll的接口库。配合autoit程序(获取程序元素)对计算机程序进行模拟操作AutoIt最初是为PC(个人电脑)对数千台PC进行配置的“批量处理”而设计,不过随着v3版本的到来它也很适合用于家庭自动化和编写用以完成重复性任务的脚本.功能运行Windows和Dos程序[1] 模拟键击动作(支持大多数键盘布局)模拟鼠标移动和点击动作对窗口进...

2018-11-02 19:35:42 8346

线性回归模型完整案例

python源码之爬虫

python源码之计算器

python例句10000条

空空如也