2018年08月_淮南草

原创模电基础

积分运算电路可以实现波形的移相，波形变换，滤波的功能滤波器的种类：低通滤波器、高通滤波器、带通滤波器（允许某一频率范围内的信号通过）、带阻滤波器（阻止某一频率范围内的信号通过）RC串并联电路的谐振频率 f = 1/2ΠRC LC并联电路的谐振频率半波整流电路：u = 0.45u2全波整流电路：u = 0.9u2全波+并联电容：u = 1.2u2 GB...

2018-08-30 11:45:01 1955

原创数电基础

1：原码--》反码--》补码2：通过补码进行加减运算规则3：8421--》余3码--》余3循环码4：与或非同或异或 5 代入定理、反演定理、对偶定理6 逻辑函数的两种标准形式：最小项之和、最大项之积7 卡诺图简化逻辑函数8：CMOS门电路有好多需要看的时序逻辑电路：主要包括寄存器、移位寄存器、计数器时序电路通常由组合电路和存储电路构成，而且存储电路是必...

2018-08-29 09:41:31 825

原创建模与分析

利用不同机器学习方法对数据建模# 模型选择# 交叉验证#基于随机森林的交叉验证from sklearn.ensemble import RandomForestClassifierfrom sklearn.cross_validation import KFoldfrom sklearn.metrics import confusion_matrix,log_los...

2018-08-28 15:51:29 882

原创数据清洗总结：

数据清洗过程可能用到的一些方法记录： # 数据挖掘的主要流程import pandas as pd#******************** 构造数据集*******************#df = pd.read_csv('data.csv')#构造新的Dataframekd = pd.DataFrame({'matchup':df.matchup,'opponent':df....

2018-08-28 15:48:12 1803

原创混淆矩阵正确率召回率 ROC曲线

混淆矩阵：预测结果真实结果 +1 -1 +1 TP FN -1 FP TN TP：真阳 ...

2018-08-28 11:36:27 664

原创 python绘制动态曲线

从txt种获取数据并且通过动态曲线显示import numpy as np import matplotlib.pyplot as plt import matplotlib.animation as animation import time # Fixing random state for reproducibility np.random.seed(196) path ...

2018-08-13 17:54:34 15793 3

原创分析信用借贷问题

主要内容：数据的多方位清洗建立分类模型分类精度以及回召率其中数据的清洗主要包括:1：查看数据的基本信息样本数特征数 2：去除个人认为无影响特征、某列缺失过半特征、一行元素全部相同的样本、类别不明确的行(本例中是表示是否借款不明确)3：去除只有一个特征属性的特征、或者一个特征+nan 的特征4：查看空值（null）的数量删除空值较多的列5：如果发现某些特征存在...

2018-08-10 19:40:37 381

原创 #文本预测股票涨还是降二分类

主要内容：通过CountVectorizer构建词向量 LogisticRegression构建分类模型通过对特征的分析，重构特征向量通过两个单词作为最小单元构建向量通过逻辑回归预测#文本预测股票涨还是降二分类import pandas as pdfrom sklearn.feature_extraction.text...

2018-08-10 10:49:32 820

原创通过鸢尾花数据集演示PCA操作

主要内容：通过构造协方差矩阵，计算保持原有数据95%特征信息所需要的特征数，通过PCA降维构造新的数据集#通过鸢尾花数据集演示PCA操作import pandas as pdfrom sklearn.datasets import load_irisimport numpy as npiris = load_iris()X, y = iris.data, iris.target...

2018-08-10 09:00:38 2231

原创利用tensorflow构建CNN识别Minist手写数字集

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.cm as cmimport tensorflow as tfLEARNING_RATE = 1e-4 # 学习率TRAINING_ITERATIONS = 2500 #迭代次数DROP_OUT = 0....

2018-08-09 23:22:53 963

原创美国劳工部官方统计数据员工离职案例分析

通过对数据的分析预判员工离职的可能性首先去分析是否存在不干净数据，import pandas as pdimport numpy as npdf = pd.read_csv('HR_comma_sep.csv')# print(df.isnull().any()) #判断是否有null值# print(np.count_nonzero(df != df)) #判断nan数量...

2018-08-09 17:31:39 2173

原创使用级联预测模型完整代码

import pandas as pdimport numpy as npimport reimport sklearnimport seaborn as snsimport matplotlib.pyplot as pltimport xgboost as xgbimport plotly.offline as pypy.init_notebook_mode(connected...

2018-08-09 16:51:11 2110

原创使用级联预测模型

转自https://www.missshi.cn/api/view/blog/5a06a441e519f50d0400035ekaggle入门竞赛之泰坦尼克事故存活预测（xgboost方法）第三方库引入首先，我们来看下用xgboost解决这个问题需要引入哪些第三方库吧：# Load in our librariesimport pandas as pdimport numpy...

2018-08-09 16:49:58 2889

原创数据挖掘之鸢尾花数据集分析

因为手上没有iris.data数据，只能通过在sklearn中加载原始数据，并将其转换为Dataframe格式主要内容：数据分布的可视化（特征之间分布、特征内部、分类精度、热力图）算法：决策树随机森林import pandas as pdfrom sklearn.datasets import load_irisimport numpy as np# iris_data =...

2018-08-08 22:19:04 20758 1

原创数据挖掘之坦坦尼克号获救情况分析

主要内容：缺失值的填充特征中的字符串映射为int或float操作特征构造对特征的重要性进行分析以及可视化操作算法：线性回归逻辑回归随机森林集成方法分类#分析泰坦尼克号获救情况import pandastitanic = pandas.read_csv('./titantic_data/trai...

2018-08-08 15:48:00 623

原创数据挖掘之用户欺诈案例分析

分析方法：查看样本样式样本数值特征之间的量级差距查看样本0 1分布情况--》可能需要进行对多样本降采样；可能需要对少样本造样本（SMOT算法）通过分析混淆矩阵根据目标需求（需要准确率高点还是回召率高点）找到最佳参数本文的例程因为缺少csv文件和 KFold交叉验证没有解决所以无法运行'''Created on @author: hcl'''#分...

2018-08-08 08:47:01 2621

原创数据挖掘之科比投球案例分析

为了弥补在特征工程中的不足，学习一下如何从数据获取以后进行数据处理分析，以下为数据处理学习内容：在学习过程中遇到问题：原因1：后来发现是学习视频中介绍导包的文件不对，下面这两个都是KFold交叉验证的包，但是用法不同原因2：某些特征中存在字符串没法将其转换为float或int计算，如上面错误中的’IND‘ 就是其中一个特征中的值，在后面的交叉验证前进行了相关特征剔除，保证了...

2018-08-07 19:14:04 2977

原创 eclipse+pydev开发python修改注释字体颜色等

以注释字体颜色为例：

2018-08-06 20:45:16 2616

原创 python中关于numpy的hstack和vstack的理解

例如 a=m*n维矩阵 b=m*n维矩阵，那么hstack(a,b) = m*2n 行保持维度不变，列拼接vstack(a,b) = 2m*n 列保持唯独不变，行拼接案例1：import numpy as npa=[1,2,3]b=[4,5,6]print(np.hstack((a,b)))print(np.vstack((a,b)))输出：[1 2 3 4 5...

2018-08-06 18:32:44 3551

原创 Python超参数自动搜索模块GridSearchCV

from __future__ import print_functionfrom pprint import pprintfrom time import timeimport loggingfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text import Coun...

2018-08-06 16:25:25 781

原创案例：利用保存svm训练模型用pickle或者joblib

pickle版本from sklearn import svmfrom sklearn.datasets import samples_generatorfrom sklearn.feature_selection import SelectKBest, f_regressionfrom sklearn.pipeline import make_pipelinefrom sklea...

2018-08-06 15:53:27 2988

原创数据预处理

将特征缩放至特定范围内：from sklearn import preprocessingimport numpy as np#数据集的标准化# X_train = np.array([[ 1., -1., 2.],# [ 2., 0., 0.],# [ 0., 1., -1.]])# X_...

2018-08-06 10:56:45 350

原创利用TfidfVectorizer+朴素贝叶斯进行文本分类

处理流程一般为：提取特征数据集标签并向量化选择合适的分类器构建模型对模型进行验证案例：from sklearn.datasets import fetch_20newsgroupsfrom sklearn.cross_validation import cross_val_scorefrom sklearn.feature_extract...

2018-08-06 08:13:47 5063

原创使用FP-growth算法高效发现频繁项集

基本内容：发现事务数据中的公共模式、FP-growth算法、发现Twitter源中的共现词fp_growth.py'''Created on 2018年8月3日@author: hcl'''class treeNode: #name存放节点名称 #count存放计数值 #nodeLink链接相似元素 #parent存放父节点 #child...

2018-08-03 18:01:38 442

原创使用Apriori算法进行关联分析

主要内容：Apriori算法、频繁项集生成、关联规则生成、投票中的关联规则发现缺点：是在大数据集上可能较慢。当寻找频繁项集时，有两个概念比较重要：支持度和可信度。表1 一个来自Hole Foods天食品店的简单交易清单交易号码商品 0 豆奶，莴苣 1 莴苣，尿布，葡萄酒，甜菜 2 莴苣，尿布，葡萄酒，橙汁 3 莴苣，豆奶，尿布，葡萄...

2018-08-03 15:14:19 1854 1

原创利用K-means聚类算法对未标注数据分组

k-均值算法的工作流程：首先，随机确定k个初始点作为质心；接着，将数据集中的每个点分配到一个簇中，即为每个点找到距离其最近的质心，并将其分配给该质心所对应的簇；然后，每个簇的质心更新为该簇所有点的平均值。再次重新分配数据集中所有的点，如果所有的点被分配的簇和之前一样，即簇的质心不会再改变，则此时的k个簇就是我们所需要的；如果某个点被分配的簇改变了，则分配完所有的点之后重新更新每...

2018-08-03 09:56:44 854 1

原创 SVD（奇异值分解）简化数据

SVD优点：简化数据、去除噪声、提高算法的结果SVD是一个强大的降维工具，我们可以利用SVD来逼近矩阵并从中提取重要特征。通过保留矩阵80%~90%的能量，就可以得到重要的特征并去掉噪声。其中一个重要应用案例就是推荐引擎。协同过滤的核心式相似度计算方法，有很多相似度计算方法都可以用于计算物品和用户之间的相似度。3. 原理——矩阵分解将原始的数据集矩阵data(m*n)分解成三个矩阵...

2018-08-01 20:22:12 1472

原创 PCA主成分分析法简化数据

通过pca可以查看出每个特征的重要性，通过比较可以去除重要性低的特征，减少收集数据的成本示例：该示例可以将数据中的590个特征缩减为6个。pca.py'''Created on 2018年8月1日@author: hcl'''from numpy import *import matplotlib.pyplot as plt# 加载数据def loadDataSet...

2018-08-01 20:04:48 356

淮南草的博客