- 博客(28)
- 资源 (4)
- 收藏
- 关注
原创 模电基础
积分运算电路可以实现波形的移相,波形变换,滤波的功能滤波器的种类:低通滤波器、高通滤波器、带通滤波器(允许某一频率范围内的信号通过)、带阻滤波器(阻止某一频率范围内的信号通过)RC串并联电路的谐振频率 f = 1/2ΠRC LC并联电路的谐振频率 半波整流电路:u = 0.45u2全波整流电路:u = 0.9u2全波+并联电容:u = 1.2u2 GB...
2018-08-30 11:45:01 1955
原创 数电基础
1:原码--》反码--》补码2:通过补码进行加减运算规则3:8421--》余3码--》余3循环码4:与或非 同或 异或 5 代入定理、反演定理、对偶定理6 逻辑函数的两种标准形式:最小项之和、最大项之积7 卡诺图简化逻辑函数8:CMOS门电路有好多需要看的时序逻辑电路:主要包括 寄存器、移位寄存器、计数器时序电路通常由组合电路和存储电路构成,而且存储电路是必...
2018-08-29 09:41:31 825
原创 建模与分析
利用不同机器学习方法对数据建模# 模型选择# 交叉验证#基于随机森林的交叉验证from sklearn.ensemble import RandomForestClassifierfrom sklearn.cross_validation import KFoldfrom sklearn.metrics import confusion_matrix,log_los...
2018-08-28 15:51:29 882
原创 数据清洗 总结:
数据清洗过程可能用到的一些方法记录: # 数据挖掘的主要流程import pandas as pd#******************** 构造数据集*******************#df = pd.read_csv('data.csv')#构造新的Dataframekd = pd.DataFrame({'matchup':df.matchup,'opponent':df....
2018-08-28 15:48:12 1803
原创 python绘制动态曲线
从txt种获取数据 并且通过动态曲线显示import numpy as np import matplotlib.pyplot as plt import matplotlib.animation as animation import time # Fixing random state for reproducibility np.random.seed(196) path ...
2018-08-13 17:54:34 15793 3
原创 分析信用借贷问题
主要内容:数据的多方位清洗 建立分类模型 分类精度以及回召率其中数据的清洗主要包括:1:查看数据的基本信息 样本数 特征数 2:去除个人认为无影响特征、某列缺失过半特征、一行元素全部相同的样本、类别不明确的行(本例中是表示是否借款不明确)3:去除只有一个特征属性的特征、或者 一个特征+nan 的特征4:查看空值(null)的数量 删除空值较多的列5:如果发现某些特征存在...
2018-08-10 19:40:37 381
原创 #文本预测股票 涨还是降 二分类
主要内容: 通过CountVectorizer构建词向量 LogisticRegression构建分类模型 通过对特征的分析,重构特征向量 通过两个单词作为最小单元 构建向量 通过逻辑回归预测#文本预测股票 涨还是降 二分类import pandas as pdfrom sklearn.feature_extraction.text...
2018-08-10 10:49:32 820
原创 通过鸢尾花数据集演示PCA操作
主要内容:通过构造协方差矩阵,计算保持原有数据95%特征信息所需要的特征数 ,通过PCA降维构造新的数据集#通过鸢尾花数据集演示PCA操作import pandas as pdfrom sklearn.datasets import load_irisimport numpy as npiris = load_iris()X, y = iris.data, iris.target...
2018-08-10 09:00:38 2231
原创 利用tensorflow构建CNN识别Minist手写数字集
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.cm as cmimport tensorflow as tfLEARNING_RATE = 1e-4 # 学习率TRAINING_ITERATIONS = 2500 #迭代次数DROP_OUT = 0....
2018-08-09 23:22:53 963
原创 美国劳工部官方统计数据 员工离职案例分析
通过对数据的分析 预判员工离职的可能性首先去分析是否存在不干净数据,import pandas as pdimport numpy as npdf = pd.read_csv('HR_comma_sep.csv')# print(df.isnull().any()) #判断是否有null值# print(np.count_nonzero(df != df)) #判断nan数量...
2018-08-09 17:31:39 2173
原创 使用级联预测模型 完整代码
import pandas as pdimport numpy as npimport reimport sklearnimport seaborn as snsimport matplotlib.pyplot as pltimport xgboost as xgbimport plotly.offline as pypy.init_notebook_mode(connected...
2018-08-09 16:51:11 2110
原创 使用级联预测模型
转自https://www.missshi.cn/api/view/blog/5a06a441e519f50d0400035ekaggle入门竞赛之泰坦尼克事故存活预测(xgboost方法)第三方库引入首先,我们来看下用xgboost解决这个问题需要引入哪些第三方库吧:# Load in our librariesimport pandas as pdimport numpy...
2018-08-09 16:49:58 2889
原创 数据挖掘之鸢尾花数据集分析
因为手上没有iris.data数据,只能通过在sklearn中加载原始数据,并将其转换为Dataframe格式主要内容:数据分布的可视化(特征之间分布、特征内部、分类精度、热力图)算法:决策树 随机森林import pandas as pdfrom sklearn.datasets import load_irisimport numpy as np# iris_data =...
2018-08-08 22:19:04 20758 1
原创 数据挖掘之坦坦尼克号获救情况分析
主要内容: 缺失值的填充 特征中的字符串映射为int或float操作 特征构造 对特征的重要性进行分析以及可视化操作算法:线性回归 逻辑回归 随机森林 集成方法分类#分析泰坦尼克号获救情况import pandastitanic = pandas.read_csv('./titantic_data/trai...
2018-08-08 15:48:00 623
原创 数据挖掘之用户欺诈案例分析
分析方法:查看样本样式 样本数值特征之间的量级差距查看样本0 1分布情况--》 可能需要进行对多样本降采样 ; 可能需要对少样本 造样本(SMOT算法)通过分析混淆矩阵 根据目标需求(需要准确率高点 还是回召率高点)找到最佳参数本文的例程因为缺少csv文件和 KFold交叉验证没有解决 所以无法运行'''Created on @author: hcl'''#分...
2018-08-08 08:47:01 2621
原创 数据挖掘之科比投球案例分析
为了弥补在特征工程中的不足,学习一下如何从数据获取以后进行数据处理分析,以下为数据处理学习内容:在学习过程中遇到问题:原因1:后来发现是学习视频中介绍导包的文件不对,下面这两个都是KFold交叉验证的包,但是用法不同原因2:某些特征中存在字符串 没法将其转换为float或int计算,如上面错误中的’IND‘ 就是其中一个特征中的值,在后面的交叉验证前进行了 相关特征剔除,保证了...
2018-08-07 19:14:04 2977
原创 python中关于numpy的hstack和vstack的理解
例如 a=m*n维矩阵 b=m*n维矩阵,那么hstack(a,b) = m*2n 行保持维度不变,列拼接vstack(a,b) = 2m*n 列保持唯独不变,行拼接案例1:import numpy as npa=[1,2,3]b=[4,5,6]print(np.hstack((a,b)))print(np.vstack((a,b)))输出:[1 2 3 4 5...
2018-08-06 18:32:44 3551
原创 Python超参数自动搜索模块GridSearchCV
from __future__ import print_functionfrom pprint import pprintfrom time import timeimport loggingfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text import Coun...
2018-08-06 16:25:25 781
原创 案例:利用保存svm训练模型 用pickle或者joblib
pickle版本from sklearn import svmfrom sklearn.datasets import samples_generatorfrom sklearn.feature_selection import SelectKBest, f_regressionfrom sklearn.pipeline import make_pipelinefrom sklea...
2018-08-06 15:53:27 2988
原创 数据预处理
将特征缩放至特定范围内:from sklearn import preprocessingimport numpy as np#数据集的标准化# X_train = np.array([[ 1., -1., 2.],# [ 2., 0., 0.],# [ 0., 1., -1.]])# X_...
2018-08-06 10:56:45 350
原创 利用TfidfVectorizer+朴素贝叶斯进行文本分类
处理流程一般为: 提取特征数据集 标签 并向量化 选择合适的分类器构建模型 对模型进行验证案例:from sklearn.datasets import fetch_20newsgroupsfrom sklearn.cross_validation import cross_val_scorefrom sklearn.feature_extract...
2018-08-06 08:13:47 5063
原创 使用FP-growth算法高效发现频繁项集
基本内容:发现事务数据中的公共模式、FP-growth算法、发现Twitter源中的共现词fp_growth.py'''Created on 2018年8月3日@author: hcl'''class treeNode: #name存放节点名称 #count存放计数值 #nodeLink链接相似元素 #parent存放父节点 #child...
2018-08-03 18:01:38 442
原创 使用Apriori算法进行关联分析
主要内容:Apriori算法、频繁项集生成、关联规则生成、投票中的关联规则发现缺点:是在大数据集上可能较慢。当寻找频繁项集时,有两个概念比较重要:支持度和可信度。表1 一个来自Hole Foods天食品店的简单交易清单 交易号码 商品 0 豆奶, 莴苣 1 莴苣,尿布,葡萄酒,甜菜 2 莴苣,尿布,葡萄酒,橙汁 3 莴苣,豆奶,尿布,葡萄...
2018-08-03 15:14:19 1854 1
原创 利用K-means聚类算法对未标注数据分组
k-均值算法的工作流程: 首先,随机确定k个初始点作为质心;接着,将数据集中的每个点分配到一个簇中,即为每个点找到距离其最近的质心,并将其分配给该质心所对应的簇;然后,每个簇的质心更新为该簇所有点的平均值。再次重新分配数据集中所有的点,如果所有的点被分配的簇和之前一样,即簇的质心不会再改变,则此时的k个簇就是我们所需要的;如果某个点被分配的簇改变了,则分配完所有的点之后重新更新每...
2018-08-03 09:56:44 854 1
原创 SVD(奇异值分解)简化数据
SVD优点:简化数据、去除噪声、提高算法的结果SVD是一个强大的降维工具,我们可以利用SVD来逼近矩阵并从中提取重要特征。通过保留矩阵80%~90%的能量,就可以得到重要的特征并去掉噪声。其中一个重要应用案例就是推荐引擎。协同过滤的核心式相似度计算方法,有很多相似度计算方法都可以用于计算物品和用户之间的相似度。3. 原理——矩阵分解将原始的数据集矩阵data(m*n)分解成三个矩阵...
2018-08-01 20:22:12 1472
原创 PCA主成分分析法 简化数据
通过pca可以查看出每个特征的重要性,通过比较可以去除重要性低的特征,减少收集数据的成本示例:该示例可以将数据中的590个特征缩减为6个。pca.py'''Created on 2018年8月1日@author: hcl'''from numpy import *import matplotlib.pyplot as plt# 加载数据def loadDataSet...
2018-08-01 20:04:48 356
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人