Cachel wood
这个作者很懒,什么都没留下…
展开
-
sklearn:机器学习 分类特征编码category_encoders
是一组风格的转换器,用不同的技术将类别变量编码成数字。虽然序数编码、独热编码和散列编码在现有对pandas数据文件作为输入(可选作为输出)的一流支持可以显式配置数据中的哪些列按名称或索引编码,或推断非数字列,而不管输入类型可以根据训练集随意删除任何方差很低的列可移植性:培训数据转换器,pickle它,以后重用它,然后得到同样的东西。完全兼容sklearn管道,输入一个类似数组的数据集,像任何其他转换器'__all__','__doc__','basen','binary',原创 2024-02-13 13:24:27 · 685 阅读 · 0 评论 -
sklearn.preprocessing 特征编码汇总
即将类别特征变成关于它的一种统计量,如将该类别变成该类别在样本中出现的次数,这在有些问题中是有效的,比如纽约和新泽西都是大城市,出现次数都会很多,通过计数的类别编码,模型可以从数值里接受“都是大城市”这个信息。K折目标编码将要编码的样本分成K份,每其中一份中的样本的目标编码,使用的是另外K-1份数据中相同类别的那些样本的频率值。用于数据分析的特征可能有多种形式,需要将其合理转化成模型能够处理的形式,特别是对非数值的特征,特征编码就是在做这样的工作。编码后的特征会变得非常多,得到的是一个稀疏矩阵,其类型是。原创 2024-02-07 11:19:30 · 555 阅读 · 1 评论 -
one-hot编码和哑变量编码的区别与联系
编码之后生成的新特征数就是3。而哑变量编码之后生成的新特征数比对应特征的取值个数少1个。编码,是因为每个取值对应的编码中有且只有一个是1,其余都是0。而哑变量编码允许不出现1。等第三方包中已经加入了这些方法,所以这里直接使用第三方包实现。编码之后生成的新特征数等于对应特征的不同种类取值个数,编码和哑变量编码都只能对离散型变量进行编码。编码形成的新特征都是二值型特征,比如,上述。哑变量编码在这一点上与。类似,只不过当编码全为0是表示。既不是1也不是2,这种情况下默认。中共有3种不同的取值,原创 2024-02-05 10:32:04 · 190 阅读 · 0 评论 -
sklearn.preprocessing 标准化、归一化、正则化
线性变换又很多良好的性质,这决定了对数据变换后的数据反而能提高数据效率。输出范围是一个特定的区间,在。就是特征中,所有数据都会除以最大值,该方法对那些已经中心化均值为0,或者稀疏的数据有意义。:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。如果数据有异常值和较多噪音,用标准化,可间接通过中心化避免异常值、极端值的影响。归一化是标准化的一种,它的缩放仅与最大、最小值的差别有关;(2)在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛;原创 2024-02-02 12:28:22 · 443 阅读 · 0 评论 -
sklearn缺失值处理:SimpleImputer模块 补全缺失值
fillna经典平均数、中位数、众数填充#检查统计缺失值#删除行#众数插补:#中位数插补#平均数K近邻法KNNImputer在该方法中,使用给定数量的与缺失值的属性最相似的属性进行缺失值的赋值。两个属性的相似性是通过距离函数来确定的。众所周知,它也有一定的优势和劣势。优点: k近邻可以预测定性和定量属性;不需要为每个缺少数据的属性创建预测模型;可以很容易地处理缺少多个值的属性;考虑了数据的相关结构特性劣势: KNN算法在分析大型数据库时非常耗时。它搜索所有数据集,寻找最相似的实例;原创 2024-01-31 19:33:13 · 458 阅读 · 0 评论 -
python imblearn教程:不平衡数据处理
官方教程:https://imbalanced-learn.org/stable/references/index.html不平衡数据的处理主要分为在数据层面的处理和在算法层面的改进,因为两者互不影响,所以也有结合两者的方法。首先进行数据处理,之后再进行算法预测。代表算法:代表算法:查看数据标签因为可视化只接受二维数据,所以提取数据前两列采样函数导入多样的过采样函数原创 2023-12-02 22:51:21 · 361 阅读 · 0 评论 -
sklearn教程:titanic泰坦尼克号数据集
这个数据集是基于泰坦尼克号中乘客逃生的,泰坦尼克号出事故,船上的乘客的一些信息被记录在这张表中。现在要根据这个数据预测这个人能否获救。共有891个样本。数据集属性属性含义乘客IDSurvived获救情况(1为获救,0为未获救)Pclass船舱等级(1/2/3等舱位)Name乘客姓名Sex性别Age年龄SibSp乘客在船上的兄弟/姐妹个数Parch乘客在船上的父母与小孩个数Ticket船票编号Fare票价Cabin舱位Embarked登船港口。原创 2023-12-02 00:38:34 · 503 阅读 · 0 评论 -
sklearn教程:boston波士顿房价数据集
Boston数据集是一个经典的回归分析数据集,包含了美国波士顿地区的房价数据以及相关的属性信息。该数据集共有506个样本,13个属性,其中包括12个特征变量和1个目标变量(房价中位数)。属性含义CRIM城镇人均犯罪率ZN住宅用地所占比例INDUS城镇中非住宅用地所占比例CHAS是否靠近查尔斯河(1表示靠近,0表示不靠近)NOX一氧化氮浓度RM房屋平均房间数AGE自住房屋中建于1940年前的房屋所占比例DIS距离5个波士顿就业中心的加权距离RAD距离绿色公园的辐射范围。原创 2023-12-01 23:48:39 · 1463 阅读 · 1 评论 -
sklearn教程:iris鸢尾花数据集数据分析
查看数据标签、属性和介绍查看数据整理为dataframe数据 sepal length sepal width petal length petal width species 0 5.1 3.5 1.4 0.2 0 1 4.9 3.0原创 2023-12-01 23:27:06 · 599 阅读 · 0 评论 -
python实现决策树可视化Graphviz和plot_tree
Wine葡萄酒数据集是来自UCI上面的公开数据集,这些数据是对意大利同一地区种植的葡萄酒进行化学分析的结果,这些葡萄酒来自三个不同的品种。该分析确定了三种葡萄酒中每种葡萄酒中含有的13种成分的数量。从UCI数据库中得到的这个wine数据记录的是在意大利某一地区同一区域上三种不同品种的葡萄酒的化学成分分析。该数据集可以直接从sklearn的datasets中获取#决策树。原创 2023-12-01 18:05:11 · 301 阅读 · 0 评论 -
python requests爬取税务总局税案通报、税务新闻和政策解读
发出请求,返回页面。本文的需求在于爬取“原创 2023-10-21 18:49:53 · 913 阅读 · 0 评论 -
python selenium.webdriver 爬取政策文件
利用xpath定位链接、索引号、标题、发文机关、发文字号、主题分类、成文日期、发布日期、文件内容等信息。右侧通过光标定位各部分信息,右键点击 copy 并选择 copy xpath即可复制xpath路径。,分为国务院文件和部门文件(发改委、工信部、交通运输部、市场监督局、商务部等)搜索关键词——汽车,即可得到按照 相关度 或者 时间 排列的政策文件。每次爬取单一文件信息并整理为dataframe,之后按行合并。获取中央人民政府网站链接,进入。批量获取文件链接并存入列表。原创 2023-07-16 00:50:18 · 3839 阅读 · 1 评论 -
数据挖掘:遗传算法GA Genetic Algorithms
每个候选解称为染色体。染色体是一串基因,用适应度函数来测量它们的生存能力。染色体可以通过进化来复制自己,交配和突变。精英主义:候选解决方案组合在一起,在每个迭代算法中产生后代。被称为一代人。后代也可以成为候选解决方案。从父母和孩子,一组适者生存下来,成为在下一代产生后代的父母。繁殖:通过繁殖,GA通过选择具有较高适应性评级的父母或通过给予这些父母更大的选择概率来促进繁殖过程,从而产生新一代的潜在改进解决方案。交叉:一串二进制符号(响应决策变量)来表示染色体(潜在解),交叉意味着在字符串中选择一个随机位置,并原创 2022-06-28 14:03:35 · 693 阅读 · 0 评论 -
数据挖掘:R语言关联规则挖掘
文章目录关联规则挖掘关联规则挖掘> data<-read.transactions('groceries.csv',sep = ',')> > summary(data) #可以查看输入信息的记录数,商品总数,最频繁的项集等数据transactions as itemMatrix in sparse format with 9835 rows (elements/itemsets/transactions) and 169 columns (items) and a原创 2022-05-01 19:45:39 · 1349 阅读 · 0 评论 -
数据挖掘:R语言支持向量机字符识别SVM
文章目录支持向量机(字符识别)支持向量机(字符识别)> #--------支持向量机进行光学字符的识别--------------------------------------------> > #读入数据> data<-read.csv('letterdata.csv')> > #训练集与测试集> > train_data<-data[1:16000,]> test_data<-data[16001:20000,原创 2022-05-01 19:46:53 · 748 阅读 · 0 评论 -
数据挖掘:R语言k均值聚类
文章目录k均值聚类(青少年)k均值聚类(青少年)> #==---K均值聚类-----------------------> > data<-read.csv('snsdata.csv')> > #查看某一特征的缺失值数量> table(data$gender,useNA = 'ifany') #或者可以用sum(is.na(data$gender)) F M <NA> 22054 5222 2724 >原创 2022-05-01 19:49:32 · 1153 阅读 · 0 评论 -
数据挖掘:R语言KNN算法
文章目录KNN算法KNN算法> #--------knn常用于:计算机视觉:面部识别,光学字符识别 一个人是否喜欢会喜欢推荐的电影或音乐> > #适用于分类任务,其中特征值和目标类之间的关系是众多的、复杂的,但是具有相似类的项目有非常接近> #加载class包:knn()算法 加载gmodels包:Crosstable()交叉表> > library(class)> # install.packages("gmodels")> libra原创 2022-05-01 19:50:21 · 1081 阅读 · 0 评论 -
数据挖掘:R语言决策树Tree_Kyphosis和Tree_Mileage
文章目录Tree_KyphosisTree_MileageTree_Kyphosis> # Classification Tree with rpart> library(rpart)> > # grow tree > fit <- rpart(Kyphosis ~ Age + Number + Start,+ method="class", data=kyphosis)> printcp(fit) # display th原创 2022-05-01 19:53:16 · 1177 阅读 · 0 评论 -
数据挖掘:决策树、信息熵和信息增益
文章目录decision tree inductionGeneral structure of Hunt's algorithmDesign issues of decision tree inductionMethods for expressing test conditionsTest condition for nominal attributesSplitting based on continuous attributesHow to determine the best splitAltern原创 2022-04-30 23:52:35 · 659 阅读 · 0 评论 -
数据挖掘:聚类算法CURE、SNN和ROCK
文章目录Hierarchical clustering: revisitedCURE: another hierarchical approachCURE cannot handle differing densitiesGraph-Based ClusteringGraph-Based clustering: sparsificationLimitation of current merging schemesChameleon: clustering using dynamic modelingChar原创 2022-04-29 23:16:52 · 1254 阅读 · 0 评论 -
数据挖掘:最全聚类分析 k-means+DBSCAN
文章目录聚类算法Applications of cluster analysisWhat is not cluster analysis?Notion of a cluster can be ambiguousTypes of clusteringsOther distinctions between sets of clustersTypes of clustersClustering algorithmsK-means clusteringK-means Clustering – DetailsEval原创 2022-04-29 20:10:30 · 649 阅读 · 0 评论 -
机器学习:9.3 NAS algorithms
文章目录Neural Architecture Search (NAS)NAS with Reinforcement LearningThe One-shot ApproachDifferentiable Architecture SearchScaling CNNsResearch directionsSummaryNeural Architecture Search (NAS)A neural network has different types of hyperparameters:T原创 2022-04-10 09:45:58 · 1035 阅读 · 0 评论 -
机器学习:9.2 HPO algorithms
Search SpaceSpecify range for each hyperparameterHyper-ParameterRangeDistributionmodel(backbone)[mobilenetv,resnet,vgg]categoricallearning rate*[1e-6,1e-1]log-uniformbatch size*[8,16,32,64,128,256,512]categoricalmonmentum**[0原创 2022-04-10 09:44:39 · 274 阅读 · 0 评论 -
机器学习:9. 模型调参 Model Tuning
文章目录Manual Hyperparameter TuningAutomated Machine Learning (AutoML)SummaryManual Hyperparameter TuningStart with a good baseline, e.g. default settings in high-quality toolkits, values reported in papersTune a value, retrain the model to see the cha原创 2022-04-10 09:43:16 · 508 阅读 · 0 评论 -
机器学习:5.4 Stacking
文章目录Multi-layer StackingOverfitting in Multi-layer StackingCombine multiple base learners to reduce varianceBase learners can be different model typesLinearly combine base learners outputs by learned parametersWidely used in competitionsba原创 2022-04-10 09:41:42 · 1091 阅读 · 0 评论 -
机器学习:4.3 模型验证 Model Validation
文章目录Hold Out ValidationSplit non I.I.D. dataK-fold Cross ValidationCommon MistakesSummaryGeneralization ErrorApproximated by the error on a holdout test dataset, which has never been seen by the model and can be only used onceYour midterm exam score原创 2022-04-10 09:36:42 · 1012 阅读 · 0 评论 -
机器学习:5.1 模型组合 Model Combination
文章目录Bias & Variance DecompositionReduce Bias & VarianceBias & Variance DecompositionLearn f^D\hat{f}_Df^D from dataset D sampled from y=f(x)+εy= f(x) +\varepsilony=f(x)+εEvaluate generalization error (y−f^D(x))2(y-\hat{f}_D(x))^2(y−f^原创 2022-04-10 09:36:11 · 482 阅读 · 0 评论 -
机器学习:4.1 评价指标 Evaluation Metrics
文章目录Model MetricsMetrics for Binary ClassificationAUC-ROCBusiness Metrics for Displaying AdsDisplaying Ads: Model Business MetricsSummaryModel MetricsLoss measures how good the model in predicting the outcome in supervised learningOther metrics to e原创 2022-04-10 09:29:18 · 990 阅读 · 0 评论 -
机器学习:3.3 线性模型 Linear Methods
文章目录Linear RegressionObjective FunctionUse linear regression for classification problemSoftmax RegressionMini-batch Stochastic gradient descent (SGD)SummaryLinear RegressionA simple house price predictionAssume 3 features: x1 = #beds, x2 = #baths, x原创 2022-04-10 09:24:31 · 227 阅读 · 0 评论 -
机器学习:4.2 欠拟合和过拟合 Underfitting & Overfitting
文章目录4.2 Underfitting & OverfittingModel ComplexityData ComplexityGeneralization errorModel SelectionSummary4.3 Model ValidationHold Out ValidationSplit non I.I.D. dataK-fold Cross ValidationCommon MistakesSummary5. Model CombinationBias & Variance原创 2022-04-09 19:48:27 · 537 阅读 · 0 评论 -
数据挖掘:决策树 Decision Trees
文章目录Building Decision TreesLimitations of decision TreesRandom ForestSummaryBuilding Decision TreesUse a top-down approach,staring from the root node with the set of all featuresAt each parent node,pick a feature to split the examples.Feature select原创 2022-04-06 09:25:43 · 450 阅读 · 0 评论 -
数据挖掘:基于实例的分类器-最近邻KNN
文章目录Instance Based ClassifiersNearest Neighbor ClassifiersInstance Based ClassifiersExamples:Rote-learnerMemorizes entire training data and performs classification only if attributes of record match one of the training examples exactly.Nearest nei原创 2022-04-05 17:46:38 · 320 阅读 · 0 评论 -
数据挖掘:基于规则的分类器Rule-Based Classifier
文章目录Rule-Based ClassifierRule Coverage and AccuracyCharacteristics of Rule-Based ClassifierEffect of Rule SimplificationOrdered Rule SetRule Ordering SchemesBuilding Classification RulesDirect Method: Sequential CoveringAspects of Sequential CoveringRule G原创 2022-04-05 17:44:29 · 1811 阅读 · 0 评论 -
数据挖掘:集成方法Bagging和Boosting
文章目录Ensemble MethodsWhy does it work?BaggingBoostingExample: AdaBoostEnsemble MethodsConstruct a set of classifiers from the training data.Predict class label of previous unseen records by aggregating predictions made by multiple classifiers.Why does i原创 2022-04-05 14:01:20 · 814 阅读 · 0 评论 -
数据挖掘:支持向量机SVM
文章目录Support Vector MachinesNonlinear Support Vector MachinesSupport Vector MachinesWe want to maximize: Margin=2∣∣w∣∣2Margin = \frac{2}{||w||^2}Margin=∣∣w∣∣22Which is equivalent to minimizing: L(w)=∣∣w∣∣22L(w) = \frac{||w||^2}{2}L(w)=2∣∣w∣∣2But原创 2022-04-05 13:41:21 · 249 阅读 · 0 评论 -
数据挖掘:人工神经网络ANN
文章目录Artificial Neural Networks(ANN)Algorithm for learning ANNArtificial Neural Networks(ANN)Model is an assembly of inter-connected nodes and weighted links.Output node sums up each of its input value according to the weights of its links.Compare outp原创 2022-04-05 13:19:40 · 360 阅读 · 0 评论 -
数据挖掘:朴素贝叶斯Naive Bayes Classifier
文章目录Naive Bayes ClassifierHow to Estimate Probabilities from DataNaive Bayes(Summary)A probabilistic framework for solving classification problemsConditional Probability:P(C∣A)=P(A,C)P(A)P(A∣C)=P(A,C)P(C)P(C|A) = \frac{P(A,C)}{P(A)}\\P(A|C) = \frac{P(原创 2022-04-05 13:07:33 · 359 阅读 · 0 评论 -
数据挖掘:Data Mining Techniques
文章目录Classification 分类Clustering 聚类Association Rule Discovery 关联规则发现Sequential Pattern Discovery 顺序模式发现Regression 回归Deviation/Anomaly Detection 偏差/异常检测Deep LearningGraph LearningClassification 分类Given a collection of records (training set)Each record c原创 2022-03-21 19:23:29 · 1608 阅读 · 0 评论 -
文本建模:主题模型和LDA(Latent Dirichlet Allocation)
文章目录LDA概念原理The ProblemLDA原理评估与解释LDA概念原理The Problem有许多事先未知主题的文本,我们想要根据主题对文本进行筛选,使用LDA.两个基本假设:Each topic is a mixture of an underlying set of words. 每个主题都由一组词构成Each document is a mixture of a set of topics. 每个文本含有几个主题(但不会特别多)狄利克雷分布Dirichlet Distribu原创 2022-03-03 23:19:43 · 1207 阅读 · 0 评论 -
数据挖掘:关联分析原理及python实现
文章目录基本概念核心方法基本概念关联性:共同出现,相关基于产品的共同出现特征,发现能够预测产品共同出现的规则集合频繁模式项集:包含了一种或几种产品的集合example:{Milk,Bread,Diaper}- K-项集:一个包含了k个产品的项集支持度一个项集出现的概率support({Milk,Bread,Diaper}) = 2/5频繁项集/频繁模式:支持度大于阈值的项集关联规则:X→YX \rightarrow YX→Y{Milk,Diaper} →\原创 2022-03-03 23:12:04 · 1535 阅读 · 0 评论