文博11-CSDN博客

原创 sklearn中的数据预处理

sklearn中的数据预处理工程概述数据与处理与特征工程数据挖掘的五大流程：1. 获取数据 2. 数据预处理数据预处理是从数据中检测，纠正或删除损坏，不准确或不适用于模型的记录的过程可能面对的问题有：数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断。也可能，数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不一，有重复，数据是偏态，数据量太大或太小数据预处理的目的：让数据适应模型，匹配模型的需求3. 特征工程：特征工程是将原始数据转换为更能代表预测模型

2021-12-18 19:55:59 387

原创随机森林在sklearn中的实现

随机森林概述集成算法概述集成学习是当下十分留意的一种机器学习算法。他不是一种单独的机器学习算法，而是将数据经过多次构建模型，集成所有的模型的建模结果。集成算法的目标集成算法会考虑多个模型结果，将他们汇总之后得到一个综合的结果，以此来获得比单个模型更好的分类或回归的表现。通常来说，我们有三种集成算法：装袋法（bagging），提升法（boosting）和stacking装袋法的建立多个独立的评估器，然后对其预测进行平均或多数表决原则来决定评估器集成的结果，装袋法的代表模型就是

2021-12-15 13:42:11 1111

原创决策树在sklearn中的实现

概述决策树（decision tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图结构来呈现这种规则，以解决分类和回归问题。决策树算法容易理解，使用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用sklearn中的决策树tree.DecisionTreeClassifier分类树tree.DecisionTreeRegressor回归树tree.export_g

2021-12-13 20:16:35 258

原创人口分析案例

导入数据import pandas as pdabb = pd.read_csv('./2021_12_08/2021_12_09/state-abbrevs.csv') #state（州的全称）abbreviation（州的简称）area = pd.read_csv('./2021_12_08/2021_12_09/state-areas.csv') #state（州的全称）area（sq.mi）州的面积pop = pd.read_csv('./2021_12_08/2021_12_09/sta

2021-12-10 11:10:25 386

原创股票数据分析

tushareTushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程，能够为金融分析人员提供快速、整洁、和多样的便于分析的数据，为他们在数据获取方面极大地减轻工作量，使他们更加专注于策略和模型的研究与实现上。代码实战import tushare as ts需求：获取股票的历史行情数据In[1]: df = ts.get_k_data(code='600519',start='2000-1-1')Out[1]:

2021-12-08 21:03:55 4535

原创 pandas时间序列

基础概念这里列出了 Pandas中和时间日期相关常用的类以及创建方法。类备注创建方法Timestamp 时刻数据 to_datetime，TimestampDatetimeIndex Timestamp的索引 to_datetime，date_range，DatetimeIndexPeriod 时期数据 PeriodPeriodIndex

2021-12-07 22:26:48 310

原创 pandas数据合并

DataFrame行合并我们要明确，pandas里行合并是将行索引相同的行进行合并我们在ipython里实验In [1]: import pandas as pdIn [2]: import numpy as npIn [3]: df1 = pd.DataFrame(np.ones((2,4)),index=["A","B"],columns=list("abcd"))In [4]: df1Out[4]: a b c dA 1.0 1.0 1.0 1

2021-12-07 14:22:02 662

原创 Pandas

pandas从外部获取数据我们了解一下读取数据的语法：pandas.read_xxx(地址)exppandas.read_csv("./DailyDelhiClimate.csv")这时候我们就会在当前文件夹取出DailyDelhiClimate的这个csv文件。然后我们打印，就会发现数据读取成功。我们可以找一个变量来记录这个数据.read_data = pandas.read_csv("./DailyDelhiClimate.csv")我们打印一下看一下输出结果print(read_d

2021-12-06 23:01:58 244

原创 Numpy

numpy中填充nan的方法我们先来看代码import numpy as npdef fill_ndarray(t1): """将nan替换成列均值""" for i in range(t1.shape[1]): #遍历每一列 temp_col = t1[:,i] #取当前这一列 nan_num =

2021-12-06 13:01:32 840

原创 matplotlib多种图的绘制

条形图代码实现from matplotlib import pyplot as pltfrom matplotlib import font_managermy_font = font_manager.FontProperties(fname="C:\Windows\Fonts\simhei.ttf")#设置图形大小plt.figure(figsize=(25,8),dpi=80)#输入数据name = ["战狼2","速度与激情8",'功夫瑜伽','西游伏魔篇','变形金刚5：最后的

2021-12-05 16:03:06 934

原创 matplotlib绘图工具

折线图此处以在每个年年龄段谈过几个女朋友为例from matplotlib import pyplot as pltfrom matplotlib import font_manager#设置字体my_font = font_manager.FontProperties(fname="C:\Windows\Fonts\simhei.ttf")#设置图片大小plt.figure(figsize=(20,8),dpi=80)#定义数据x = range(11,31)y_1 = [1,0

2021-12-05 13:34:42 104

原创树的概念及其术语

概念树是一种抽象数据类型或是实作这种抽象数据类型的数据结构，用来模拟具有树状结构性质的数据集合。它是由n（n>=1）个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。术语...

2021-12-05 09:53:11 166

原创二分法查找

概念二分法查找又称折半查找，优点是比较次数少，查找速度快，平均性能好，其缺点是要求待查找表为有序表，插入困难。因此，折半法不常变动而查询频繁的有序表。假设表中元素按升序排列，将表中间位置记录的关键字与查找的关键字进行比较，如两者相等则查找成功。否则利用中间位置记录，将表分成前后两个子表，如果中间位置记录的关键字大于查找的关键字，则进一步查找前一子表，否则进一步查找后一子表。重复过程，直到找到关键字。代码实现首先实现使用函数的递归版本的二分法def binary_sarch(alist,item):

2021-12-04 21:47:48 359

weixin_63230368的博客

原创 sklearn中的数据预处理

原创随机森林在sklearn中的实现

原创决策树在sklearn中的实现

原创人口分析案例

原创股票数据分析

原创 pandas时间序列

原创 pandas数据合并

原创 Pandas

原创 Numpy

原创 matplotlib多种图的绘制

原创 matplotlib绘图工具

原创树的概念及其术语

原创二分法查找

原创归并算法及其实现

原创希尔排序法

原创选择排序与插入排序

原创栈与队列的概念及代码实现

原创 Python学习历程

原创 Python学习历程

原创 Python学习历程

原创 Python学习历程

空空如也

空空如也