- 博客(21)
- 收藏
- 关注
原创 sklearn中的数据预处理
sklearn中的数据预处理工程概述数据与处理与特征工程数据挖掘的五大流程:1. 获取数据 2. 数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小数据预处理的目的:让数据适应模型,匹配模型的需求3. 特征工程:特征工程是将原始数据转换为更能代表预测模型
2021-12-18 19:55:59 373
原创 随机森林在sklearn中的实现
随机森林概述集成算法概述集成学习是当下十分留意的一种机器学习算法。他不是一种单独的机器学习算法,而是将数据经过多次构建模型,集成所有的模型的建模结果。集成算法的目标集成算法会考虑多个模型结果,将他们汇总之后得到一个综合的结果,以此来获得比单个模型更好的分类或回归的表现。通常来说,我们有三种集成算法:装袋法(bagging),提升法(boosting)和stacking装袋法的建立多个独立的评估器,然后对其预测进行平均或多数表决原则来决定评估器集成的结果,装袋法的代表模型就是
2021-12-15 13:42:11 1083
原创 决策树在sklearn中的实现
概述决策树(decision tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图结构来呈现这种规则,以解决分类和回归问题。决策树算法容易理解,使用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用sklearn中的决策树tree.DecisionTreeClassifier分类树tree.DecisionTreeRegressor回归树tree.export_g
2021-12-13 20:16:35 233
原创 人口分析案例
导入数据import pandas as pdabb = pd.read_csv('./2021_12_08/2021_12_09/state-abbrevs.csv') #state(州的全称)abbreviation(州的简称)area = pd.read_csv('./2021_12_08/2021_12_09/state-areas.csv') #state(州的全称)area(sq.mi)州的面积pop = pd.read_csv('./2021_12_08/2021_12_09/sta
2021-12-10 11:10:25 367
原创 股票数据分析
tushareTushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工 到 数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,为他们在数据获取方面极大地减轻工作量,使他们更加专注于策略和模型的研究与实现上。代码实战import tushare as ts需求:获取股票的历史行情数据In[1]: df = ts.get_k_data(code='600519',start='2000-1-1')Out[1]:
2021-12-08 21:03:55 4010
原创 pandas时间序列
基础概念这里列出了 Pandas中 和时间日期相关常用的类以及创建方法。类 备注 创建方法Timestamp 时刻数据 to_datetime,TimestampDatetimeIndex Timestamp的索引 to_datetime,date_range,DatetimeIndexPeriod 时期数据 PeriodPeriodIndex
2021-12-07 22:26:48 292
原创 pandas数据合并
DataFrame行合并我们要明确,pandas里行合并是将行索引相同的行进行合并我们在ipython里实验In [1]: import pandas as pdIn [2]: import numpy as npIn [3]: df1 = pd.DataFrame(np.ones((2,4)),index=["A","B"],columns=list("abcd"))In [4]: df1Out[4]: a b c dA 1.0 1.0 1.0 1
2021-12-07 14:22:02 634
原创 Pandas
pandas从外部获取数据我们了解一下读取数据的语法:pandas.read_xxx(地址)exppandas.read_csv("./DailyDelhiClimate.csv")这时候我们就会在当前文件夹取出DailyDelhiClimate的这个csv文件。然后我们打印,就会发现数据读取成功。我们可以找一个变量来记录这个数据.read_data = pandas.read_csv("./DailyDelhiClimate.csv")我们打印一下看一下输出结果print(read_d
2021-12-06 23:01:58 213
原创 Numpy
numpy中填充nan的方法我们先来看代码import numpy as npdef fill_ndarray(t1): """将nan替换成列均值""" for i in range(t1.shape[1]): #遍历每一列 temp_col = t1[:,i] #取当前这一列 nan_num =
2021-12-06 13:01:32 822
原创 matplotlib多种图的绘制
条形图代码实现from matplotlib import pyplot as pltfrom matplotlib import font_managermy_font = font_manager.FontProperties(fname="C:\Windows\Fonts\simhei.ttf")#设置图形大小plt.figure(figsize=(25,8),dpi=80)#输入数据name = ["战狼2","速度与激情8",'功夫瑜伽','西游伏魔篇','变形金刚5:最后的
2021-12-05 16:03:06 921
原创 matplotlib绘图工具
折线图此处以在每个年年龄段谈过几个女朋友为例from matplotlib import pyplot as pltfrom matplotlib import font_manager#设置字体my_font = font_manager.FontProperties(fname="C:\Windows\Fonts\simhei.ttf")#设置图片大小plt.figure(figsize=(20,8),dpi=80)#定义数据x = range(11,31)y_1 = [1,0
2021-12-05 13:34:42 94
原创 树的概念及其术语
概念树是一种抽象数据类型或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。它是由n(n>=1)个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。术语...
2021-12-05 09:53:11 155
原创 二分法查找
概念二分法查找又称折半查找,优点是比较次数少,查找速度快,平均性能好,其缺点是要求待查找表为有序表,插入困难。因此,折半法不常变动而查询频繁的有序表。假设表中元素按升序排列,将表中间位置记录的关键字与查找的关键字进行比较,如两者相等则查找成功。否则利用中间位置记录,将表分成前后两个子表,如果中间位置记录的关键字大于查找的关键字,则进一步查找前一子表,否则进一步查找后一子表。重复过程,直到找到关键字。代码实现首先实现使用函数的递归版本的二分法def binary_sarch(alist,item):
2021-12-04 21:47:48 348
原创 归并算法及其实现
归并算法归并算法概念简而言之归并算法就是先将一整个数组分裂成一个个小的数组,然后在按顺序归并成新的数组,归并时多次归并,每一次都是排序后再归并,这就是归并算法。归并算法代码实现def merge_sort(alist): """归并排序""" n = len(alist) if n <= 1: return alist mid = n // 2 left_li = merge_sort(alist[:mid]) right_li
2021-12-04 20:18:47 235
原创 希尔排序法
希尔排序法希尔排序法可以说是插入算法的改良版希尔排序法的代码实现def shell_sort(alist): """希尔排序""" gap =(len(alist)//2) while gap > 0: for j in range(gap,len(alist)): i = j while i > 0: if alist[i] < alist[i-gap]:
2021-12-04 16:13:44 428
原创 选择排序与插入排序
选择排序法选择排序概念首先先将一个数组的第一位当作最小值,然后由前至后以此作比较,若后面有一个数比前定义的最小值小,那就将这个数与最小值的位置交换,并重新将这个数定义为最小值,然后重复上操作。执行完整次循环后,将第二位数定义为最小值,在执行操作。选择法排序代码实现def select_sort(alist): for i in range(len(alist)-1): min_index = i for j in range(i+1,len(alist)):
2021-12-04 13:40:19 72
原创 栈与队列的概念及代码实现
栈与队列概念:栈是一种容器,可存入数据元素,访问元素,删除元素,它的特点在于只能允许在容器的一段进行加入数据和输出数据的运算,没有了位置概念,可以保证每次删除,访问都是上一次最后添加的元素。(顺序表与链表都可以实现栈的功能)队列一种线性表,但是它的特点在于他只能从一段进行插入操作,而从另一端进行删除操作的线性表,队列先进先出。栈的实现此处我们使用顺序表来实现栈...
2021-12-03 22:27:25 67
原创 Python学习历程
单向循环链表单线循环链表单向循环链表与单向链表的区别就是单向循环链表的尾节点指向了头节点。我们知道,单向链表的尾节点指向None,而单向循环链表指向了头节点,这就是他们之间的区别单向循环链表的实现class Node(object): """节点""" def __init__(self, elem): self.elem = elem self.next = Noneclass SingleLinkCycleList(object):
2021-12-03 13:50:58 166
原创 Python学习历程
第三日笔记双向链表双向链表实现代码from practise import SingleLinkListclass Node(object): """节点""" def __init__(self,item): self.elem = item self.next = None self.prev = Noneclass DoubleLinkList(SingleLinkList): """双链表""" def
2021-12-02 21:30:05 144
原创 Python学习历程
第三日笔记链表链表是一种常见的数据结构,是一种线性表,但是不像顺序表一样连续储存数据,而是在每一个数据存储单元里存放下一个数据存储单元的地址。单向链表俗称单链表,是链表中最简单的一种形式,他的每个数据存储单元中有两个域,一个元素域和指针域,这个指针与指向下一个存储单元的地址。元素域用来存储具体的数据指针域用来存储下一个数据存储单元的地址第一个节点(数据存储单元)叫做头节点最后一个节点叫做尾节点老师wo...
2021-12-02 20:02:33 159
原创 Python学习历程
第二日笔记顺序表顺序表是将一组相同数据类型的数据按顺序储存在内存中,并且以表的形式展现出来。元素外置的顺序表元素外置的顺序表就是将一组数据的地址按顺序储存在内存中,每次访问时访问到地址再去查找所对应的元素。表头表头是用来记录表的整体情况的一个顺序表,这部分主要包括元素存储区的容量和当前表中已有的元素个数两项顺序表的两种基本实现方式一种是 一体式结构 ,即表头和表本身以连续存储的方式存放在地址中。另一种时 分离式结构 ,即表头的地址与表本事的地址并不是连续的。元素储存区的扩充元素储存区
2021-11-30 22:06:15 665
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人