自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 线性回归

线性回归是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,来求解损失函数最小时的参数w和b。通长我们可以表达成如下公式y^为预测值,自变量x和因变量y是已知的,而我们想实现的是预测新增一个x,其对应的y是多少。因此,为了构建这个函数关系,目标是通过已知数据点,求解线性模型中w和b两个参数。求解方式1)最小二乘法(least square method)求解 w 和 b 是使损失函数最小化的过程,在统计中,称为线性回归模型的最小二乘“参数估计”(pa

2020-12-20 13:48:43 471

原创 数据清洗- Fuzzywuzzy和主成分分析

Fuzzywuzzy -Levenshtein distance 模糊查询与替换Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。 from fuzzywuzzy import fuzz from fuzzywuzzy import process fuzz.ratio("this is

2020-11-09 11:13:24 7318

原创 K-means聚类分析

#主成分分析pca=PCA(n_components=0.9)data=pca.fit_transform(cross)#降维x=data[:500]x.shape()#对类别预设为4km=KMeans(n_clusters=4)km.fit(x)predict=km.predict(x)#显示聚类结果plt.figure(figsize=(10,10))#建立颜色不同的类别列表colored=['orange','green','blue','purple']colorl=[c

2020-11-05 13:19:12 417

原创 线性回归

试图学得一个通过属性的线性组合来进行预测的函数:????(????)=????_1 ????_1+????_2 ????_2+…+????_???? ????_????+????w为权重,b称为偏置项,可以理解为:????_0×1线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合方法:正规方程????=(????^???? ????)^(−1) ????^???? *????????为特征值矩阵,????为目标值矩阵缺点

2020-10-29 18:24:29 161

原创 决策树

决策树的分类依据之一:信息论通过消除不确定性,信息熵会变小ID3(信息增益)不同的信息对做出一个决定的价值不同,这种价值可以由贝叶斯公式的条件概率大小衡量获取数据titan = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")# 处理数据,找出特征值和目标值x = titan[['pclass', 'age', 'sex']]y = titan['survived']

2020-10-26 13:38:12 62

原创 分类算法-朴素贝叶斯算法与分类模型评估

#利用贝叶斯公式预测类型 ,比如给一个文档,根据特征词判断文档的主题????(????│????)=(????(????│????)*????(????))/(????(????))P(A1,A2|B) = P(A1|B)P(A2|B)各个条件相互独立,如果不独立需要使用自然语言处理sklearn.naive_bayes.MultinomialNB拉普拉斯平滑如果词频列表里面有很多出现次数都为0,很可能计算结果都为零????(????1│????)=(????????+????)/(????+

2020-10-25 17:15:08 982

原创 数据集的划分、转换器和估计器

X_train,X_test, y_train, y_test=sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4,random_state=0,stratify=y_train)train_target:所要划分的样本结果 test_size:样本占比,如果是整数的话就是样本的数量 random_state:是随机数的种子。随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一

2020-10-18 18:24:59 54

原创 python数据科学基础day19-算法与数据结构--栈

栈(stack)又名堆栈,它是一种运算受限的线性表。限定仅在表尾进行插入和删除操作的线性表。这一端被称为栈顶,相对地,把另一端称为栈底。向一个栈插入新元素又称作进栈、入栈或压栈,它是把新元素放到栈顶元素的上面,使之成为新的栈顶元素;从一个栈删除元素又称作出栈或退栈,它是把栈顶元素删除掉,使其相邻的元素成为新的栈顶元素。要搞清楚这个概念,首先要明白”栈“原来的意思,如此才能把握本质。"栈“者,存储货物或供旅客住宿的地方,可引申为仓库、中转站,所以引入到计算机领域里,就是指数据暂时存储的地方,所以才有进栈、出栈

2020-09-10 20:37:11 157

原创 python数据科学基础day19-算法与数据结构

算法效率衡量执行时间反应算法效率实现算法程序的执行时间可以反应出算法的效率,即算法的优劣。单纯依靠运行的时间来比较算法的优劣并不一定是客观准确的!程序的运行离不开计算机环境(包括硬件和操作系统),这些客观原因会影响程序运行的速度并反应在程序的执行时间上。那么如何才能客观的评判一个算法的优劣呢?时间复杂度与“大O记法”我们假定计算机执行算法每一个基本操作的时间是固定的一个时间单位,那么有多少个基本操作就代表会花费多少时间单位。算然对于不同的机器环境而言,确切的单位时间是不同的,但是对于算法进行多少个

2020-09-07 10:22:39 79

原创 python数据科学基础day18-算法与数据结构

算法是计算机处理信息的本质,因为计算机程序本质上是一个算法来告诉计算机确切的步骤来执行一个指定的任务。一般地,当算法在处理信息时,会从输入设备或数据的存储地址读取数据,把结果写入输出设备或某个存储地址供以后再调用。算法是独立存在的一种解决问题的方法和思想。对于算法而言,实现的语言并不重要,重要的是思想。算法的五大特性输入: 算法具有0个或多个输入输出: 算法至少有1个或多个输出有穷性: 算法在有限的步骤之后会自动结束而不会无限循环,并且每一个步骤可以在可接受的时间内完成确定性:算法中的每一步都

2020-09-03 18:21:24 98

原创 python数据科学基础day17-matplotlib球员能力图练习

import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesplt.style.use('dark_background')ability_label=['Attack','Defence','Dribble','Speed','Strenth','Shoot']ax1=plt.subplot(221,projection='polar')# 投影极坐标ax2

2020-09-01 21:02:50 135

原创 python数据科学基础day16-matplotlib

plt.fill(a,b,‘b’,alpha=0.3)#颜色填充https://blog.csdn.net/kabuto_hui/article/details/84979606plt.plot(x, y) # 先将图画出来plt.fill_between(x, 0, y, facecolor=‘green’, alpha=0.3)plt.show()#x:第一个参数表示覆盖的区域,我直接复制为x,表示整个x都覆盖#0:表示覆盖的下限#y:表示覆盖的上限是y这个曲线#facecolor

2020-08-31 22:23:40 134

原创 python数据科学基础day15-matplotlib

import matplotlib.pyplot as pltimport numpy as npimport pandas as pdimport datetime#散点图height=[161,170,182,175,173,165]weight=[50,58,89,80,79,68]plt.scatter(height,weight)````python#折线图x=np.linspace(-10,10,100)y=x**2plt.plot(x,y)#直接用Series

2020-08-30 20:01:16 93

原创 python数据科学基础day14-pandas

运算df.mean()#各个列的平均值df.mean(1)#各个行的平均值合并(Merge)结合(Concat)df3 = pd.DataFrame((np.random.randn(10, 4)))# randn(random normal distribution)是一种产生标准正态分布的随机数或矩阵的函数df3pieces = [df3[:3], df3[3:7], df3[7:]]#将df3分为三组pieces#连接(join)left = pd.DataFrame({'k

2020-08-29 22:34:13 124

原创 python数据科学基础day13-pandas

Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。Pandas 的主要数据结构是 Series (一维数据)与 DataFrame (二维数据)DataFrameDataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。Series它是一种类似于一维数组的对象

2020-08-28 22:59:15 177

原创 python数据科学基础day12-numpy

Numpy和pandas是数据分析中常用的工具,numpy的底层是根据c语言编写的,运行速度会更快,而pandas是numpy的升级版。Numpy:1. 创建矩阵矩阵乘法:

2020-08-27 19:56:25 91

原创 python基础知识学习记录,day11(模块,库)

模块Python程序由模块组成。一个模块对应 python源文件,一般后缀名是:.py。 2. 模块由语句组成。运行 Python 程序时,按照模块中语句的顺序依次执行。 3. 语句是Python程序的构造单元,用于创建对象、变量赋值、调用函数、控制语句等。模块(module)对应于Python源代码文件(.py文件)。模块中可以定义变量、函数、 类、普通语句。 这样,我们可以将一个 Python程序分解成多个模块,便于后期的重复应用。标准库模块(standard library)与函数类似,模块也分

2020-08-26 16:06:17 151

原创 python基础知识学习记录,day10

文件操作程序需要被存储在文件上,否则数据在执行完后就消失了文件分为文本文件和二进制文件文本文件存储的是普通“字符”文本,python默认为 unicode 字符集(两个字节表示一个字符,最多可以表示:65536 个)二进制文件把数据内容用“字节”进行存储,无法用记事本打开。必须使用专用的软件解码。常见的有:MP4视频文件、MP3 音频文件、JPG 图片、doc 文档等等。open()函数用于创建文件对象,基本语法格式如下:open(文件名[,打开方式])文本文件对象和二进制文件对象的创

2020-08-25 15:24:44 117

原创 python基础知识学习记录,day9

代码异常Python中的异常类,异常同样是一个对象,在处理时,首先抛出异常对象,停止当前执行路径,把异常对象交给解释器,然后解释器寻找相应代码处理异常异常处理结构try…exceptFinally语句:无论是否发生异常,都会被执行常见异常SyntaxError:语法错误NameError:尝试访问一个没有申明的变量ZeroDivisionError:除数为 0 错误(零除错误)ValueError:数值错误TypeError:类型错误AttributeE

2020-08-24 19:51:47 159

原创 python基础知识学习记录,day8

类方法类对象使用的方法,其他方法不能被类对象使用通过@classmethod定义,格式@classmethodDef 类方法名(cls[,形参列表]):#cls特指类对象函数体静态方法在类中定义与类无关的方法@staticmethodDef 类方法名(cls[,形参列表]):#cls特指类对象函数体__call__方法:像调用函数一样调用对象方法的动态性Python有一个重要的概念,一切皆对象,一切都可以赋值给变量。方法是随时可以被添加和修改的私有属性和方法(封装)Pyth

2020-08-23 22:47:12 103

原创 python基础知识学习记录,day7

Lambda表达式和匿名函数Lambda表达式可以用于申明匿名函数,只允许包含一个表达式,不能含有复杂语句基本语法Lambda arg1,arg2,arg3: 函数表达式,其中arg为参数Eval()函数:可以用于把字符串str当成表达式求值Eval(source[,global[,locals]] - > valueSource:表达式 globals:可选,必须是字典 locals:可选,任意映射对象递归函数递归函数指函数在内部直接或间接的调用自己,包含递归条件和递归步骤两部分

2020-08-22 23:43:10 68

原创 python基础知识学习记录,day6

变量的作用域:全局变量:在函数定义和类之外申明的变量,作用域为定义的模块,从定义位置开始,模块结束, 全局变量降低了函数的可读性和通用性,应尽量减少使用,一般是作为常量。局部变量: 在函数中申明的变量,引用更快全局变量中a = 8 会一直保留下去,但局部变量中,a = 8 只有在调用test( )函数时才成立。如果要在函数内改变全局变量的值,使用global申明参数的传递函数的参数传递就是从实参到形参的赋值操作。在python中,一切都是对象,所有赋值操作都是对值的引用,所以当参数传递值时,

2020-08-21 17:34:52 415

原创 python基础知识学习记录,day5

Rangerange是一个迭代器对象,用于产生指定范围的数字序列 range(start,end,step length)嵌套循环Break语句如果不加beak,即使输入Q,之后仍会跳出input的指令,while true是无限循环,如果不加break它就会不停继续下去。Continue结束本次循环,继续下一次循环代码的优化减少不必要的计算减少内循环计算,尽量放到外部多使用局部变量ZIP并行迭代函数zip()可以同时对多个序列进行迭代推导式创建序列列表:表达式

2020-08-20 21:08:36 107

原创 python基础知识学习记录,day4

字典字典是键值对的无序可变序列,键值对是成对存储的键对象和值对象,可以通过键对象快速改变或删除值对象,键对象必须是不可改变且不能重复的。字典的核心对象是散列表,一个稀疏数组字典创建:dict( ),{ } k = [‘name’,’age’,’job’] v = [123,13,Lancer] d = dict(zip(k,v))dict.fromkeys([‘name’,’age’,’job’])字典元素访问1. 通过键获取值 a[‘name’] a.get(name)2. 列出所有键(值

2020-08-19 20:01:22 138

原创 python基础知识学习记录,day3

序列序列是一种数据存储的方式,用来存储一系列数据,在内存中,序列就是用来存放多个值的连续空间比如整数序列[10,20,30,40]这四个数各有一个地址,把他们按顺序把地址放到内存空间中,然后把这个内存空间的地址给变量a。字符串,字典,元组都属于序列结构(就是把对各对象按一定规律合并为一个大对象)列表用于存储任意数量类型数据的连续空间创建列表的四种方式基本语法 a = [ ]list()创建list(range())创建推导式生成列表元素的增删a.append()为了效率,一般

2020-08-18 21:58:25 84

原创 python基础知识学习记录,day2

赋值方式链式赋值:a=b=5系列解包赋值:a,b,c = 4,5,6变量交换: a,b = 4,5 a,b = b,a 得到a=5,b=4常量:python不支持常量,没有语法规则限制一个值是否改变对象类型的介绍:整数(int)浮点数(float)3.14 或 314e-2布尔型(true,false)字符串(str)运算符号:/ (加减乘除)//(整除)% (求余数)Divmod() (同时求出商和余数)** (幂运算)!!!除法运算中除数不能为0round

2020-08-17 15:20:23 105

原创 python基础知识学习记录,day1

Python由代码组成的不同模块来形成完整的程序代码基本格式:1. 恰当的缩进用来决定逻辑行的缩进层次新的语句应从新行的第一列开始缩进的风格应该保持一致性(默认四个空格算一个缩进)2. 大小写的区分,‘’和无‘’的区分3. 注释的使用,当在语句前加上#时,整个语句会在执行时跳过4. 使用行连接符,一行的长度没有限制,但为了方便阅读,可以用\来把不同行的语句连成一行。对象: python中的一切都是对象,其本质就是一个被赋予特定值、可执行特定操作的内存块id(

2020-08-16 14:21:15 83

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除