zyqjgr-CSDN博客

原创线性回归

线性回归是回归问题中的一种，线性回归假设目标值与特征之间线性相关，即满足一个多元一次方程。通过构建损失函数，来求解损失函数最小时的参数w和b。通长我们可以表达成如下公式y^为预测值，自变量x和因变量y是已知的，而我们想实现的是预测新增一个x，其对应的y是多少。因此，为了构建这个函数关系，目标是通过已知数据点，求解线性模型中w和b两个参数。求解方式1）最小二乘法(least square method)求解 w 和 b 是使损失函数最小化的过程，在统计中，称为线性回归模型的最小二乘“参数估计”(pa

2020-12-20 13:48:43 471

原创数据清洗- Fuzzywuzzy和主成分分析

Fuzzywuzzy -Levenshtein distance 模糊查询与替换Levenshtein Distance 算法，又叫 Edit Distance 算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。 from fuzzywuzzy import fuzz from fuzzywuzzy import process fuzz.ratio("this is

2020-11-09 11:13:24 7318

原创 K-means聚类分析

#主成分分析pca=PCA(n_components=0.9)data=pca.fit_transform(cross)#降维x=data[:500]x.shape()#对类别预设为4km=KMeans(n_clusters=4)km.fit(x)predict=km.predict(x)#显示聚类结果plt.figure(figsize=(10,10))#建立颜色不同的类别列表colored=['orange','green','blue','purple']colorl=[c

2020-11-05 13:19:12 417

原创线性回归

试图学得一个通过属性的线性组合来进行预测的函数：????(????)=????_1 ????_1+????_2 ????_2+…+????_???? ????_????+????w为权重，b称为偏置项，可以理解为：????_0×1线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合方法：正规方程????=（????^???? ????）^(−1) ????^???? *????????为特征值矩阵，????为目标值矩阵缺点

2020-10-29 18:24:29 161

原创决策树

决策树的分类依据之一：信息论通过消除不确定性，信息熵会变小ID3(信息增益）不同的信息对做出一个决定的价值不同，这种价值可以由贝叶斯公式的条件概率大小衡量获取数据titan = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")# 处理数据，找出特征值和目标值x = titan[['pclass', 'age', 'sex']]y = titan['survived']

2020-10-26 13:38:12 62

原创分类算法-朴素贝叶斯算法与分类模型评估

#利用贝叶斯公式预测类型，比如给一个文档，根据特征词判断文档的主题????(????│????)=(????(????│????)*????(????))/(????(????))P(A1,A2|B) = P(A1|B)P(A2|B)各个条件相互独立，如果不独立需要使用自然语言处理sklearn.naive_bayes.MultinomialNB拉普拉斯平滑如果词频列表里面有很多出现次数都为0，很可能计算结果都为零????(????1│????)=(????????+????)/(????+

2020-10-25 17:15:08 982

原创数据集的划分、转换器和估计器

X_train,X_test, y_train, y_test=sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4,random_state=0,stratify=y_train)train_target：所要划分的样本结果 test_size：样本占比，如果是整数的话就是样本的数量 random_state：是随机数的种子。随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一

2020-10-18 18:24:59 54

原创 python数据科学基础day19-算法与数据结构--栈

栈（stack）又名堆栈，它是一种运算受限的线性表。限定仅在表尾进行插入和删除操作的线性表。这一端被称为栈顶，相对地，把另一端称为栈底。向一个栈插入新元素又称作进栈、入栈或压栈，它是把新元素放到栈顶元素的上面，使之成为新的栈顶元素；从一个栈删除元素又称作出栈或退栈，它是把栈顶元素删除掉，使其相邻的元素成为新的栈顶元素。要搞清楚这个概念，首先要明白”栈“原来的意思，如此才能把握本质。"栈“者,存储货物或供旅客住宿的地方,可引申为仓库、中转站，所以引入到计算机领域里，就是指数据暂时存储的地方，所以才有进栈、出栈

2020-09-10 20:37:11 157

原创 python数据科学基础day19-算法与数据结构

算法效率衡量执行时间反应算法效率实现算法程序的执行时间可以反应出算法的效率，即算法的优劣。单纯依靠运行的时间来比较算法的优劣并不一定是客观准确的！程序的运行离不开计算机环境（包括硬件和操作系统），这些客观原因会影响程序运行的速度并反应在程序的执行时间上。那么如何才能客观的评判一个算法的优劣呢？时间复杂度与“大O记法”我们假定计算机执行算法每一个基本操作的时间是固定的一个时间单位，那么有多少个基本操作就代表会花费多少时间单位。算然对于不同的机器环境而言，确切的单位时间是不同的，但是对于算法进行多少个

2020-09-07 10:22:39 79

原创 python数据科学基础day18-算法与数据结构

算法是计算机处理信息的本质，因为计算机程序本质上是一个算法来告诉计算机确切的步骤来执行一个指定的任务。一般地，当算法在处理信息时，会从输入设备或数据的存储地址读取数据，把结果写入输出设备或某个存储地址供以后再调用。算法是独立存在的一种解决问题的方法和思想。对于算法而言，实现的语言并不重要，重要的是思想。算法的五大特性输入: 算法具有0个或多个输入输出: 算法至少有1个或多个输出有穷性: 算法在有限的步骤之后会自动结束而不会无限循环，并且每一个步骤可以在可接受的时间内完成确定性：算法中的每一步都

2020-09-03 18:21:24 98

原创 python数据科学基础day17-matplotlib球员能力图练习

import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesplt.style.use('dark_background')ability_label=['Attack','Defence','Dribble','Speed','Strenth','Shoot']ax1=plt.subplot(221,projection='polar')# 投影极坐标ax2

2020-09-01 21:02:50 135

原创 python数据科学基础day16-matplotlib

plt.fill(a,b,‘b’,alpha=0.3)#颜色填充https://blog.csdn.net/kabuto_hui/article/details/84979606plt.plot(x, y) # 先将图画出来plt.fill_between(x, 0, y, facecolor=‘green’, alpha=0.3)plt.show()#x：第一个参数表示覆盖的区域，我直接复制为x，表示整个x都覆盖#0：表示覆盖的下限#y：表示覆盖的上限是y这个曲线#facecolor

2020-08-31 22:23:40 134

原创 python数据科学基础day15-matplotlib

import matplotlib.pyplot as pltimport numpy as npimport pandas as pdimport datetime#散点图height=[161,170,182,175,173,165]weight=[50,58,89,80,79,68]plt.scatter(height,weight)````python#折线图x=np.linspace(-10,10,100)y=x**2plt.plot(x,y)#直接用Series

2020-08-30 20:01:16 93

原创 python数据科学基础day14-pandas

运算df.mean()#各个列的平均值df.mean(1)#各个行的平均值合并（Merge）结合（Concat）df3 = pd.DataFrame((np.random.randn(10, 4)))# randn（random normal distribution）是一种产生标准正态分布的随机数或矩阵的函数df3pieces = [df3[:3], df3[3:7], df3[7:]]#将df3分为三组pieces#连接（join）left = pd.DataFrame({'k

2020-08-29 22:34:13 124

原创 python数据科学基础day13-pandas

Pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能。Pandas 的主要数据结构是 Series （一维数据）与 DataFrame （二维数据）DataFrameDataFrame是Pandas中的一个表格型的数据结构，包含有一组有序的列，每列可以是不同的值类型(数值、字符串、布尔型等)，DataFrame即有行索引也有列索引，可以被看做是由Series组成的字典。Series它是一种类似于一维数组的对象

2020-08-28 22:59:15 177

原创 python数据科学基础day12-numpy

Numpy和pandas是数据分析中常用的工具，numpy的底层是根据c语言编写的，运行速度会更快，而pandas是numpy的升级版。Numpy：1．创建矩阵矩阵乘法：

2020-08-27 19:56:25 91

原创 python基础知识学习记录，day11（模块，库）

模块Python程序由模块组成。一个模块对应 python源文件，一般后缀名是：.py。 2. 模块由语句组成。运行 Python 程序时，按照模块中语句的顺序依次执行。 3. 语句是Python程序的构造单元，用于创建对象、变量赋值、调用函数、控制语句等。模块(module)对应于Python源代码文件(.py文件)。模块中可以定义变量、函数、类、普通语句。这样，我们可以将一个 Python程序分解成多个模块，便于后期的重复应用。标准库模块(standard library)与函数类似，模块也分

2020-08-26 16:06:17 151

zyqjgr的博客

原创线性回归

原创数据清洗- Fuzzywuzzy和主成分分析

原创 K-means聚类分析

原创线性回归

原创决策树

原创分类算法-朴素贝叶斯算法与分类模型评估

原创数据集的划分、转换器和估计器

原创 python数据科学基础day19-算法与数据结构--栈

原创 python数据科学基础day19-算法与数据结构

原创 python数据科学基础day18-算法与数据结构

原创 python数据科学基础day17-matplotlib球员能力图练习

原创 python数据科学基础day16-matplotlib

原创 python数据科学基础day15-matplotlib

原创 python数据科学基础day14-pandas

原创 python数据科学基础day13-pandas

原创 python数据科学基础day12-numpy

原创 python基础知识学习记录，day11（模块，库）

原创 python基础知识学习记录，day10

原创 python基础知识学习记录，day9

原创 python基础知识学习记录，day8

原创 python基础知识学习记录，day7

原创 python基础知识学习记录，day6

原创 python基础知识学习记录，day5

原创 python基础知识学习记录，day4

原创 python基础知识学习记录，day3

原创 python基础知识学习记录，day2

原创 python基础知识学习记录，day1

空空如也

空空如也