走了又走-CSDN博客

原创 Matplotlib设置横纵坐标刻度

import matplotlib.pyplot as pltx=range(15)x = [str(i) for i in x]y1=[72,72,73,72,72,72,0,0,0,0,62,68,63,66,72]y2=[72,72,73,72,72,72,70,68,66,64,62,68,63,66,72]plt.figure(figsize=(12,4))plt.subplot(1,2,1)plt.plot(x,y1,'b-')plt.xlabel('时间（s）',fontpro

2020-09-02 19:08:01 7748 1

原创 2020-08-23

转载原文：https://blog.csdn.net/lunzi3775/article/details/80409671解决anaconda的python中无pip错误：D:\Anaconda\python.exe: No module named pippython 升级后导致不能使用原来的pip命令windows平台cmd中敲命令：python -m ensurepip得到pip的setuptools然后就可以用：easy_install pip下载相应版本的pip，最后就可以愉快的用p

2020-08-23 09:33:56 176

原创零基础数据挖掘

1、数据分析和数据挖掘的区别数据分析：描述和探索性分析，评估现状和修正不足；侧重于实际的业务知识；掌握统计学、数据库、EXCEL、可视化等技术；需结合业务知识统计结果。数据挖掘：数据采矿过程，发现未知模式和规律；要求数学功底和编程能力；生成模型或规则。数据挖掘侧重现状的描述和查因，而数据挖掘倾向未知数据的预测。2、常见的数据结构—字符串、列表、元组、字典（1）字符串的构造当字符串中含有双引号时，使用单引号当字符串中含有单引号时，使用双引号当字符串中既含有单引号又有双引号时，使用三引号#

2020-05-19 20:54:34 1953

原创 NLP--分词、拼写纠错、停用词过滤、词的标准化、词袋向量

拼写纠错、分词编辑距离的计算：编辑距离可以用来计算两个字符串的相似度，它的应用场景很多，其中之一是拼写纠正（spell correction）。编辑距离的定义是给定两个字符串str1和str2, 我们要计算通过最少多少代价cost可以把str1转换成str2.举个例子：输入: str1 = “geek”, str2 = “gesek”输出: 1插入 's’即可以把str1转换成s...

2020-04-20 19:48:01 1126

原创 K-均值聚类算法

概述聚类是一种无监督的学习，他将相似的对象归到同一个簇中，簇内的对象越相似，聚类的效果越好。聚类与分类的最大不同在于，分类的目标事先巳知，而聚类则不一样。因为其产生的结果与分类相同，而只是类别没有预先定义，聚类有时也被称为无监督分类K均值聚类的算法：发现k个不同的簇，且每个簇的中心采用簇中所含值计算而成。K-均值聚类的一般流程(1)收集数据：使用任意方法。⑵准备数据：需要数值型数据来计...

2020-04-17 22:04:10 2824

原创 anaconda创建虚拟环境

下载anaconda首先在清华镜像上下载anaconda下载速度快，点击下载网址，进入如下界面：对应日期、windows、linux、mac进行下载64、32位anaconda添加镜像安装anaconda成功后，建议添加清华的镜像源，包括anaconda的镜像和pypi的镜像。anconda镜像Windows 用户无法直接创建名为 .condarc 的文件，可先执行 conda con...

2020-04-13 23:43:19 2762

原创 NLP

文章目录NLP概述时间/空间复杂度NLP概述NLP = NLU+NLG，本文重点学习NLUNLU：对于语音/文本，能够理解它所表示的意思NLG：通过获取的意思，能够生成文本/语音例：今天参观了苹果公司现在正好是苹果季节上面两句话第一句中“苹果”代表一个公司，第二句中“苹果”代表一中食物，那么对于一词多义，我们应该怎么理解句子意思？所以我们可以根据上下文（context）来判断每个单词...

2020-04-06 15:34:19 246

原创回归

文章目录一、回归概述二、回归系数三、局部加权线性回归四、预测鲍鱼的年龄一、回归概述与分类一样，回归也是预测目标值的过程，回归与分类的不同点在于，前者预测连续型变量，而后者预测离散型变量。说到回归，一般都是指线性回归，所以本文里的回归和线性回归代表同一个意思。例：HorsePower = 0.0015 * annualSalary - 0.99 * hoursListeningToPublic...

2020-04-05 21:58:10 218

原创机器学习分类算法总结

KNN算法knn算法的原生实现knn算法的一般步骤：其中测试分类classfy0（）函数是算法的核心，需默背下来，并且能够运用到其他的数据集上。classify0函数流程图注意classfy0（）函数中一些语句的用法：distance.argsort() ：将distance元素从大到小顺序的下标返回classcount.get(votelabel, 0) + 1 ：clas...

2020-03-30 00:44:00 799 1

原创机器学习实战--SVM

一、概述SVM是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化。训练数据线性可分时，通过硬间隔最大化，学习一个线性分器，即线性可分支持向量机，又称为硬间隔支持向量机；训练数据近似线性可分时，通过软间隔最大化，也学习一个线性分类器，即线性支持向量机，也称为软间隔支持向量机；训练数据线性不可分时，通过使用核技巧和软间隔最大化，学习非线性支持...

2020-03-25 23:07:06 468

原创 Logistic回归

文章目录一、Logistic概述二、Logistic回归算法1、Logistic回归和sigmoid函数的分类2、最优回归系数确定：梯度上升算法3、实战：疝气病症预测病马的死亡率一、Logistic概述我们用一条直线对这些点进行拟合（该线称为最佳拟合直线），这个拟合过程就称作回归。利用logistic回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。这里的“回归” ...

2020-03-17 12:34:53 822

原创 python--pandas模块

pandas模块一、掌握外部数据的读取1、文本文件的读取pd.read_csv(filepath_or_buffer, sep=‘,’, header=‘infer’, names=None, usecols=None,skiprows=None, skipfooter=None, converters=None, encoding=None)filepath_or_buffer：指定t...

2020-03-12 23:52:31 216

原创 python数据可视化--Matplotlib

一、Matplotlib基础1、Matplotlib介绍Matplotlib是python最著名的绘图库，由各种可视化类构成。Matplotlib 是一个 Python 的 2D绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。通过 Matplotlib，开发者可以仅需要几行代码，便可以生成绘图，直方图，功率谱，条形图，错误图，散点图等。我们可以提前先看一个柱状效果图：...

2020-03-10 23:48:11 1005

原创决策树算法--贷款、预测眼镜

一、决策树概述1、算法思想决策树是从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子节点；每一个子节点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶节点。最后将实例分配到叶节点的类中。决策树学习算法包括特征选择、决策树生成和决策树剪枝三部分。本文主要概述前两部分和采用ID3算法构建树。2、一般流程决策树的一般流程(1)收集数据：可以使用任何方法。...

2020-03-09 22:12:14 3587

原创快速排序

用快速排序法对一组数据由小到大进行排序。#include <stdio.h>void qusort(int s[],int start,int end){ int i,j; i = start; j = end; s[0] = s[start]; while(i<j) { while(i < j && s[0] < s[j]) ...

2020-03-06 23:56:58 94

原创朴素贝叶斯算法--垃圾邮件过滤

一、朴素贝叶斯概述1、贝叶斯决策理论假设现在我们有一个数据集，它由两类数据组成，我们现在用P1表示数据点属于类别1的概率，用P2表示数据点属于类别2的概率，那么对于一个新数据点X，可以用下面的规则来判断它的类别：□如果P1(X)>P2(X), 那么类别为1。□如果P1(X)<P2(X), 那么类别为2。也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选...

2020-03-04 14:17:28 5046 2

原创打鱼晒网问题

如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011-1-1以后的任意一天，输出该渔夫是在打渔还是晒网。#include <stdio.h>/*********leap()函数用来确定输入的年份是否是闰年************/int leap(int a){ if(a % 4 == 0 && a % 100 !=...

2020-03-03 23:52:31 267

原创任意次方后的最后三位

编程求一个整数任意次方后的最后三位数，即求x^y的最后三位数，x和y的值由键盘输入。#include <stdio.h>void main(){ int i,x,y,z=1; printf("请输入两个数：x和y（x^y):\n"); scanf("%d%d",&x,&y); //底数和指数 for(i=1;i<=y;i++) z = ...

2020-03-02 23:26:05 552

原创某日是该年的第几天

编写计算天数的c程序，用户从键盘中输入年、月、日，在屏幕中输出此日期是该年的第几天。c代码：#include <stdio.h>/*********leap()函数用来确定输入的年份是否是闰年************/int leap(int a){ if(a % 4 == 0 && a % 100 != 0 || a % 400 == 0 ) ...

2020-03-01 11:25:42 156

原创婚礼上的谎言

题目：3对情侣参加婚礼，3个新郎为A,B,C，3个新娘为X,Y,Z，有人想知道究竟谁与谁结婚，于是就问新人中的三位，得到如下结果：A说他将和X结婚；X说她的未婚夫是C；C说她将和Z结婚。这人事后知道他们都在开玩笑，说的全是假话，那么，究竟谁与谁结婚呢？c代码：#include <stdio.h>void main(){ int a,b,c; for(a = 1; a...

2020-02-29 14:44:27 185

原创 K近邻算法--约会网站配对

一、k-近邻算法概述简答的说k近邻算法采用测量不同特征值之间的距离方法进行分类。工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据...

2020-02-28 19:58:51 1824 1

原创冒泡排序

一、介绍1、冒牌排序是一种交换排序：两两比较待排序的关键字，并交换不满足次序要求的那对数，直到整个表都满足次序要求为止。二、分析1、比较相邻的元素。如果第一个比第二个大，就交换他们两个。2、对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。在这一点，最后的元素应该会是最大的数。3、针对所有的元素重复以上的步骤，除了最后一个。4、持续每次对越来越少的元素重复上面的步骤，直到没有...

2020-02-27 16:24:07 114

原创三角形的类型判别

三角形的类型判别，其中运用海伦公式求三角形面积，下面给c和python代码。c代码：//三角形类型判别#include <stdio.h>#include <stdlib.h>#include <math.h> //sqrt void main(void){ int a,b,c; float p,area; printf("请输...

2020-02-27 00:12:47 355

weixin_45422335的博客