自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 朴素贝叶斯算法原理+案例+总结

1、朴素贝叶斯算法原理● 概率基础:概率定义为一件事情发生的可能性。● 联合概率:包含多个条件,且所有条件同时成立的概率● 条件概率:事件A在事件B已经发生的情况下发生的概率(条件:所以特征之间时条件独立的)● 朴素贝叶斯:特征独立是前提,训练集误差大,结果肯定不好,不需要调参○ P(科技|文档) 文档1:词1,词2,词3……○ P(娱乐|文档) 文档2:词1’,词2’,词3’……○ 公式:P(C|W)=[P(W|C)P©]/P(W)注:w是给定文档的特征值(频数统计,预测文档提供)、c为

2020-07-08 10:35:58 3117

原创 K-近邻算法及案例预测入住位置,案例,总结

1、k-近邻算法定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。如何求距离:(欧式距离)a(a1,a2,a3) ,b(b1,b2,b3)距离=根号下[(a1-b1)平方+(a2-b2)平方+(a3-b3)平方]相似的样本,特征值之间相似。k-近邻算法需要做标准化处理sklearn k-近邻算法API● sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm

2020-07-07 16:10:52 589

原创 tf-df分析问题,特征预处理-归一化,归一化及标准化对比

1、tf-df分析问题对于单个英文字母不同,没有分类依据文本特征抽取:Counttf:term frequency 词的频率–出现次数idf:inverse document frequency 逆文档频率–log(总文档数量/该词出现的文档数量)tf*idf:重要性程度主要思想:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。类:sklearn.feature_extraction.text.TfidfVectoriz

2020-06-30 11:10:08 2523

原创 机器学习数学增强-概率论与贝叶斯先验

1、统计数字的概率“九点分布”:给定某正整数N,统计1到N!所有数中,首位数字出现1的概率。def first_digital(x): While x>=10: x /= 10 return xif __name__=="__main__": n=1 frequency = [0]*9 for i in range(1,1000): n *=i m = first digital(n)-1

2020-06-15 15:07:25 728

原创 python数据可视化分析-matplotlib. 球员能力图,股票K线图

1、球员能力图#_*_coding:utf-8_*_import matplotlib.pyplot as pltimport numpy as npfrom matplotlib.font_manager import FontPropertiesplt.style.use('ggplot')--导入字体font=FontProperties(fname=r'c:\window...

2020-05-08 11:42:58 286

原创 python数据可视化分析-matplotlib. 极坐标,函数积分图,散点-条形图

1、极坐标import matplotlib.pyplot as pltimport numpy as np--以上图形r=np.arange(1,6,1)theta=[0,np.pi/2,np.pi,3*np.pi/2,2*np.pi]ax=plt.subplot(111,projection='polar')ax.plot(theta,r,color='r',linewidth=...

2020-05-07 14:56:34 402

原创 python数据可视化分析-matplotlib. 注释,文字,tex公式,工具栏,区域填充,形状,样式-美化

https://matplotlib.org/api/index.html#usage-patterns1、注释import matplotlib.pyplot as pltimport numpy as npx=np.arange(-10,11,1)y=x*xplt.plot(x,y)--xy是箭头坐标,xytext是这行字首字母坐标,facecolor是箭头颜色,frac箭头占长...

2020-05-06 10:59:40 473

原创 python数据可视化分析-matplotlib 颜色和样式,面向对象,子图,多图,网格,图例,坐标轴范围,坐标轴刻度,添加坐标轴

1、颜色和样式● 八种内建默认颜色缩写:b-blue,g-green,r-red,c-cyan,m-magenta,y-yellow,k-black,w-white● 其他颜色表示方式:灰色阴影,html 十六进制,RGB元组import numpy as npimport matplotlib.pyplot as plty=np.arange(1,5)plt.plot(y,color...

2020-05-05 19:56:46 625

原创 python数据可视化分析-matplotlib 课程介绍与环境搭建,numpy简介,散点图,折线图,条形图,直方图,饼状图,箱形图

1、课程介绍与环境搭建数据分析-进阶技能树:懂基本的统计理论,会简单的数据分析懂得用建模、可视化的方法对数据进行探索和总结(股票k线图)深入相关业务,利用数据分析直接创造价值(如投资策略,个性化推荐)matplotlib:python语言开源项目,旨在为python提供一个数据绘图包。用户在熟悉核心对象之后,可以轻易的定制图像。● 环境搭建操作系统:Windows,linus,OS...

2020-05-03 21:09:27 536

原创 实例:股票数据分析+时间事件日志+pandas课程小结

1、实例股票数据获取股票波动分析年化收益率数据来源:雅虎财经网站股票日历数据下载Date,Open,High,Low,Close,Volume,Adj Close(复权价)#matplotlib inlineimport pandas as pdimport numpy as npimport osimport matplotlib as pltls yahoo-data/...

2020-04-23 09:50:51 494

原创 D7 时间日期+时间重采样+数据可视化

1、时间日期作用:分析金融数据,如股票交易数据;分析服务器日志python里的datatimepandas里的时间序列日期范围:生成日期范围,时间频率时期及算数运算:时期序列,时期的频率转换,季度时间频率,timestamp时间戳和period固定时期互相转换import pandas as pdimport numpy as npfrom datatime import data...

2020-04-20 15:38:22 475

原创 D6 分组运算+聚合运算+数据导入导出

1、分组运算拆分-应用-合并拆分:根据什么进行分组?应用:把每个分组进行什么样的计算?合并:把每个分组的计算结果合并起来import pandas as pdimport numpy as npdf = pd.DataFrame({'key1':['a','a','b','b','a'], 'key2':['one','two','one','...

2020-04-17 20:26:27 233

原创 D5 pandas基础运算+pandas索引

1、pandas基础运算重新索引丢弃部分数据映射函数:apply,applymop排序和排名数据唯一性及成员资格import pandas as pdimport numpy as nps=pd.Series([1,3,5,6,8],Index=list('acefh'))ss.index-- 新增s.reindex(list('abcdefghi'))-- 填充s....

2020-04-16 20:30:55 178

原创 D4 数据分析实例:分析movielens电影数据+pandas核心数据结构

1、数据分析实例:分析movielens电影数据import pandas as pdunames=['user_id','gender','age','occupation','zip']users=pd.read_table('ml_lm/users.dat',sep='::',header=None,name=unames)print len(users)-- 前五条记录user...

2020-04-15 15:10:26 880

原创 D3 pandas快速入门

4、pandas快速入门import pandas as pdimport numpy as nps=pd.Series([1,3,5,np.Na])s=pd.Series([1,3,5,np.NaN,8,4]) NaN=not a numbersdates=pd.date_range(‘20160301’,periods=6)datesdata=pd.DataFrame(np...

2020-04-13 20:34:30 152

原创 D2 Pandas介绍+ipython开发环境搭建+numpy介绍

1、pandas介绍什么是pandas● pandas是python分析结构化数据的工具集。● 基础是numpy:高性能矩阵运算● 图形库是matplotlib:提供数据可视化pandas能做什么● 结构化数据分析2、ipython开发环境搭建python的命令行与ipython命令行的区别● 显示的数据可读性更强● 命令补全● shell命令大部分直接可工作cd,Is,p...

2020-04-11 20:19:00 185

原创 数据科学D1 numpy&pandas用处+安装+numpy基本属性+创建array+基础运算+索引+array合并+array分隔+copy

1、numpy&pandas用处运算速度快numpy基于矩阵运算2、安装3、numpy基本属性–简写为npimport numpy as np–长3高2的矩阵(列表)[[1,2,3],[2,3,4]]–转换为矩阵array=np.array([[1,2,3][2,3,4]])–输出矩阵print(array)–几维数组dim 2print(‘number ...

2020-04-11 15:54:52 149

原创 mysql12 索引的使用+ PHPMyAdmin管理数据库+ SQLyog工具简介

48、索引的使用● 由数据库一列或多列组合而成,其作用是提高对表中数据的查询速度● 优点:可提高数据检索速度● 缺点:创建和维护索引需要耗费时间● 可提高查询速度,减慢写入速度● 分类:普通索引,唯一索引,全文索引,单列索引,多列索引,空间索引● 如何创建:创建表的时候创建索引:CREATE TABLE tbl_name(字段名称 字段类型[完整性约束条件],…,[UNIQ...

2020-04-03 11:07:31 256

原创 mysql11 字符串函数库+日期时间函数+ 条件判断函数和系统函数+ 其他常用函数

44、字符串函数库● CHAR_LENGTH(s) 返回字符串的字符数● LENGTH 返回字符串长度SELECT CHAR_LENGTH(‘啊’),LENGTH(‘啊’); —1,3● CONCAT(S1,S2…) 将字符串合并为一个字符串● CONCAT_WS(X,S1,S2…) 以指定分隔符连接字符串SELECT CONCAT(‘HELLO’,‘WORLD’); —HELLOWO...

2020-04-02 20:19:53 157

原创 mysql10 子查询的形式+正则表达式查询+ mysql中的运算符的使用+ 数学函数库

40、子查询的形式将查询结果写入到数据表:INSERT [INTO] tbl_name [(col_name,…)]SELECT…CREATE TABLE test1(id TINYINT UNSIGNED AUTO_INCREMENT KEY,num TINYINT UNSIGNED);INSERT test1(id,num)SELECT id,score FROM studen...

2020-04-01 22:48:30 203

原创 mysql9 添加删除外键操作+联合查询+子查询

37、添加删除外键操作–删除员工表DROP TABLE employee;CREATE TABLE IF NOT EXISTS employee(id SMALLINT UNSIGNED AUTO_INCREMENT KEY,username VARCHAR(20) NOT NULL UNIQUE,depId TINYINT UNSIGNED,CONSTRAINT emp_fk_de...

2020-03-30 10:57:35 99

原创 Mysql8

35、外连接查询左外连接:LEFT [OUTER] JOIN - 显示左表的全部记录及右表符合连接条件的记录右外连接:RITHT [OUTER] JOIN - 显示右表的全部记录及左表符合连接条件的记录–插入错误的数据INSERT cms_user(username,password,regTime,proId)VALUES(‘TEST2’,‘TEST2’,988776668,20); ...

2020-03-28 22:39:27 96

原创 Mysql7

31、ORDER BY 对查询结果排序–查询按照id降序排列DESC ,默认的是ASC升序SELECT * FROM cms_user ORDER BY id; 升序SELECT * FROM cms_user ORDER BY id ASC; 升序SELECT * FROM cms_user ORDER BY id DESC; 降序–按照年龄升序排列SELECT * FROM ...

2020-03-26 19:37:00 104

原创 Mysql6

查询数据操作DQL24、查询表达式查询记录:SELECT select_expr [,select_expr …][FROM table_references[WHERE 条件][GROUP BY {col_name | positon} [ASC | DESC], … 分组][HAVING 条件 对分组结果进行二次筛选][ORDER BY {col_name | position...

2020-03-25 15:37:18 136

原创 mysql5

19、添加删除主键添加主键:ALTER TABLE tbl_name ADD [CONSTRAINT [symbol]] PRIMARY KEY[index_type](字段名称,…)–添加主键CREATE TABLE IF NOT EXISTS test12(id INT);DESC test12; ----不是主键ALTER TABLE test12 ADD PRIMARYY K...

2020-03-24 00:02:19 105

原创 mysql4

命名数据表–创建用户表CREATE TABLE IF NOT EXISTS user10(id SMALLINT UNSIGNED KEY AUTO_INCREMENT,username VARCHAR(20) NOT NULL UNIQUE,password CHAR(32) NOT NULL,email VARCHAR(50) NOT NULL DEFAULT ‘873245913...

2020-03-23 00:00:30 112

原创 Mysql3

9、测试字符串类型CHAR定长字符串,占用空间大,速度快;VARCHAR变长字符串,占用空间小,速度快;TEXT类型是一种特殊字符串类型,只能保存字符数据,而且不能有默认值;以上3个存储和检索数据的方式都不一样,检索效率:C>V>T–测试CHAR和VARCHARCREATE TABLE IF NOT EXISTS tesxt5(str1 CHAR(5)str2 VARC...

2020-03-21 22:23:46 123

原创 MySQL2

5、mysql中支持的数据类型介绍● 数据表:最重要组成部分之一;存储数据的数据结构;包含特定实体类型的数据;由行row列column构成的二维网络;先有表结构再有数据;至少有一列,可以没有行或多行;名称要求唯一,不包含特殊字符。● 数据类型:整数类型,浮点类型,字符串类型,日期时间类型,二进制类型整数类型–记不住可查帮助手册:TINYINT(有符号:-128=2的7次方~127;无符号:0...

2020-03-19 20:13:32 148

原创 Mysql第一天

1、数据库简介概念:(1)数据库database–存储数据的仓库,按特定规律存储。(2)数据库系统DBS=数据库+数据库管理系统+引用开发工具(3)数据库管理系统database management system DBMS–定义数据,管理和维护数据的软件。(Oracle,DB2,Access···)Mysql:(1)为什么:开放源代码(自由),跨平台,开源免费,功能强大且方便。(...

2020-03-18 22:13:21 201

原创 Python16 JSON+excel数据文件处理

1、JSONimport jsondef json_basic(): data={ ‘’ID’’:1 ’’课程‘’:‘’python精讲‘’, ‘’机构‘’:‘’优品课堂‘’, ’‘单价’‘:98.00 ’‘网址’‘:’‘http://cord.cn’’ } print(‘原始数据’)...

2020-03-02 21:57:06 214

原创 python15虚拟环境配置+csv文件读取

1、虚拟环境配置把主要的环境继承到自身以后,创建一个单独的环境隔离起来。2、csv文件读取文件读写:def txt_writer(): ‘’’’’’写文件‘’‘’‘’ with open(‘data.txt’,’w’.encoding=‘utf-8p)as f: f.write() lines=[ ...

2020-03-01 20:28:29 178

原创 python14装饰器+sublime text

1、装饰器概述:用于管理和增强函数和类行为的代码;提供一种在函数或类定义中插入自动运行代码的机制特点:更明确的语法;更高的代码可维护性;更好的一致性编写:函数基础:将函数赋给变量;将函数作为参数传递;函数嵌套及跨域访问函数定义装饰器类定义装饰器装饰器参数2、sublime text打印中文出不来时:import sysfrom is import TextIOWrappers...

2020-02-29 22:58:32 91

原创 python13 thread+队列+multiprocessing+concurrent.futures

1、thread—同步原语:锁.acqure()获得.release()释放支持上下文操作 with lock:2、队列queue模块:Queue FIFO-.Queue(maxsize=0)构造实例.put(item,block=True,timeout=None)放入数据项.get(block=True,timeout=None)获取数据项.task_done()声明当前队列任...

2020-02-28 23:31:10 159

原创 python12 系统工具os+并发编程thread

1、系统工具os:shell变量:os.environ管理工具: .getcwd()获取当前工作目录.listdir(path)列举目录内容.chdir(path)改变工作目录.getpid()获取当前进程ID.getppid()获取当前父进程ID运行shell命令: .system() Python 脚本中运行shell命令.popen()运行命令并连接输入输出流文件处理:.m...

2020-02-27 22:13:58 149

原创 Python11 正则表达式+系统工具

1、正则表达式(1)概述概念:Regular Expression;一种文本模式,描述在搜索文本时要匹配的一个或多个字符串典型场景:数据验证,文本扫描,文本提取,文本替换,文本分割语法:字面值—普通字符,需转义:\,^,KaTeX parse error: Undefined control sequence: \n at position 52: …匹配:单元,预定义元字符:.除\̲n̲...

2020-02-26 23:45:03 120

原创 python10 对象持久化+字符串

1、对象持久化扁平文件:文本文件pickle:序列化为字符串-.dumps(obj):将对象序列为字符串.loads(s):从字符中反序列化对象序列化对象到文件-.dump(obj,file);.load(file)shelve:.open(‘dbfile’),db[‘key’],len(dB),del db[‘key’]数据库ORM(对象关键映射)2、字符串概述:类型——str...

2020-02-24 20:59:35 114

原创 python9

1、异常处理及测试(1)错误类型语法错误(如缺少标点符号)语义错误(5写成0)逻辑错误(与代码设计有关)(2)异常处理try:有可能出现异常代码except:异常类型 as 实例:捕获特定异常finally:不论是否遇到异常均会执行raise:手动抛出异常else:未遇到异常2、单元测试unittest测试级别:单元测试,集成测试,系统测试,验收测试,回归测试单元测试:对...

2020-02-23 23:14:14 96

原创 Python8 面对对象的特征

面对对象的特征封装,继承,多态—对同一消息,作出不同响应。class Employee:def init(self,department,name,birthdate,salary):self. department = departmentself. name = nameself. birthdate = birthdateself. salary = salarydef gi...

2020-02-22 22:13:10 60

原创 python7包与模块管理+面向对象编程

1、包与模块管理模块:指令:import,from,impotlib(标准库),reload(模块)包:(相当于文件夹)_init_初始化why:代码重用,命名空间,实现数据或服务共享步骤:找到模块文件->编译为字节码->运行模块文件搜索范围:程序主目录->环境变量->标准库->扩展库2、面向对象编程步骤:OOA面向对象分析;OOD面向对象设计;OOP...

2020-02-21 21:00:08 98

原创 python6 函数

1、参数-匹配位置匹配关键字匹配默认值(调用时省略传值)args任意数量参数kwargs多个参数(kw为key word)( 多个参数, 字典表 键=值)({}中间键用冒号隔开,()中间键用=且键值不要引号)2、Lambda表达式定义匿名函数基本格式=lambda参数1,…:函数def hello(name):print(name)可用lambda表示为:f=lambd...

2020-02-20 21:32:48 158

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除