- 博客(38)
- 收藏
- 关注
原创 20/05/31 机器学习---基础算法 (11)
聚类实践层次聚类方法凝聚的层次聚类:AGNES算法一种自底向上的策略,合并原子簇成为越来越大的簇,直到某个终结条件被满足簇间距离的不同定义最小距离——容易形成链状结构最大距离——若存在异常值则不稳定平均距离——平均值average/平方和ward分裂的层次聚类:DIANA算法自顶向下的策略,逐渐细分为越来越小的簇,直到达到了某个终结条件密度聚类方法指导思想:只要样本的密度大于某阈值,组将该样本添加到最近的簇中。优点:可以克服基于距离的算法只能发现类圆形(凸
2020-05-31 23:54:51 126
原创 20/04/06 机器学习---基础算法 (10)
聚类聚类定义:类别内的相似度较大,类别间的数据相似度较小无监督学习相似度度量实际物理点,倾向于使用欧式距离;函数间相似性:用相对熵文本相似性:往往用cos余弦相似度在mu x=mu y=0时,余弦相似度与pearson相似系数是等价的H*距离,alpha取1,即K-L距离,alpha取0,即对(根号p-根号q)积分都可以做距离度量方案,根据实际物理场景选择合适的度量方案...
2020-04-07 01:02:48 132
原创 20/04/04 机器学习---基础算法 (9)
SVM核函数可以使用核函数,将原始输入空间映射到新的特征空间,从而使得原本线性不可分的样本可能在核空间可分。多项式核函数:κ(x1,x2)=(x1⋅x2+c)d\kappa (x_1,x_2)=(x_1\cdot x_2+c)^dκ(x1,x2)=(x1⋅x2+c)d高斯核RBF函数:κ(x1,x2)=exp(−γ⋅∣∣x1−x2∣∣2)\kappa (x_1,x_2)=ex...
2020-04-04 22:49:57 114
原创 20/03/29 机器学习---基础算法 (8)
SVM 支持向量机分类线性可分SVM硬间隔最大化 hard margin maximization硬间隔支持向量机线性支持SVM软间隔最大化 soft margin maximization软间隔支持向量机非线性支持SVM基于上述两个,添加核函数原理$$c越大,过渡带越窄,gamma越大,曲面越大要做什么?离切割面最近样本的距离取最大...
2020-03-29 21:23:25 177
原创 20/03/22 机器学习---基础算法 (7)
提升实践XGBoost使用梯度提升框架的机器学习库将树的生成并行完成,从而提升学习速度一般来说,XGBoost的速度和性能优于sklearn.ensenble.GradientBoostingClassifier类自身的数据结构:DMatrixclass xgboost.DMatrix(data,label=None,missing=None,weight=None,silent...
2020-03-22 23:42:34 92
原创 20/03/21 机器学习---基础算法 (6)
提升提升是个机器学习技术,可以用于回归和分类问题,它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升。提升的理论意义:如果一个问题存在弱分类器,则可以通过提升的方法得到强分类器。...
2020-03-22 01:17:08 149
原创 阶段性代码笔记
机器学习包用法:mean_squared_error计算均方误差from sklearn.metrics import mean_squared_errormse = mean_squared_error(y_test, y_pred)计算准确率(R2)r2 = model.score(x_test, y_test)train_test_split在机器学习中,我们通...
2020-03-17 23:05:15 326
原创 20/03/15 机器学习---基础算法 (5)
决策树与随机森林(续)决策树的评价:对所有叶结点的熵求加权加和,该值越小说明对样本的分类越精确评价函数:C(T)=Σt∈leafNt⋅H(T)C(T)=\Sigma_{t\in leaf}N_t\cdot H(T)C(T)=Σt∈leafNt⋅H(T)由于该评价函数越小越好,所以可以称之为损失函数决策树的过拟合决策树对于训练集有很好的分类能力,但是对于未知的测试数据未必有...
2020-03-15 14:30:28 136
原创 20/03/13 机器学习---基础算法 (4)
决策树和随机森林CART(Classification and Regression Tree)好处:训练速度快,可以集成形成更优的决策树信息熵离散随机变量的熵H(P)=−Σi=1nPilnPiH(P)=-\Sigma_{i=1}^nP_ilnP_iH(P)=−Σi=1nPilnPi(一定是正数 )连续随机变量的熵H(P)=−∫f(x)lnxdxH(P)=-\int f(x)l...
2020-03-13 21:20:40 116
原创 20/03/08 机器学习---基础算法 (3)
回归(续)决定系数 Coefficient of DeterminationMSE(均方误差)=1mΣi=1m(yi−y^)2MSE(均方误差)=\frac 1 m\Sigma_{i=1}^m(y_i-\hat y)^2MSE(均方误差)=m1Σi=1m(yi−y^)2RMSE(标准误差)=MSERMSE(标准误差)=\sqrt {MSE}RMSE(标准误差)=MSER2=1...
2020-03-08 22:03:28 161
原创 20/03/07 机器学习---基础算法 (2)
回归线性回归使用极大似然估计解释最小二乘y(i)=θTx(i)+ε(i)y^{(i)}=\theta^Tx^{(i)}+\varepsilon^{(i)}y(i)=θTx(i)+ε(i)误差ε(i)\varepsilon^{(i)}ε(i)是独立同分布的,服从均值为0,方差为某定值σ2\sigma^2σ2的高斯分布【中心极限定理】将ε\varepsilonε替换为y,x,θy,x,...
2020-03-07 23:52:43 181
原创 20/03/04 机器学习---基础算法 (1)
数据清洗与特征选择赔率下注金额 ,不论输赢,下注金都给庄家设x,y两种情况,x赢的赔率为2,y赢赔率为3假设下注10元压x赢若结果是x赢,一共20元,扣除本金10元得到10元若结果是y赢,赔去本金10元实际问题中,庄家往往会用公平赔率某小于1 的系数α\alphaα了解Fuzzywuzzy包-Levenshtein distance:计算字符串之间的编辑距离,用于模糊...
2020-03-04 23:45:38 97
原创 20/03/04 机器学习---导论 (2)
机器学习关于数据集的概念什么样的数据集数据集的行:记录(关系型数据库)数据集的行:样本或实例(机器学习)数据集的列:字段(关系型数据库)数据集的列:特征、属性(机器学习)=>特殊的列:类别标签=>特征或属性空间:由特征张成的维=>特征或属性向量:组成特征或属性特征的样本点(行)=>特征或属性值:组成特征向量中的值将数据集切分,训练集:测试集 =6:4...
2020-03-04 16:48:36 171
原创 20/03/01 机器学习---导论 (1)
大数据时代究竟改变了什么改变的是思维方式数据重要性:数据资源 > 数据资产(增值)方法论:基于知识的理论完美注意 > 基于数据的历史经验主义数据分析统计学(抽样)> 数据科学(大数据)数据科学家(大数据+算法+更加丰富的业务知识)计算智能复杂算法>简单算法(MaoReduce)决策方面基于目标决策 > 基于数...
2020-03-01 21:44:16 191
原创 20/02/27 机器学习---数学基础加强 (3)
矩阵和线性代数矩阵线性代数行列式伴随矩阵方阵的逆 $A\cdot A^*=|A|\cdot I $范德蒙行列式矩阵的乘法/状态转移矩阵随机过程,转移概率矩阵 全概率公式与矩阵乘法的关系矩阵和向量组特征值和特征向量对称阵、正交阵、正定阵实对称阵不同特征值的特征向量正交数据白化正交基QR分解/LFM矩阵求导向量对向量求导标量对向量求导标量对...
2020-02-27 22:24:23 245
原创 20/02/24 机器学习---数学基础加强 (2)
概率论与贝叶斯先验概率论基础概率与直观本福特定律:在实际生活得出的一组数据中,以1为首位数字出现的概率约为总数的三成条件概览P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)} {P(B)}P(A∣B)=P(B)P(AB)全概率公式P(A)=ΣiP(A∣Bi)P(Bi)P(A)=\Sigma_iP(A|B_i)P(B_i)P(A)=ΣiP(A∣Bi)P...
2020-02-25 00:39:57 132
原创 20/02/23 机器学习---数学基础加强 (1)
机器学习与数学分析什么是机器学习?使用计算机设计一个系统,使他能够根据提供的训练数据按照一定的方式来学习;随着训练次数的增加,该系统可以在性能上不断学习和改进,通过参数优化的学习模型,能够用于预测相关问题的输出。v.s.专家系统(非ML):罗列一个数据库,当看到实际场景时就调用数据库中的一个规则,利用该规则来进行相应的决策(eg 深蓝)有监督学习(有Y标签) f(x,θ) ~y无...
2020-02-23 18:53:30 136
原创 20/02/13 数据科学包学习 (6)
Matplotlib实战项目part2球员能力图#_*_ coding:utf-8 _*_import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesplt.style.use('ggplot')font=FontProperties(fn...
2020-02-13 19:32:26 89
原创 20/02/12 数据科学包学习 (5)
matplotlib带箭头注释plt.annotate(‘注释文字’,xy=(0,1),xytext=(0,20),arrowprops=dict(facecolor=‘r’,frac=0.2,headwidth=20,width=15))纯文字标注plt.text(0,40,‘注释文字’,family=‘字体名’,size=,color=,bbox=dict(facecolor=‘r’...
2020-02-12 19:46:58 127
原创 20/02/11 数据科学包学习 (4)
Matplotlib基本图形画法import matplotlib.pyplot as plt散点图 plt.scatter(x,y)外观调整颜色:c点大小:s透明度:alpha点形状:marker折线图 plt.plot(x,y)适合表现数据随着时间变化的表现# 数据处理:import matplotlib.dates as mdatesdate,open...
2020-02-11 19:55:21 113
原创 20/02/10 数据科学包学习 (3)
Pandas索引重复索引df.index.is_unique() 查看是否有重复的索引df.index.unique() 返回唯一索引列表s.groupby(s.index).sum() 对重复索引的处理(如sum求和,first取第一项,mean求均值)多重索引a=[['a','a','b','b','c'],[1,1,2,3,4]]t=list(zip(*...
2020-02-10 16:35:19 254
原创 20/02/08 数据科学包学习 (2)
Pandaspython里分析结构化数据的工具集基础是numpy:高效能矩阵运算图形库matplotlib:提供数据可视化
2020-02-08 21:12:18 142
原创 20/02/06 数据科学包学习 (1)
numpyimport numpy as nparray=np.array([[1,2,3], [4,5,6]])print(array)print('num of dim:',array.ndim) #返回维度print('shape:',array.shape) #返回行数列数print('size:',array.size) #返回总元素数定义矩阵的方...
2020-02-07 00:26:33 71
原创 20/02/01 Python基础知识学习(14)
SQLite[软件↓]SQLite expert professional动态类型NULLINTEGERREALTEXTBLOB简单SQL语句:选择语句SELECT * FROM 表名插入一行数据INSERT INTO 表名 (列1,列2,…)values (‘值1’,‘值2’,…); #列值一一对应,值只能用单引号包括更新语句UPDATE 表名 SET ...
2020-02-02 01:12:48 91
原创 20/01/30 Python基础知识学习(13)
数据文件读取处理CSV 文件读取处理csv基本读取读取csv并用nametuple映射列名读取csv到字典表import csvfrom collections import nametuple #为表头定义建议类名def csv_read(): """csv基本读取""" with open ('product.csv',encoding='utf-8...
2020-01-31 00:45:02 114
原创 20/01/29 Python基础知识学习(12.2)
装饰器概述用于管理和增强函数和类行为的代码提供一种在函数或类定义中插入自动运行代码的机制特点更明确的语法更高的代码可维护性更好的一致性编写函数基础将函数赋给变量将函数作为参数传递函数嵌套及跨域访问函数定义装饰器 (可以用于脚本里的普通函数上,也可以用于类定义方法)def p_decorator(func): def wrapper(*args,**k...
2020-01-29 21:36:57 73
原创 20/01/28 Python基础知识学习(12.1)
并发编程概述非并发程序由单个步骤序列构成包含独立子任务的程序执行性能低并发异步、高效分解子任务、简化流程与逻辑进程 process一个程序的执行实例每个进程有自己的地址空间、内存、数据栈及辅助数据线程 thread同一进程内可被并行激活的控制流共享相同上下文(空间地址、数据结构)特点:便于信息共享和通信;线程访问顺序差异会导致结果不一致(条件 race condi...
2020-01-28 22:17:30 91
原创 20/01/27 Python基础知识学习(11)
正则表达式概述概念Regular Expression,是一种文本模式,描述了在搜索文本时要匹配的一个或多个字符串典型场景数据验证/文本扫描/文本提取/文本替换/文本分割语法字面值普通字符需转义\ ^ $ . | ? * + () [] {}元字符匹配单字,预定义元字符. 除\n 外的所有字符\d 数字,等同[0-9]\D 非数字,等同[...
2020-01-27 23:29:46 80
原创 20/01/26 Python基础知识学习(10)
对象持久化应用场景序列化与反序列化:将当前正在计算的某个数据结果、进度或状态存储到某些物理没接上;未来在某一特定情境下将存储的数据还原到内存里去。技术扁平文件文本文件scores=[99,88,77,66]def write_score(): with open('datalist.txt','w',ecoding='utf8') as f: f.write(strin...
2020-01-26 21:57:58 686
原创 20/01/21 Python基础知识学习(9)
错误异常处理错误类型语法错误 syntaxerror语义错误逻辑错误try:尝试有可能会出现异常的代码except:捕获异常,可以如如下多个分开罗列except ZeroDivisionError as e: # 不能除零print(e)except AttributeError as e: # 属性异常print(e)else:没有异常...
2020-01-21 23:44:51 94
原创 20/01/20 Python基础知识学习(8)
面向对象编程OOP静态函数与实例无关:def func(无需self):计数-类的计数,与实例无关class Book: count = 0 def __init__(self, a, b): self.a=a self.b=b return计数-实例自身的计数class Book: count = 0 def __init__(self, a, ...
2020-01-20 22:28:42 76
原创 20/01/18 Python基础知识学习(7)
包与模块管理使用目的代码重用命名空间实现数据共享模块指令importfromfrom 模块名 import 功能名 as 新命名导入后想修改或使用最新的功能:import importlibimportlib.reload(模块)步骤找到模块文件编译为字节码运行模块文件搜索范围程序主目录环境变量标准库扩展库包init 只在被...
2020-01-18 22:34:28 62
原创 20/01/17 Python基础知识学习(6)
函数参数匹配位置匹配关键字匹配默认值(调用时省略传值) >定义时赋值*args 任意数量参数 **kwargs传递一个字典表def avg(*scores): return sum(scores)/len(scores)results=avg(1,2,3,4)print(results)同理调用时,如果直接引用一个list /dict, 使用...
2020-01-17 21:55:36 72
原创 20/01/16 Python基础知识学习(5)
迭代迭代协议可支持迭代协议都可以使用遍历or循环的语句。原理是其内部有一个 next()方法可以移动指针获取下一个元素。迭代工具for…推导… (用C层面的原理来完成,效率相对最高)e.g. [x for x in list if …]map…迭代器对象已经实现(文件)可迭代对象iter() ->__iter__用于生成迭代器(list)是否已经使用迭代器测试代码...
2020-01-16 22:13:21 64
原创 20/01/14 Python基础知识学习(4)
语句与表达式代码格式指南PEP8缩进4空格一行不超过79个字符Func之间空2行赋值语句基本赋值序列赋值扩展序列解包赋值*变量 可获取剩余变量到list(不论多或少或正好都生成列表)一个表达式只能有一个变量带 *a,b,*c='youpin'a'y'b'o'c['u','p','i','n']多目标赋值参数化赋值a+=b ->...
2020-01-14 21:10:48 116
原创 20/01/13 Python基础知识学习(3)
字典表与元组字典表 Dict声明d={‘键’:‘值’,‘键’:‘值’,…}d.get(‘键’,默认值)hash算法导致内部元素位置随机操作合并多个字典表Orig_dict.update(add_dict)弹出元素d.pop()属性d.keys() 字典表里所有的键 不是列表d.values() 字典表里所有的值d.items() 字典表里所有元素...
2020-01-13 22:16:11 62
原创 20/01/12 Python基础知识学习(2)
数值与字符串上节核心数据类型举例讲解()元组[ ]list{}字典表d={‘键’:‘值’,‘键’:‘值’}d.get(‘键’)列表与元组的区别:列表支持原位修改,但是元组不可数值显示:修正格式,传递到制定位置,以浮点型保留两位小数‘f={0:.2f}’.format(f)比较:返回布尔型结果(True/False)><>=<==...
2020-01-12 17:49:52 80
原创 20/01/11 Python基础知识学习(1)
Python运行逻辑:理念:程序是由算法+数据结构组成,先有合适的机构表现关心的数据,再选择合适的算法来决定如何处理对象。语句:print(' ') / print(" ") 打印字符串type() 检测变量类型id() 存储位置sys.getrefcount( ) 统计对象被引用次数 [需要导入系统模块import sys]math.sqrt...
2020-01-11 20:33:15 66
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人