Toooooopia-CSDN博客

原创 excel数据分析-常用函数

文章目录日期求和系列sumsumifsumifssubtotalbtw：一个小tip，excel跨sheet操作时，可使用视图的新建窗口，生成第二个sheet窗口。日期每个月的第一天：=date(year(日期),month(日期),1)每个月的最后一天：=date(year(日期),month(日期)+1,1)-1求和系列sum=sum(x1,y3) 两个数值求和=sum(x:x) 一列数值求和=sum(a1:b3) 区域求和=sum(a1:b3,f3:h7) 多区域求和su

2021-12-22 18:28:28 436

原创 MySQL入门-基本命令（查询&常见函数)

文章目录MySQL服务启动SQL分类SQLyog使用常见命令语句DQL语言——查询基础查询重命名、函数运算等基础操作去重查询、拼接字段条件查询条件表达式筛选逻辑表达式筛选模糊查询安全等于<=>排序查询按表达式排序按函数排序多排序条件常见函数分组函数分组查询连接查询子查询分页查询union联合查询MySQL服务启动计算机管理–服务和应用程序–服务–MySQL_xxx–双击点击启动/关闭（手动/自动可设置更换）cmd–管理员身份运行–输入net start mysql_xxx / net s

2021-12-14 14:09:25 1993

原创 Python应用-拼接excel中各sheet（拯救论文海量excel数据）

因为毕业论文，被逼的又捡起我心爱的python。数据量太大，总是CTRL C 和CTRL V 搞错，一般人心态也遭不住，只能靠不出错的计算机。文章目录

2021-12-09 17:28:10 1379

原创机器学习-总结笔记-集成学习-Bagging/Boosting/Stacking

作业大概是学生时代激发自主学习的最好动力，但商科人啃ML真是要哭了T_T。也是实在看公式费力的很，基于自己易理解的角度，能文字表述的都转文字表述了（商科人的无奈）。文章目录集成学习Boosting——‘串行’AdaBoostXGBoostBagging——‘并行’随机森林 Random ForestStacking集成学习我理解的集成学习就好比是“三个臭皮匠赛过诸葛亮”。利用多个学习器使得最终精度越来越高。Boosting——‘串行’思路：根据数据集训练1st 学习器1st 学习器分类错误的

2021-06-14 17:30:10 283

原创机器学习-总结笔记-基本术语&模型评估与选择

自学西瓜书总结笔记，间断补充学校课程。文章目录常用基础术语模型评估与选择评估方法常用基础术语数据集data set示例instance / 样本sample属性attribute / 特征feature属性值 attribute value属性空间attribute space / 样本空间sample space / 输入空间训练集 / 训练样本 / 训练数据 / 测试集 / 测试样本 / 测试数据模型 / 学习器假设 hypothesis：习得模型对应了关于数据的某种潜在的规律预

2021-06-14 15:25:18 330

原创机器学习-总结笔记-决策树-代码实现

1）导入包和数据（来自sklearn）%matplotlib inline # 如果不是jupyter notebook 可无视import matplotlib.pyplot as pltimport pandas as pdfrom sklearn.datasets.california_housing import fetch_california_housing2）查看数据描述housing = fetch_california_housing()print(housing.DE

2021-06-10 22:58:52 661 3

原创机器学习-总结笔记-决策树-ID3/C4.5/CART

鉴于这个机器学习在课上就没咋听明白过，自己慢慢啃吧。。。内容来自西瓜书和学校课件。文章目录决策树概述信息增益&信息熵信息熵信息增益基尼指数 Gini index剪枝处理 pruning预剪枝 prepruning后剪枝 postpruning连续值和缺失值连续值缺失值多变量决策树ID3决策树C4.5算法CART决策树概述可以处理分类问题也可以处理回归问题；分类问题看比例、回归问题看均值。目的是找到泛化能力强即处理未见示例能力强的模型。信息增益&信息熵信息熵信息熵：公式：−

2021-06-10 14:52:35 235

原创 Python-总结笔记-数据可视化应用-Seaborn

文章目录风格及边框等格式设置坐标轴操作画图元素的比例大小颜色设置分类色板圆形画板亮度和饱和度连续色板sns.color_palette()sns.light_palette()sns.dark_palette()圆板连续调色分布图频数直方图及其正态分布线频数直方图及其拟合线相关关系图散点图蜂窝图回归图分类图分类散点图`sns.stripplot()`分类密度散点图`sns.swarmplot()`分类盒图分类小提琴图分类条形图分类点图热力图`sns.heatmap()`首先还是要导入库：import n

2021-05-12 18:11:44 520

原创 Python-金融应用-Numpy复杂矩阵构建及求解-以投资组合理论二次规划为例

这几天又翻出来投资组合理论来看，其中的二次规划就是利用python进行矩阵求解，以下就用二次规划示例。文章目录矩阵构建协方差矩阵 ∑单位列向量 e / e`N种资产收益率期望值构成的列向量 R`拼合操作step1: 矩阵第一行 ∑ e Rstep2: 矩阵各行拼接矩阵求解矩阵构建根据理论，我们希望构建出下图一般的矩阵式，其中w*则是我们的求解目标。这里用四种股票的收益率作为示例。我们依次来看：协方差矩阵 ∑首先先看一下，资产之间的协方差print(test.cov())#

2021-05-11 08:08:35 764

原创 MySQL-总结笔记-基础操作-查询、去重、拼接

这里都用str_1代表字段、表达式、特征值，用table_1代表表。MySQL基于文章目录基础查询查询表中单个字段查询表中多个字段查询表中全部字段查询常量值查询表达式条件查询筛选条件方式简单运算符逻辑运算符模糊查询通配符条件查询示例算术运算符示例逻辑运算符示例模糊查询示例排序查询定义新名字去重拼接注释基础查询查询表中单个字段select str_name from table_1;查询表中多个字段select str_name1,str_name2 from table_1;查询表中全部字

2021-05-05 15:12:22 580

原创 Python-数据分析-常用检验-2-相关系数检验

import scipy.stats as statsimport pandas as pd采用stats.pearsonr(,)输出：r：相关系数 [-1，1]之间，p-value: p值。注： p值越小，表示相关系数越显著，一般p值在500个样本以上时有较高的可靠性。# way onestats.pearsonr(data1,data2)# way twodf.corr(method=) # 可选'pearson'（常见）, 'kendall', 'spearman'

2021-05-03 22:14:05 1111

原创 Python-总结笔记-数据可视化应用-Matplotlib-3D图

这个神仙我一直觉得不咋好看，但有些时候又好用的要命。老规矩先导入哈import matplotlib.pyplot as pltimport numpy as npfrom mpl_toolkits.mplot3d import Axes3D#用于画3D的图文章目录建个3D空间3D-surface图3D-线图3D-散点图3D-条形图建个3D空间fig = plt.figure()ax = fig.add_subplot(111, projection='3d')plt.show()

2021-05-03 13:59:42 491

原创 Python-金融应用-获取股票年度收益率

作业中要求获取某两只股票从上市到2019年的年度收益率，就随手贴过来~import tushare as tsimport pandas as pd# step1:获得全部数据pd.set_option('max_column', None)pro = ts.pro_api('my token') # 注册后系统自动生成tokenbank_data = pro.daily(ts_code='600048.SH') # ts_code = 填股票代码bank_data = bank_dat

2021-05-02 13:19:34 1075

原创 Python-总结笔记-数据可视化应用-Matplotlib

文章目录基本操作设置画布设置子图坐标轴操作坐标轴标题坐标轴范围坐标轴刻度设置汉字和负数调整刻度、边框位置图像细节操作（颜色，形状，网格线，图例等）保存图像老规矩，首先import：import matplotlib.pyplot as pltimport matplotlibimport numpy as np基本操作设置画布figsize为画布尺寸，dpi为像素。plt.figure(figsize=(,),dpi=)设置子图# 两种方法：坐标轴操作坐标轴标题坐标轴范围

2021-04-27 12:22:59 422

原创 Python-总结笔记-数据可视化应用-Matplotlib-条形图bar/barh

本来想把Matplotlib的常见图汇总成一篇，结果发现篇幅太长，还是把每一部分单独成篇叭~文章目录条形图基础操作在条形图中添加参考线将不同特征的bar设置成不同颜色将两组条形图合并以实现对比簇状条形图条形图后加标签colormap功能条形图花式填充上述条形图代码及图像汇总条形图基础操作bar为纵向条形图；barh为横向条形图下述代码列举了笔者常用参数；依次为：条形颜色，误差棒设置，透明度，条形宽度，条形标签，条形边框颜色，条形边框线宽plt.bar(x,y,color='',yerr=,al

2021-04-27 12:19:38 2343 2

原创 Python-数据分析-常用检验-1-正态分布检验

一直对各种检验稀里糊涂的，借着Python把一些常用的数据分析或者论文建模使用的检验方法总结一哈。文章目录正态分布 Normal distribution正态分布相关数据构造正态分布相关图像绘制正态分布概率密度函数图像绘制正态分布累计概率密度函数图像绘制正态分布检验直方图初略判断Shapiro-Wilk test检验kstest 检验normaltest 检验Anderson-Darling 检验对数正态分布正态分布 Normal distribution我导师说得好，大家都喜欢的男孩子叫正太，大家都

2021-04-16 17:49:48 2532

原创 Python-总结笔记-Pandas应用中时间操作Datetime

文章目录Datetimedatetime类timedelta类Pandas中的时间序列数据处理在处理数据（比如处理一天内股价变动情况）时经常会遇到很多时间序列数据，在使用Pandas导入时间序列数据时，若用字符串的方式处置时间极为不便，故此引入datetime处理时间数据。在介绍Pandas处理时间数据之前，首先介绍以下常用的Datetime。Datetimeimport datetimeimport timedatetime类不是很难，直接贴代码啦。dt1 = datetime.date

2021-04-12 12:48:24 920

原创 Python-总结笔记-Pandas使用

文章目录Pandas 的数据结构以下为本人自学(练习案例和阅读参考书《利用Python进行数据分析》)关于Pandas的用法总结笔记：Pandas 的数据结构

2021-03-31 17:29:51 182

原创机器学习-总结笔记-贝叶斯学习

本文为自学西瓜书和学校课堂整理笔记。文章目录导论贝叶斯学习贝叶斯学习方法特性贝叶斯学习方法困难贝叶斯法则贝叶斯判定准则先验概率 & 后验概率 & 似然度贝叶斯公式极大后验假设 MAP假定可推出极大似然估计 Maximum Likelihood Estimation，MLE贝叶斯推理举例朴素贝叶斯分类器朴素贝叶斯分类器评价导论贝叶斯学习贝叶斯学习方法特性观察到的每个训练样例可以增量地降低或升高某假设的估计概率。先验知识可以与观察数据一起决定假设的最终概率。可允许假设做出不确定

2021-03-29 14:45:41 572

原创 Python-总结笔记-Numpy使用

以下为本人自学(练习案例和阅读参考书《利用Python进行数据分析》)在学校课程中关于Numpy的用法总结笔记：文章目录创建ndarray：ndarray运算numpy.linalg运算ndarray数组结构/大小/维度查询&数据类型查询转换&数组形状转换：数组连接ndarray索引与切片条件查询：np.where()数组集合运算ndarray数据赋值保存&读取数组创建ndarray：array= np.array(data)array.fill(0)np.linspac

2021-03-24 14:29:42 902 7

原创 Python-金融应用-tushare使用公开股票交易数据

在收集股票公开交易数据时了解到了tushare。具体操作步骤可参见tushare大数据社区官网。https://tushare.pro/register?reg=423410pro = ts.pro_api('your token') # 注册后系统自动生成tokenbank_data = pro.daily(ts_code=code, start_date='20140101', end_date='20141231')bank_data = bank_data.sort_values(by='

2021-02-24 11:37:48 262

weixin_52329576的博客