自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据分析成长之路

记录数据分析学习过程

  • 博客(100)
  • 资源 (3)
  • 问答 (13)
  • 收藏
  • 关注

原创 【帮助理解】算法原理可视化

1. PCA等原理实时动态可视化2. K-means等聚类算法原理可视化

2021-06-04 15:29:28 187

原创 【相关系数热力图】相关系数矩阵可视化代码模版

import numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# 计算数值型变量间的相关性corr = DF.corr()# 相关性可视化plt.figure(figsize = (15,15))mask = np.zeros_like(corr)mask[np.triu_indices_from(mask)] = True # mask参数用来设置阶梯图sns.heatmap(corr,annot=True

2021-06-04 15:14:34 752

原创 数据的变量类型及其之间的关系

怎么理解【分类变量,顺序变量,数值型变量】和【定类变量,定序变量,定距变量,定比变量】和【离散变量,连续变量】之间的关系?变量划分划分依据备注定类/定序/定距/定比根据数据测量的尺度或者说是数据的作用而划分出来的如定类数据就是指该数据是以“类别”作为测量尺度,是用来为数据分类的分类/顺序/数值根据数据属性而划分出来的也有将顺序变量归为类别变量的离散/连续数值型变量的数字特征是对数值型变量的进一步划分...

2021-06-03 18:58:42 1968

原创 【代码模版】matplotlib多子图绘制

import matplotlibimport matplotlib.pyplot as plt%matplotlib inlinefig = plt.figure(figsize=(20,5))fig.suptitle('父图名称')# 画第一个图ax = fig.add_subplot(221) # 2行2列图的第一个图ax.hist(df['column_name']) # 此处可以更改图类型ax.title.set_text('子图名称')# 画第二个图,查看性别比例ax

2021-06-03 16:46:07 199

原创 【代码模版】数据中numeric类数据分布情况可视化

import seaborn as snsfrom matplotlib import pyplot as pltdata_columns = ["column_name1",..., "column_namen"]for column in data_columns: g = sns.kdeplot(ori_data[column], color="Blue", shade = True) g.set_xlabel(column) g.set_yla

2021-06-01 09:46:35 101

原创 【Vlookup】根据一列匹配多列公式

=vlookup($A1,Table,column()-x,0)第一个参数:只固定列号,意为按照某一列进行数据匹配;第二个参数:正常框选要匹配数据的数据表;第三个参数:函数column()能返回当前列的列号(A列为1,以此类推),column()-x用来确定要匹配数据的列数,并且可以随当前列号的变化相应变化。第四个参数:0指精确匹配。...

2021-04-17 15:57:46 3862

原创 对整表文本使用clean()函数

Sub Text_Clean()Dim arr, i, j, m, n, sh As WorksheetFor Each sh In Worksheets arr = sh.UsedRange m = UBound(arr) n = UBound(arr, 2) For i = 1 To m For j = 1 To n arr(i, j) = Application.Clean(arr(i, j)) Next

2021-04-09 16:13:08 770

原创 将一个工作簿的多表按表名保存为多个文件

Sub 分拆工作表()Dim sht As WorksheetDim MyBook As WorkbookSet MyBook = ActiveWorkbookFor Each sht In MyBook.Sheetssht.CopyActiveWorkbook.SaveAs Filename:=MyBook.Path & “” & sht.Name, FileFormat:=xlNormal '将工作簿另存为EXCEL默认格式ActiveWorkbook.CloseNext

2021-03-25 14:01:02 517

原创 将总表按某列拆分成多个表

Sub NewSheets()Dim d As Object, sht As Worksheet, arr, brr, r, kr, i&, j&, k&, x&Dim Rng As Range, Rg As Range, tRow&, tCol&, aCol&, pd&Application.ScreenUpdating = FalseApplication.DisplayAlerts = FalseSet d = CreateOb

2021-03-18 15:48:23 1684

原创 【列名重命名】变量列名重命名

DF = DF.rename(columns={'column_old_name':'column_new_name'})

2020-12-09 12:04:30 1004

原创 【按列合并】DF,csv,按某列合并,pandas

import pandas as pddf1 = pd.read_csv('path') # 读取第一个文件df2 = pd.read_csv('path') # 读取第二个文件outfile = pd.merge(df1, df2, left_on='column_name', right_on='column_name') # 文件合并,left_on=左侧DataFrame中的列;right_on=右侧DataFrame中的列...

2020-12-09 12:03:04 1815

原创 【DF两列时间相减】

# 两日期相减DF['day_diff'] = pd.to_datetime(DF['date1'])-pd.to_datetime(DF['date2'])# 对相减后的间隔天数day_diff列去除尾部的“days”,精度到日DF['day_diff'] = DF['day_diff'].map(lambda x: x/np.timedelta64(1,'D'))

2020-11-26 19:34:54 1165

原创 【对DF加入统一的时间列】

# 加入日期的字符串格式DF['date_time'] = 'xxxx-xx-xx'# 将加入的日期的字符串格式化为时间格式DF['date_time']=DF['date_time'].astype('datetime64')

2020-11-26 19:32:12 782

原创 【对DF中字符串列的字符串长度进行计算】

DF['content_len'] = DF['column_name'].str.len()DF

2020-11-26 19:29:50 1095

原创 【按照某列的值对DF数据行的索引进行筛选并删除】

DF[DF['column_name'] == value]del_index = DF[DF['column_name'] == value].indexDF1 = DF.drop(del_index)DF1

2020-11-26 19:28:04 2525

原创 【Tableau】维度,度量,胶囊,蓝色,绿色

参考资料:https://help.tableau.com/current/pro/desktop/zh-cn/datafields_typesandroles.htm类型与角色当数据表进入Tableau时,Tableau会自动为数据表中每列分配类型与角色1. 类型离散型、连续型2. 角色维度:可以理解为定类数据,维度影响视图中的详细级别度量:可以理解为定量数据,默认情况下,拖拽度量角色数据时,Tableau会对度量进行聚合(求和等)3. 分配离散维度,连续度量(最为常见)离散度量,.

2020-11-26 14:47:47 1965

原创 【回归模型中两变量相乘】交互作用,调节作用

在一些回归模型中,我们常看到回归方程中有两个变量以相乘的形式出现,如:yprice=β0+β1producttype+β2productbrand+β3producttype∗productbrand+μ(1)y_{price}=\beta_0+\beta_1producttype+\beta_2productbrand+\beta_3producttype*productbrand+\mu(1)yprice​=β0​+β1​producttype+β2​productbrand+β3​productt.

2020-11-09 18:07:10 11632

原创 【异方差】定义与检验

1. 定义被解释变量观测值的分散程度(方差)随着解释变量的变化而变化(异)2. 检验异方差问题检验,每次只检验一个解释变量小样本用t检验,大样本用F检验检验值>查表值,存在异方差...

2020-11-06 13:00:10 2672

原创 【x与y的非线性关系】回归,自变量,自变量的平方项,自变量的二次项

参考资料:连享会《平方项 = 倒U型 ?》(文章链接)该文章为自学总结,大佬请忽视1. 什么情况下要研究x与y的非线性关系?假设我们要研究:喝水越多身体越健康吗?在这里,喝水量为自变量,身体健康度(假设有该指标)为因变量。常识告诉我们,适当喝水有益于身体健康,但是一旦饮水过度,反而会导致水中毒,损害身体健康。所以,喝水量(x)对身体健康度(y)的影响并不是线性的,而是呈倒“U”状:随着x的增加,y先增加后减少。综上,便是我们为什么在一些回归模型中看到某个自变量xxx和x2x^2x2同时出.

2020-11-05 20:42:26 9257 1

原创 【markdown】改变字体颜色mod

<font color=red>此处字体显示为红色</font>

2020-11-05 20:07:09 158

原创 【对csv某列进行清洗,只保留中文】基于正则的mod

DF['column_name'] = DF['column_name'].str.replace(r'[^\u4e00-\u9fa5]', '') # 对csv某列数据进行清洗,只保留中文

2020-10-21 17:38:41 641 1

原创 【对csv某列进行清洗,只保留数字】基于正则的mod

DF['column_name'] = DF['column_name'].str.replace(r'[^0-9]', '') # 对csv某列数据进行清洗,只保留数字

2020-10-21 17:37:17 1249 1

原创 【代码模版】数据去重(含多文件批量去重)

# 数据去重基本版# 查看重复情况print("数据重复值:", DF1.duplicated().sum())# 数据去重,并查看去重后的shapeDF2 = DF1.drop_duplicates()print("数据去重后的DF_shape:", DF2.shape)# 数据去重后原索引缺失,需重构索引【注意】DF2.index = range(DF2.shape[0])print("数据索引重构结果:", DF2.index) # 查看重构后索引是否完善遍历某个文件夹下的每个

2020-10-07 13:26:18 932

原创 【不再显示warning】warnings.filterwarnings.mod

import warningswarnings.filterwarnings("ignore")

2020-10-07 12:14:54 727

原创 【Pandas处理CSV】读取CSV时出现Unnamed:0列

保存原CSV时避免该问题的方法:DF.to_csv(filepath, index=False)读取CSV时避免该问题的方法:DF = pd.read_csv(filepath, index_col=0)

2020-06-19 15:51:25 3393

原创 【astype数据类型更改】Pandas更改csv某列数据类型

# 改变DF某列数据的数据类型DF[['column_name']] = DF[['column_name']].astype(float) # astype内的不用加引号# 两个DF按行合并(上下拼接)new_DF = pd.concat([DF1,DF2],axis=0)

2020-06-19 15:46:38 1984

原创 【Pandas处理CSV】Error tokenizing data. C error: EOF inside string starting at line X

解决方法:import pandas as pdimport csvdf = pd.read_csv(filepath, quoting=csv.QUOTE_NONE)

2020-06-19 15:38:45 5725 3

原创 【Pandas处理CSV】Error tokenizing data. C error: Expected 1 fields in line XX, saw XX

报错原因:CSV的分隔符设置异常。解决:pd.read_csv(filepath, delimiter="\t")# 或pd.read_csv(filepath, sep="\t")

2020-06-19 15:34:50 3744

原创 对比分析法(Comparative Analysis Approach)

1. 对比分析的概念对比分析法是指基于相同的数据标准下,把两个及以上相互联系的指标数据进行比较,准确、量化地分析他们的差异(对比方规模的大小、水平的高低、速度的快慢、对比方是否协调等),目的是为了找到差异产生的原因,从而找到优化的方法。2. 对比分析比什么绝对数:如销售金额、文章阅读量等本身具备价值的数字相对数:结构相对数:同一个总体内,部分与整体之比(食品支出占总支出的比重)比例相对数:同一个总体内,部分与部分之比(总人口中男性与女性之比)比较相对数:不同空间,相同性质对象之比(不

2020-06-16 16:38:19 10599

原创 【BERT】学习笔记之BERT理论部分

1. 初识BERTBERT是Google开发的自然语言处理开源框架,是自然语言处通用的解决方案(所谓通用,就是可以基于BERT框架,做些微调,便可应用于多种NLP问题)。2. word2vec的局限性(为什么引入BERT)基于word2vec训练好的词向量不会再改变,也就是说,若某个单词位于不同上下文语境中,该单词的此向量表达都是一样的,其缺陷一是没有考虑到单词在不同语境中的含义可能不同,其缺陷二是计算机不能识别文本中重要、有价值的部分。3. Transformer理解BERT的核心在于

2020-06-11 18:10:24 292

原创 【Blog】BERT实现文本分类:A Visual Guide to Using BERT for the First Time

A Visual Guide to Using BERT for the First Time By Jay Alammar

2020-06-08 11:10:07 179

原创 【Kaggle-House Price Prediction】代码参考

import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)%matplotlib inlineimport matplotlib.pyplot as plt # Matlab-style plottingimport seaborn as...

2020-04-30 11:16:57 1052

原创 【Kaggle-House Price Prediction】-项目总结

项目对比(与之前工业蒸汽量预测项目相比):相同点:二者都属于回归问题,预测一个数值型的目标变量;在数据预处理方面,两个项目均涉及到对于数据偏态的处理(为了更符合回归问题的正态性要求);在模型选择上,两个项目几乎一样,都是先训练多个回归相关模型(核函数岭回归、Lasso、ElasticNet、Gradient Boosting Regression、XGBoost Regressor、L...

2020-04-30 11:00:07 1003

原创 【天池新人赛-工业蒸汽量预测】8.支持向量回归机SVR、LGBM

支持向量回归机SVRSVM目标是找到一个最佳超平面,将数据尽可能地分开。SVR目标是找到一个最佳超平面,尽可能拟合更多的样本点(就是回归的思想)。LGBMLGBM是对XGboost的改进,也属于boosting集成算法。...

2020-04-30 08:58:07 453

原创 【天池新人赛-工业蒸汽量预测】7.核岭回归KernelRidge

有了岭回归,为什么还要引入使用核函数的岭回归呢?原因在于,岭回归只适用于线性数据。但是数据可能是非线性的,单纯地假设真实数据服从线性关系,并用线性模型来回归真实的非线性数据,效果想必不会好。引入kernel还能有一个好处,就是:引入kernel的RR(Ridge Regression),也就是KRR(Kernel Ridge Regression),能够处理非线性数据,即,将数据映射到某一...

2020-04-11 10:05:25 651

原创 【天池新人赛-工业蒸汽量预测】6.岭回归、Lasso、ElasticNet

1. 三个模型主要解决的问题:回归的过拟合(Overfitting)问题当用于训练的特征和数据较少时,可能会导致上图左侧的欠拟合情况。我们希望达到的模型效果是上图中间所示。当用于训练的特征和数据较多时,可能会导致上图右侧的过拟合情况。2. 岭回归(L2正则化)在上图中,为了防止过拟合(上图右侧变为上图中间),就需要对一些变量的系数进行惩罚,使其越小越好。岭回归(也叫L2正则化),就...

2020-04-11 09:45:52 399

原创 【天池新人赛-工业蒸汽量预测】5.另一份值得学习的代码参考

import warningswarnings.filterwarnings("ignore")import matplotlib.pyplot as pltplt.rcParams.update({'figure.max_open_warning': 0})import seaborn as sns# modellingimport pandas as pdimport nump...

2020-04-10 17:17:11 766

原创 【天池新人赛-工业蒸汽量预测】4.项目改进想法总结

删除与目标变量低相关的特征。对该项目(全部为数值型数据)可以计算各特征与目标变量之间的spearman相关系数,指定一个阈值,删除低于该阈值的特征。# 相关系数矩阵可视化模版# 找出相关程度plt.figure(figsize=(20, 16)) # 指定绘图对象宽度和高度colnm = data_train1.columns.tolist() # 列表头mcorr = dat...

2020-04-10 17:00:38 478

原创 【天池新人赛-工业蒸汽量预测】3.项目思路

项目问题定义:预测工业锅炉蒸汽量,所以项目问题属于回归问题,采用的各种算法应该都属于回归算法。数据预处理:异常值处理:给定数据经过脱敏,无法了解每个特征的具体含义,所以异常值的界定较为模糊,所以在项目实践中没有进行异常值处理。缺失值处理:经过观察,该脱敏数据数据完整,不存在缺失值。数据标准化:对数据进行Min-Max Scaler标准化数据偏态处理:通过观察每个特征的数据分布,对右偏...

2020-04-10 12:16:15 680

原创 【天池新人赛-工业蒸汽量预测】2.项目描述

项目背景:影响火力发电效率的核心是锅炉的燃烧效率。影响锅炉燃烧效率的因素众多,如燃料供给量、供水量、锅炉的床温、锅炉的压力等。项目要求:利用锅炉传感器采集到的锅炉工况数据,预测锅炉产生的蒸汽量。项目数据:锅炉传感器采集的关于锅炉工况的脱敏数据。数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量,”target”作为...

2020-04-10 11:32:02 345

知情同意书模版.doc

知情同意书模版。有时候进行相关科研需要用到知情同意书。

2020-06-22

实证研究论文撰写方法.pdf

导师分享的关于实证论文的写作方法,对实证论文扫盲与入门很有用。自己电脑里存着怕误删,在这里作为备份存一份。

2020-06-11

哈工大停用词表.txt

基于哈工大停用词表,如果有特定需要但未收录的停用词可直接在该txt文档增加。 添加格式:每行一个停用词

2020-03-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除