自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

哈伦2019的博客

数据分析软件

  • 博客(129)
  • 资源 (19)
  • 收藏
  • 关注

原创 第十二章 深度学习基础 案例:CNN分析K线图来评估股票价格趋势

本案例展示了使用卷积神经网络(CNN)分析股票K线图来预测价格趋势。采用1993-2001年的月度20日K线数据作为训练集,构建了一个包含3个卷积层和1个全连接层的CNN模型。模型采用LeakyReLU激活函数和Xavier权重初始化,并加入了批量归一化和Dropout层以防止过拟合。数据被划分为70%训练集和30%验证集,通过PyTorch框架实现数据加载和模型训练。该案例演示了如何将CNN应用于金融时间序列分析任务,为股票价格趋势预测提供了一种基于深度学习的解决方案。

2026-06-09 20:46:48 59

原创 第十二章 深度学习基础 案例:MLP实现银行单据手写数字识别

摘要 本案例使用PyTorch框架构建MLP神经网络模型实现MNIST手写数字识别。主要步骤包括:设置随机种子保证结果可重复性;加载MNIST数据集并进行标准化预处理,计算训练集的均值和标准差;定义包含随机旋转、随机裁剪等数据增强的transform操作;划分90%训练集和10%验证集;展示预处理后的样本图像以验证数据增强效果。案例完整实现了从数据准备到模型构建的流程,为后续的神经网络训练和评估奠定了基础。关键点在于正确处理图像数据的标准化和增强操作,以及合理地划分训练集和验证集。

2026-06-09 20:42:03 190

原创 第十一章 降维 案例:沪深300指数成分股收益率的主成分分析

利用主成分分析降维,并对沪深300成分股收益率进行分析

2026-06-02 20:52:00 196

原创 第十章 聚类 案例:汽车款式聚类

本文基于Auto汽车数据集,对392款汽车进行聚类分析。数据包含8个特征,包括mpg、排量、马力等连续变量以及气缸数、年份、产地等分类变量。预处理阶段对连续变量进行Z-score标准化,对分类变量进行哑变量编码。通过标准化和编码后的数据,后续将采用聚类算法识别具有相似特征的汽车组别。该分析有助于发现汽车款式的潜在分类模式,为市场细分和产品定位提供参考。

2026-06-02 20:41:13 1442

原创 第九章 集成学习 Boosting案例:信用卡欺诈分类

信用卡欺诈检测案例摘要 本案例使用欧洲持卡人2013年9月的信用卡交易数据,包含284,807笔交易,其中仅492笔为欺诈(占比0.172%)。数据经过PCA处理,包含28个主成分特征(V1-V28)以及时间和金额两个原始特征。案例展示了数据读取、探索性分析(EDA)和模型构建过程,使用Adaboost、Gradient Boosting和XGBoost等算法处理高度不平衡的分类问题。测试集比例为20%,随机种子设为42以确保结果可复现。该案例典型地展示了金融领域欺诈检测面临的类别不平衡挑战。

2026-05-26 20:52:05 528

原创 第九章 集成学习 Bagging案例:某产品召回预测

本文介绍了一个产品召回预测案例,使用随机森林模型分析用户行为数据。案例基于某产品召回前的调查数据,包含四个渠道的消费、时长、访问次数等特征。通过Python的sklearn库构建随机森林分类器,将数据按7:3划分为训练集和测试集。模型评估显示测试集准确率达90.6%,ROC AUC得分为0.82。特征重要性分析揭示了影响召回预测的关键变量,为产品风险管理提供了数据支持。案例展示了机器学习在实际业务问题中的应用,特别是对敏感商业数据的处理和分析方法。

2026-05-26 20:36:16 260

原创 第八章 分类 SVM案例:中文商品评论情感判定

本文基于电商平台手机评论数据,使用SVM模型进行情感分析。数据集包含8186条评论,分为好评(1)、中评(0)和差评(-1)三类。通过jieba进行中文分词处理,并利用WordCloud生成词云图直观展示不同情感评论的高频词汇。为提升模型效果,建立了停用词表去除"手机"等无区分意义的词语。案例展示了从文本预处理到情感分类的完整流程,为电商平台分析用户评价提供了实用方法。

2026-05-20 09:14:26 471

原创 第八章 分类 朴素贝叶斯案例:P2P平台个人信用评估

朴素贝叶斯在信用评估中的应用

2026-05-19 20:32:52 505

原创 第八章 分类 决策树案例:成年人群体收入预测

摘要 本案例使用决策树模型预测成年人收入水平(是否大于50K)。数据集包含年龄、工作类别、教育程度等特征。首先对数据进行预处理:删除含"?"的异常值,合并相似教育等级(如将1st-4th等合并为Elementary-School)。然后划分训练集和测试集,使用LabelEncoder对分类变量进行编码。通过决策树分类器建模,评估模型在准确率、精确率和召回率等指标上的表现。案例展示了从数据清洗到模型构建的完整流程,为收入预测提供了一种机器学习解决方案。

2026-05-19 20:23:56 418

原创 第八章 分类 KNN: 社交网络平台汽车广告精准营销

本案例基于社交网络广告数据,使用KNN算法预测用户购车行为。数据集包含400名用户的年龄、薪资和购车决策信息,平均年龄37岁,平均薪资69,742美元。分析显示64.2%用户未购车。通过标准化处理特征数据后,构建KNN分类模型(n_neighbors=1)进行训练。案例展示了从数据探索到模型构建的全过程,旨在实现汽车广告的精准投放。可视化分析包括性别分布、薪资分布和购车比例等关键指标。

2026-05-19 20:06:02 388

原创 第七章 回归案例(三)客户流失预警逻辑回归

本文案例基于通信用户流失数据,使用逻辑回归模型预测用户流失概率。数据集包含3463条记录,每条记录有20个特征变量,包括用户ID、流失状态、性别、年龄、教育水平、收入等级、使用时长等。数据分析显示数据完整无缺失值,为建模提供了良好基础。案例首先通过交叉表分析探索变量间关系,例如假设流量使用上升趋势(posTrend=1)与流失率负相关。后续将使用statsmodels库构建逻辑回归模型,分析各特征对流失概率的影响程度,为企业客户流失预警提供决策支持。

2026-04-21 20:52:28 479

原创 第七章 回归案例(二)美国爱荷华州埃姆斯地区房价预测

本文介绍了美国爱荷华州埃姆斯地区房价预测案例。数据集包含1460条样本和81个特征,目标变量为房价。首先对数据进行预处理,包括删除无用特征ID、识别并删除异常点(GrLivArea>4000且SalePrice<300000的样本)。然后分析目标变量SalePrice的分布特征,发现其呈现右偏分布,不符合线性模型对正态分布的要求。因此对SalePrice进行对数变换(np.log1p),使其更接近正态分布。文中展示了数据预处理前后的分布对比图(密度直方图和QQ图),验证了变换效果。该案例旨在演示

2026-04-21 20:40:39 465

原创 第七章 回归案例(一)波士顿房价预测

本文介绍了使用线性回归模型预测波士顿房价的案例。通过sklearn加载包含506个样本、13个特征变量的数据集,详细解释了各特征含义。使用pandas进行数据预处理后,构建LinearRegression模型,采用最小二乘法估计回归系数。案例展示了从数据读取、特征解释到模型搭建的全过程,为房价预测提供了机器学习解决方案。

2026-04-21 20:29:29 480

原创 第六章 Matplotlib案例股票K线图绘制

本文介绍了使用Python绘制股票K线图的方法,主要包括两个步骤:1) 使用tushare获取股票数据;2) 使用mplfinance绘制K线图。文章详细讲解了K线图的基本概念(开盘价、收盘价、最高价、最低价)和颜色表示(红色阳线表示上涨,绿色阴线表示下跌)。同时展示了如何添加交易量图和均线图(5日、10日、20日均线),并说明了均线的计算方法。文中还提供了数据格式转换、图表样式设置等具体代码实现,帮助读者快速掌握股票K线图的绘制技巧。

2026-04-21 18:17:15 424

原创 第六章 Matplotlib

本文介绍了Matplotlib数据可视化库的基本使用方法。主要内容包括:1) 常用图表类型的绘制,如折线图、散点图、柱状图、直方图、饼图和箱形图;2) 图表样式自定义,包括线条颜色、类型、宽度和透明度的设置;3) 子图绘制方法,实现在同一画布上展示多个图表;4) 坐标轴设置技巧,包括刻度单位和显示范围的调整。文章通过代码示例和效果图展示了Matplotlib丰富的可视化功能,帮助读者快速掌握数据可视化的基本技能。

2026-04-14 20:55:30 398

原创 第五章 Pandas

pandas的使用方法

2026-04-14 17:45:56 510

原创 张雪峰走了:他撕开了社会的“遮羞布”,也堵上了普通人的“逃生窗”?

他全盘否定文科的价值,将其定义为“服务业(甚至是贬义的服务业)”,这种观点虽然迎合了当下“文科萎缩”的全球趋势,但也极其短视。他把家长对孩子未来的焦虑,把年轻人对“拼爹”社会的无力感,包装成段子,以一种“破罐子破摔式的清醒”投喂给大众。如果教育的目的只是为了“找个好工作”,如果评价人生的尺度只有“搞钱”和“上岸”,那么张雪峰所谓的“保护”,其实也是一种对年轻人精神世界的“围剿”。今天,我们不吹不黑,只想透过这位“德云社编外人员”的幽默,聊聊他留下的那剂治愈时代焦虑的“猛药”与“毒药”。

2026-04-02 16:13:54 279 1

原创 第四章 Numpy

本文介绍了Python中Numpy库的基础使用,包括数组创建、随机数生成和文件读写功能。Numpy提供了高效的数值计算能力,是科学计算和机器学习的重要基础。文章详细说明了如何通过列表或内置方法创建不同维度的数组,如何生成符合不同分布的随机数,以及如何将数组数据保存到文件或从文件加载。通过示例代码展示了Numpy数组与Python列表的区别,强调了Numpy在数值运算上的优势。

2026-03-31 20:43:13 329

原创 Python 生成随机数

本文演示了两种使用Python生成随机数的方法:1)使用numpy生成1000个标准正态分布随机数并保存为CSV文件;2)生成1-5范围内的1000个整数,按照10%、20%、30%、20%、20%的比例分布,同样保存为CSV文件。两种方法都利用了numpy的随机数生成功能(randn和choice函数),并通过pandas将结果转换为DataFrame后导出为CSV文件,便于后续分析和使用。代码示例清晰展示了从生成到保存的完整流程。

2026-03-31 20:39:04 49

原创 第一章 Jupyter Notebook基础实操

本文介绍了Jupyter Notebook的基础操作指南,主要包括:1)cell的基本概念,区分命令模式(蓝色边框)和编辑模式(绿色边框);2)cell的常用操作,包括运行、新增/删除、复制粘贴和类型转换(代码/markdown);3)实用技巧如切换输出显示、行号显示和重启内核;4)快速查看帮助信息的方法,使用?或Shift+Tab查看库和函数文档。这些功能帮助用户高效使用Jupyter Notebook进行编程和文档编写。

2026-03-31 20:33:38 386

原创 第二章 Python语法基础

Python语法基础摘要 本章介绍了Python编程的基本语法要素,包括: 变量与注释:变量命名规则、赋值操作及单行/多行注释写法 数据类型:数字类型(int/float/complex)的转换与运算、字符串的定义与常用方法 数据结构: 列表:有序可变序列,支持增删改查和切片操作 元组:有序不可变序列,创建后不能修改 集合:无序不重复元素集,可用于去重 代码结构:Python特有的缩进规则,使用Tab键控制代码块范围 这些基础语法是Python编程的核心组成部分,为后续学习更复杂的编程概念奠定基础。

2026-03-31 20:20:52 419

原创 第三章 Python文本分析基础

本文介绍了Python文本分析的基础知识,主要包括文件操作、正则表达式和分词三部分内容。在文件操作部分,讲解了绝对路径和相对路径的区别,以及Python中文件读写的不同模式(r/w/a/rb/wb)和使用方法,特别强调了文件编码问题。正则表达式部分详细说明了常用匹配符号的含义,并演示了re模块的match、search、findall、finditer和sub等核心函数的使用。分词部分展示了英文和中文分词的基本操作,通过实际代码示例帮助理解文本分析的基本流程。全文提供了丰富的代码实例,适合Python初学者

2026-03-24 20:58:09 442

原创 空间双重差分模型案例

使用空间双重差分模型研究中国“一带一路”政策对经济发展的影响效应。

2024-06-17 14:52:26 1419

原创 空间分位数回归案例

空间分位数回归stata操作案例

2024-06-04 11:56:48 825

原创 横截面分位数回归

传统回归通常分析自变量对因变量的均值影响,分位数回归则对于因变量不同分位点的影响进行分析,可以更好的揭示规律,尤其在收入分配等领域应用广泛。

2024-05-29 20:34:50 1618

原创 空间面板模型案例分析

基于2009-2017年我国30个内陆省份的数据,研究金融集聚对区域创新能力的影响。

2024-05-20 12:13:20 526

原创 横截面空间计量案例

利用stata进行空间计量研究,本小节提供横截面空间计量的stata基本操作,供学习

2024-05-06 15:20:37 275

原创 stata蒙特卡罗模拟(二)模拟中心极限定理

蒙特卡罗模拟中心极限定理

2023-03-22 14:48:19 2270 1

原创 stata 蒙特卡罗模拟(一) 一元线性回归模拟

蒙特卡罗模拟验证一元线性回归模型

2023-03-16 15:19:08 3679

原创 工具变量与两阶段最小二乘stata

以数据集grilic.dta为例,继续探讨教育投资回报率。此数据集的主要变量包括:lnw(工资对数),s(教育年限),expr(工龄),tenure(在现单位的工作年数),iq(智商),med(母亲的教育年限),kww(在“knowledge of the World of Work”测试中的成绩),rns(美国南方虚拟变量,住在南方=1),smsa(大城市虚拟变量,住在大城市=1)。/*读入数据*/use "C:\Users\Administrator\Desktop\stata work..

2022-05-25 17:29:09 20142 2

原创 金融统计分析与挖掘实战8.3-8.4

第八章 上市公司综合评价# 设置工作路径和导入基本数据分析包import osos.chdir("C:\\Users\\Administrator\\Desktop") #设置路径import pandas as pdimport numpy as np8.3 基于总体规模与投资效率的综合评价8.3.1 数据读取与处理data=pd.read_excel('data.xlsx') #读取数据data2=data.iloc[data['Accper'].values=='2016-12

2022-05-18 15:22:02 2543 1

原创 金融统计分析与挖掘实战7.6-7.7

7.6 沪深300指数走势预测import osos.chdir("C:\\Users\\Administrator\\Desktop") #设置路径import pandas as pdimport numpy as np7.6.1 读取数据td=pd.read_excel('index300.xlsx') # 读取数据td.head(6) # 查看前6行 Indexcd Idxtrd01 Idxtrd02

2022-05-13 15:40:20 1918 1

原创 金融统计分析与挖掘实战7.3-7.5

# 7.3 上市公式净利润增长率计算import osos.chdir("C:\\Users\\Administrator\\Desktop")import pandas as pddt = pd.read_excel('data2.xlsx') #获取数据dt.head(6) Stkcd Accper B002000101 0 16 2014-12-3

2022-05-11 15:27:08 3178 1

原创 金融统计分析与挖掘实战6.1-6.3

# 6.1 关联规则import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好# 6.2.1 一对一关联规则挖掘# 将原始数据转化为布尔数值表tiem = ['西红柿','排骨','鸡蛋','茄子','袜子','酸奶','土豆','鞋子']data = pd.read_excel('tr.xlsx'

2022-05-04 15:39:45 1589 2

原创 金融数据分析与挖掘实战5.6-5.7

# 5.6 支持向量机#汽车评价数据,6个特征变量,1个分类标签,共1728条记录#要求取1690条记录作为训练集,余下的作为测试集,计算预测准确率import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好# 1.读取数据data = pd.read_excel("car.xlsx")datah

2022-04-29 15:39:33 849

原创 金融统计分析与挖掘实战5.3-5.5

# 5.3 线性回归应用# 一、准备工作(导入包,输入数据,选择变量)import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好data = pd.read_excel("发电场数据.xlsx")datah = data.head(6) #看前6行的数据,本例中有9000多样本,显示全占用篇幅较大

2022-04-27 17:26:14 1609

原创 金融统计分析与挖掘实战5.1-5.2

# 第5章 机器学习包# 5.2.1 缺失值处理import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好data = pd.read_excel("missing.xlsx") #将文件放到工作路径下,用该命令读取数据print(data) a b c d0 2.

2022-04-22 17:11:27 947

原创 金融统计分析与挖掘实战3.3.3-3.5

# 3.3.3 数据框# 8.as_matrix()报错import pandas as pdimport numpy as nplist1 = [1,2,3,4,5,6]list2 = [2,3,4,5,6,7]D = pd.DataFrame({"m1":list1,"m2":list2})print(D) m1 m20 1 21 2 32 3 43 4 54 5 65 6 7D1 = D.as_matrix()

2022-04-13 17:19:24 428

原创 金融统计分析与挖掘实战3.3.1-3.3.3

# 3.3 数据框 # 特征:多个序列按照相同的索引组成的二维表# 3.3.1 数据框的创建import pandas as pdimport numpy as np # 先导入两个最常用的数据处理分析包data = {"a" : [2,2,np.nan,5,6],"b" : ["kl","kl","kl",np.nan,"kl"],"c" : [4,6,5,np.nan,6],"d" : [7,9,np.nan,9,8]} #生成一个字典df = pd.DataFrame(data)

2022-04-08 17:37:40 1976

原创 金融统计分析与挖掘实战3.1-3.2

# 第三章 数据处理包 pandas# 3.2序列#3.2.1 序列的创建与访问import pandas as pdimport numpy as np # 数据分析前先导入两个最常见的包# 创建序列# 列表、元组和数组转化为序列s1 = pd.Series([1,-2,2.3,'hq']) #把列表转换为序列print(s1) #虽然我们没写索引,但系统默认了索引0 11 -22 2.33 hqdtype: objecttyp

2022-04-06 17:18:16 1168

第四章 Numpy 数据资源

第四章 Numpy 数据资源

2026-03-31

第四章 Numpy 数据资源

第四章 Numpy 数据资源

2026-03-31

第四章 Numpy 数据资源

第四章 Numpy 数据资源

2026-03-31

2014-2021年各省、市、县 乡村创新创业指数

中国乡村创新创业指数由浙大卡特-企研乡村产业研究团队创建。指数包括“乡村创新”与“乡村创业”2个一级指标,其中“乡村创新"包含了技术创新、品牌创新、绿色创新、数字创新4个二级指标;“乡村创业”包含了农业及相关产业创业、农民合作社创业、家庭农场创业3个级指标。上述7个二级指标最后被分解成21个三级指标。指数评价年份为2014年-2021年,横纵向可比。

2024-07-18

空间双重差分模型案例数据

案例中用到的数据和代码,以及结果。

2024-06-17

中国劳动力动态调查2011-2016年

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是中国社会科学调查平台(世界一流大学配套专项),是全国第一个以劳动力为主题的全国性跟踪调查。CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

2023-03-05

1999-2021年全国各省在校大学生人数

1999-2021年全国各省在校大学生人数,包括本专科生人数,不包括研究生人数。

2022-11-12

市场化指数(1997-2022)

中国分省份市场化指数(简称“市场化指数”)是一个用指数形式衡量全国各省、自治区和直辖市市场化相对进程的指数体系,数据涵盖了全国31个省、自治区、直辖市(以下简称“省份”)在1997—2022年的市场化相对进程总体评分及排序、各方面指数和分项指数评分及排序(西藏个别年份数据暂缺)。市场化指数包含总指标以及各个分项:政府与市场关系、非国有经济发展、产品市场的发育程度、要素市场的发育程度、市场中介组织的发育和法律制度环境。

2022-06-10

285个地级市空间权重矩阵.xlsx

地级市空间权重矩阵(包括距离和反距离两种空间权重矩阵)

2021-04-05

HHI赫芬达尔指数行业集中度数据(1990-2019年数据).xlsx

是一种测量产业集中度的综合指数。按行业计算的指数

2021-05-05

中国31省区市42部门投入产出表(1997-2017).zip

中国31省区市42部门投入产出表(1997-2017)

2021-05-05

空间计量模型(1)的数据资料

stata空间计量模型(1)数据资源

2021-01-29

2002—2019年各省基尼系数.xls

2002年到2019年全国各省基尼系数,包括整体和分城乡基尼系数,对于收入不平衡的研究有帮助

2021-09-15

农村居民人均可支配收入来源2016.xlsx

Python第五章 因子分析的数据

2021-05-10

各省人均GDP(1949-2020)​​.xlsx

1949年-2020年31个内陆省份的人均GDP数据

2021-10-18

市场化指数2008-2019.xlsx

2008-2019年全国31个省市场化指数数据

2021-04-05

地级市绿色全要素生产率(2000-2019).xlsx

2000-2019年 421个行政区样本,四个直辖市为区级层面数据,其他行政区为地市层面样本,在数据包络分析框架下,利用SBM模型和Malmquist生产率指数对城市全要素生产率增长进行测度,该数据通过大量计算得到。

2022-01-16

data.npy规范化数据

Python第五章 数据规范化数据

2021-05-10

断点回归数据.dta

政策评价效应---断点回归模拟的数据,共同学习。仅供学习使用,切勿用作其它,谢谢!欢迎大家提出宝贵意见

2020-06-25

nerlove.dta

本案例所使用的数据,如需操作,可下载使用,谢谢! 资源仅限学习使用,勿作他用。

2019-09-18

CFPS数据excel.zip

Excel格式数据。CFPS重点关注中国居民的经济与非经济福利,以及包括经济活动、教育成果、家庭关系与家庭动态、人口迁移、健康等在内的诸多研究主题,是一项全国性、大规模、多学科的社会跟踪调查项目。

2021-03-15

断点回归do文件.do

政策评价效应---断点回归的代码,共同学习。仅供学习使用,切勿用作其它,谢谢!欢迎大家提出宝贵意见,共同完善和学习

2020-06-25

missing.xlsx Python数据预处理数据

Python数据预处理的数据

2021-05-10

一、车次上车人数统计表.xlsx

数据可视化包matplotlib包(二)数据集,用于本文各种图形的操作,仅供学习使用,请勿他用,谢谢!

2020-05-14

05_GDP.xlsx

全国31个省的GDP数据,数据仅做学习使用,请勿做商业使用,欢迎大家共同学习画图软件,一起进步,加油!

2020-08-21

amos training data mean center.sav

本案例中所使用的数据集,数据集仅作为学习使用,不要商用,谢谢!欢迎大家一起学习调节效应知识,共同探讨进步!

2020-06-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除