哈伦2019-CSDN博客

原创第十二章深度学习基础案例：CNN分析K线图来评估股票价格趋势

本案例展示了使用卷积神经网络(CNN)分析股票K线图来预测价格趋势。采用1993-2001年的月度20日K线数据作为训练集，构建了一个包含3个卷积层和1个全连接层的CNN模型。模型采用LeakyReLU激活函数和Xavier权重初始化，并加入了批量归一化和Dropout层以防止过拟合。数据被划分为70%训练集和30%验证集，通过PyTorch框架实现数据加载和模型训练。该案例演示了如何将CNN应用于金融时间序列分析任务，为股票价格趋势预测提供了一种基于深度学习的解决方案。

2026-06-09 20:46:48 64

原创第十二章深度学习基础案例：MLP实现银行单据手写数字识别

摘要本案例使用PyTorch框架构建MLP神经网络模型实现MNIST手写数字识别。主要步骤包括：设置随机种子保证结果可重复性；加载MNIST数据集并进行标准化预处理，计算训练集的均值和标准差；定义包含随机旋转、随机裁剪等数据增强的transform操作；划分90%训练集和10%验证集；展示预处理后的样本图像以验证数据增强效果。案例完整实现了从数据准备到模型构建的流程，为后续的神经网络训练和评估奠定了基础。关键点在于正确处理图像数据的标准化和增强操作，以及合理地划分训练集和验证集。

2026-06-09 20:42:03 195

原创第十一章降维案例：沪深300指数成分股收益率的主成分分析

利用主成分分析降维，并对沪深300成分股收益率进行分析

2026-06-02 20:52:00 196

原创第十章聚类案例：汽车款式聚类

本文基于Auto汽车数据集，对392款汽车进行聚类分析。数据包含8个特征，包括mpg、排量、马力等连续变量以及气缸数、年份、产地等分类变量。预处理阶段对连续变量进行Z-score标准化，对分类变量进行哑变量编码。通过标准化和编码后的数据，后续将采用聚类算法识别具有相似特征的汽车组别。该分析有助于发现汽车款式的潜在分类模式，为市场细分和产品定位提供参考。

2026-06-02 20:41:13 1450

原创第九章集成学习 Boosting案例：信用卡欺诈分类

信用卡欺诈检测案例摘要本案例使用欧洲持卡人2013年9月的信用卡交易数据，包含284,807笔交易，其中仅492笔为欺诈(占比0.172%)。数据经过PCA处理，包含28个主成分特征(V1-V28)以及时间和金额两个原始特征。案例展示了数据读取、探索性分析(EDA)和模型构建过程，使用Adaboost、Gradient Boosting和XGBoost等算法处理高度不平衡的分类问题。测试集比例为20%，随机种子设为42以确保结果可复现。该案例典型地展示了金融领域欺诈检测面临的类别不平衡挑战。

2026-05-26 20:52:05 529

原创第九章集成学习 Bagging案例：某产品召回预测

本文介绍了一个产品召回预测案例，使用随机森林模型分析用户行为数据。案例基于某产品召回前的调查数据，包含四个渠道的消费、时长、访问次数等特征。通过Python的sklearn库构建随机森林分类器，将数据按7:3划分为训练集和测试集。模型评估显示测试集准确率达90.6%，ROC AUC得分为0.82。特征重要性分析揭示了影响召回预测的关键变量，为产品风险管理提供了数据支持。案例展示了机器学习在实际业务问题中的应用，特别是对敏感商业数据的处理和分析方法。

2026-05-26 20:36:16 260

原创第八章分类 SVM案例：中文商品评论情感判定

本文基于电商平台手机评论数据，使用SVM模型进行情感分析。数据集包含8186条评论，分为好评(1)、中评(0)和差评(-1)三类。通过jieba进行中文分词处理，并利用WordCloud生成词云图直观展示不同情感评论的高频词汇。为提升模型效果，建立了停用词表去除"手机"等无区分意义的词语。案例展示了从文本预处理到情感分类的完整流程，为电商平台分析用户评价提供了实用方法。

2026-05-20 09:14:26 475

原创第八章分类朴素贝叶斯案例：P2P平台个人信用评估

朴素贝叶斯在信用评估中的应用

2026-05-19 20:32:52 506

原创第八章分类决策树案例：成年人群体收入预测

摘要本案例使用决策树模型预测成年人收入水平（是否大于50K）。数据集包含年龄、工作类别、教育程度等特征。首先对数据进行预处理：删除含"?"的异常值，合并相似教育等级（如将1st-4th等合并为Elementary-School）。然后划分训练集和测试集，使用LabelEncoder对分类变量进行编码。通过决策树分类器建模，评估模型在准确率、精确率和召回率等指标上的表现。案例展示了从数据清洗到模型构建的完整流程，为收入预测提供了一种机器学习解决方案。

2026-05-19 20:23:56 419

原创第八章分类 KNN: 社交网络平台汽车广告精准营销

本案例基于社交网络广告数据，使用KNN算法预测用户购车行为。数据集包含400名用户的年龄、薪资和购车决策信息，平均年龄37岁，平均薪资69,742美元。分析显示64.2%用户未购车。通过标准化处理特征数据后，构建KNN分类模型（n_neighbors=1）进行训练。案例展示了从数据探索到模型构建的全过程，旨在实现汽车广告的精准投放。可视化分析包括性别分布、薪资分布和购车比例等关键指标。

2026-05-19 20:06:02 388

原创第七章回归案例（三）客户流失预警逻辑回归

本文案例基于通信用户流失数据，使用逻辑回归模型预测用户流失概率。数据集包含3463条记录，每条记录有20个特征变量，包括用户ID、流失状态、性别、年龄、教育水平、收入等级、使用时长等。数据分析显示数据完整无缺失值，为建模提供了良好基础。案例首先通过交叉表分析探索变量间关系，例如假设流量使用上升趋势(posTrend=1)与流失率负相关。后续将使用statsmodels库构建逻辑回归模型，分析各特征对流失概率的影响程度，为企业客户流失预警提供决策支持。

2026-04-21 20:52:28 482

原创第七章回归案例（二）美国爱荷华州埃姆斯地区房价预测

本文介绍了美国爱荷华州埃姆斯地区房价预测案例。数据集包含1460条样本和81个特征，目标变量为房价。首先对数据进行预处理，包括删除无用特征ID、识别并删除异常点（GrLivArea>4000且SalePrice<300000的样本）。然后分析目标变量SalePrice的分布特征，发现其呈现右偏分布，不符合线性模型对正态分布的要求。因此对SalePrice进行对数变换（np.log1p），使其更接近正态分布。文中展示了数据预处理前后的分布对比图（密度直方图和QQ图），验证了变换效果。该案例旨在演示

2026-04-21 20:40:39 470

原创第七章回归案例（一）波士顿房价预测

本文介绍了使用线性回归模型预测波士顿房价的案例。通过sklearn加载包含506个样本、13个特征变量的数据集，详细解释了各特征含义。使用pandas进行数据预处理后，构建LinearRegression模型，采用最小二乘法估计回归系数。案例展示了从数据读取、特征解释到模型搭建的全过程，为房价预测提供了机器学习解决方案。

2026-04-21 20:29:29 486

原创第六章 Matplotlib案例股票K线图绘制

本文介绍了使用Python绘制股票K线图的方法，主要包括两个步骤：1) 使用tushare获取股票数据；2) 使用mplfinance绘制K线图。文章详细讲解了K线图的基本概念（开盘价、收盘价、最高价、最低价）和颜色表示（红色阳线表示上涨，绿色阴线表示下跌）。同时展示了如何添加交易量图和均线图（5日、10日、20日均线），并说明了均线的计算方法。文中还提供了数据格式转换、图表样式设置等具体代码实现，帮助读者快速掌握股票K线图的绘制技巧。

2026-04-21 18:17:15 427

原创第六章 Matplotlib

本文介绍了Matplotlib数据可视化库的基本使用方法。主要内容包括：1) 常用图表类型的绘制，如折线图、散点图、柱状图、直方图、饼图和箱形图；2) 图表样式自定义，包括线条颜色、类型、宽度和透明度的设置；3) 子图绘制方法，实现在同一画布上展示多个图表；4) 坐标轴设置技巧，包括刻度单位和显示范围的调整。文章通过代码示例和效果图展示了Matplotlib丰富的可视化功能，帮助读者快速掌握数据可视化的基本技能。

2026-04-14 20:55:30 399

原创第五章 Pandas

pandas的使用方法

2026-04-14 17:45:56 511

原创张雪峰走了：他撕开了社会的“遮羞布”，也堵上了普通人的“逃生窗”？

他全盘否定文科的价值，将其定义为“服务业（甚至是贬义的服务业）”，这种观点虽然迎合了当下“文科萎缩”的全球趋势，但也极其短视。他把家长对孩子未来的焦虑，把年轻人对“拼爹”社会的无力感，包装成段子，以一种“破罐子破摔式的清醒”投喂给大众。如果教育的目的只是为了“找个好工作”，如果评价人生的尺度只有“搞钱”和“上岸”，那么张雪峰所谓的“保护”，其实也是一种对年轻人精神世界的“围剿”。今天，我们不吹不黑，只想透过这位“德云社编外人员”的幽默，聊聊他留下的那剂治愈时代焦虑的“猛药”与“毒药”。

2026-04-02 16:13:54 284 1

原创第四章 Numpy

本文介绍了Python中Numpy库的基础使用，包括数组创建、随机数生成和文件读写功能。Numpy提供了高效的数值计算能力，是科学计算和机器学习的重要基础。文章详细说明了如何通过列表或内置方法创建不同维度的数组，如何生成符合不同分布的随机数，以及如何将数组数据保存到文件或从文件加载。通过示例代码展示了Numpy数组与Python列表的区别，强调了Numpy在数值运算上的优势。

2026-03-31 20:43:13 331

原创 Python 生成随机数

本文演示了两种使用Python生成随机数的方法：1）使用numpy生成1000个标准正态分布随机数并保存为CSV文件；2）生成1-5范围内的1000个整数，按照10%、20%、30%、20%、20%的比例分布，同样保存为CSV文件。两种方法都利用了numpy的随机数生成功能（randn和choice函数），并通过pandas将结果转换为DataFrame后导出为CSV文件，便于后续分析和使用。代码示例清晰展示了从生成到保存的完整流程。

2026-03-31 20:39:04 51

原创第一章 Jupyter Notebook基础实操

本文介绍了Jupyter Notebook的基础操作指南，主要包括：1）cell的基本概念，区分命令模式（蓝色边框）和编辑模式（绿色边框）；2）cell的常用操作，包括运行、新增/删除、复制粘贴和类型转换（代码/markdown）；3）实用技巧如切换输出显示、行号显示和重启内核；4）快速查看帮助信息的方法，使用?或Shift+Tab查看库和函数文档。这些功能帮助用户高效使用Jupyter Notebook进行编程和文档编写。

2026-03-31 20:33:38 386

原创第二章 Python语法基础

Python语法基础摘要本章介绍了Python编程的基本语法要素，包括：变量与注释：变量命名规则、赋值操作及单行/多行注释写法数据类型：数字类型(int/float/complex)的转换与运算、字符串的定义与常用方法数据结构：列表：有序可变序列，支持增删改查和切片操作元组：有序不可变序列，创建后不能修改集合：无序不重复元素集，可用于去重代码结构：Python特有的缩进规则，使用Tab键控制代码块范围这些基础语法是Python编程的核心组成部分，为后续学习更复杂的编程概念奠定基础。

2026-03-31 20:20:52 422

原创第三章 Python文本分析基础

本文介绍了Python文本分析的基础知识，主要包括文件操作、正则表达式和分词三部分内容。在文件操作部分，讲解了绝对路径和相对路径的区别，以及Python中文件读写的不同模式（r/w/a/rb/wb）和使用方法，特别强调了文件编码问题。正则表达式部分详细说明了常用匹配符号的含义，并演示了re模块的match、search、findall、finditer和sub等核心函数的使用。分词部分展示了英文和中文分词的基本操作，通过实际代码示例帮助理解文本分析的基本流程。全文提供了丰富的代码实例，适合Python初学者

2026-03-24 20:58:09 443

原创空间双重差分模型案例

使用空间双重差分模型研究中国“一带一路”政策对经济发展的影响效应。

2024-06-17 14:52:26 1421

原创空间分位数回归案例

空间分位数回归stata操作案例

2024-06-04 11:56:48 827

原创横截面分位数回归

传统回归通常分析自变量对因变量的均值影响，分位数回归则对于因变量不同分位点的影响进行分析，可以更好的揭示规律，尤其在收入分配等领域应用广泛。

2024-05-29 20:34:50 1620

原创空间面板模型案例分析

基于2009-2017年我国30个内陆省份的数据，研究金融集聚对区域创新能力的影响。

2024-05-20 12:13:20 526

原创横截面空间计量案例

利用stata进行空间计量研究，本小节提供横截面空间计量的stata基本操作，供学习

2024-05-06 15:20:37 275

原创 stata蒙特卡罗模拟（二）模拟中心极限定理

蒙特卡罗模拟中心极限定理

2023-03-22 14:48:19 2272 1

原创 stata 蒙特卡罗模拟（一）一元线性回归模拟

蒙特卡罗模拟验证一元线性回归模型

2023-03-16 15:19:08 3682

原创工具变量与两阶段最小二乘stata

以数据集grilic.dta为例，继续探讨教育投资回报率。此数据集的主要变量包括：lnw(工资对数)，s(教育年限)，expr(工龄)，tenure(在现单位的工作年数)，iq(智商)，med(母亲的教育年限)，kww(在“knowledge of the World of Work”测试中的成绩)，rns(美国南方虚拟变量，住在南方=1)，smsa(大城市虚拟变量，住在大城市=1)。/*读入数据*/use "C:\Users\Administrator\Desktop\stata work..

2022-05-25 17:29:09 20148 2

原创金融统计分析与挖掘实战8.3-8.4

第八章上市公司综合评价# 设置工作路径和导入基本数据分析包import osos.chdir("C:\\Users\\Administrator\\Desktop") #设置路径import pandas as pdimport numpy as np8.3 基于总体规模与投资效率的综合评价8.3.1 数据读取与处理data=pd.read_excel('data.xlsx') #读取数据data2=data.iloc[data['Accper'].values=='2016-12

2022-05-18 15:22:02 2543 1

原创金融统计分析与挖掘实战7.6-7.7

7.6 沪深300指数走势预测import osos.chdir("C:\\Users\\Administrator\\Desktop") #设置路径import pandas as pdimport numpy as np7.6.1 读取数据td=pd.read_excel('index300.xlsx') # 读取数据td.head(6) # 查看前6行 Indexcd Idxtrd01 Idxtrd02

2022-05-13 15:40:20 1918 1

原创金融统计分析与挖掘实战7.3-7.5

# 7.3 上市公式净利润增长率计算import osos.chdir("C:\\Users\\Administrator\\Desktop")import pandas as pddt = pd.read_excel('data2.xlsx') #获取数据dt.head(6) Stkcd Accper B002000101 0 16 2014-12-3

2022-05-11 15:27:08 3178 1

原创金融统计分析与挖掘实战6.1-6.3

# 6.1 关联规则import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径，注意双\\ 任何操作前可以先将常用包和路径先设置好# 6.2.1 一对一关联规则挖掘# 将原始数据转化为布尔数值表tiem = ['西红柿','排骨','鸡蛋','茄子','袜子','酸奶','土豆','鞋子']data = pd.read_excel('tr.xlsx'

2022-05-04 15:39:45 1589 2

原创金融数据分析与挖掘实战5.6-5.7

# 5.6 支持向量机#汽车评价数据，6个特征变量，1个分类标签，共1728条记录#要求取1690条记录作为训练集，余下的作为测试集，计算预测准确率import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径，注意双\\ 任何操作前可以先将常用包和路径先设置好# 1.读取数据data = pd.read_excel("car.xlsx")datah

2022-04-29 15:39:33 852

原创金融统计分析与挖掘实战5.3-5.5

# 5.3 线性回归应用# 一、准备工作（导入包，输入数据，选择变量）import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径，注意双\\ 任何操作前可以先将常用包和路径先设置好data = pd.read_excel("发电场数据.xlsx")datah = data.head(6) #看前6行的数据，本例中有9000多样本，显示全占用篇幅较大

2022-04-27 17:26:14 1609

原创金融统计分析与挖掘实战5.1-5.2

# 第5章机器学习包# 5.2.1 缺失值处理import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径，注意双\\ 任何操作前可以先将常用包和路径先设置好data = pd.read_excel("missing.xlsx") #将文件放到工作路径下，用该命令读取数据print(data) a b c d0 2.

2022-04-22 17:11:27 947

原创金融统计分析与挖掘实战3.3.3-3.5

# 3.3.3 数据框# 8.as_matrix()报错import pandas as pdimport numpy as nplist1 = [1,2,3,4,5,6]list2 = [2,3,4,5,6,7]D = pd.DataFrame({"m1":list1,"m2":list2})print(D) m1 m20 1 21 2 32 3 43 4 54 5 65 6 7D1 = D.as_matrix()

2022-04-13 17:19:24 428

原创金融统计分析与挖掘实战3.3.1-3.3.3

# 3.3 数据框 # 特征：多个序列按照相同的索引组成的二维表# 3.3.1 数据框的创建import pandas as pdimport numpy as np # 先导入两个最常用的数据处理分析包data = {"a" : [2,2,np.nan,5,6],"b" : ["kl","kl","kl",np.nan,"kl"],"c" : [4,6,5,np.nan,6],"d" : [7,9,np.nan,9,8]} #生成一个字典df = pd.DataFrame(data)

2022-04-08 17:37:40 1976

原创金融统计分析与挖掘实战3.1-3.2

# 第三章数据处理包 pandas# 3.2序列#3.2.1 序列的创建与访问import pandas as pdimport numpy as np # 数据分析前先导入两个最常见的包# 创建序列# 列表、元组和数组转化为序列s1 = pd.Series([1,-2,2.3,'hq']) #把列表转换为序列print(s1) #虽然我们没写索引，但系统默认了索引0 11 -22 2.33 hqdtype: objecttyp

2022-04-06 17:18:16 1168

第四章 Numpy 数据资源

2026-03-31

第四章 Numpy 数据资源

2026-03-31

第四章 Numpy 数据资源

2026-03-31

2014-2021年各省、市、县乡村创新创业指数

中国乡村创新创业指数由浙大卡特-企研乡村产业研究团队创建。指数包括“乡村创新”与“乡村创业”2个一级指标，其中“乡村创新"包含了技术创新、品牌创新、绿色创新、数字创新4个二级指标;“乡村创业”包含了农业及相关产业创业、农民合作社创业、家庭农场创业3个级指标。上述7个二级指标最后被分解成21个三级指标。指数评价年份为2014年-2021年，横纵向可比。

2024-07-18

空间双重差分模型案例数据

案例中用到的数据和代码，以及结果。

2024-06-17

中国劳动力动态调查2011-2016年

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是中国社会科学调查平台（世界一流大学配套专项），是全国第一个以劳动力为主题的全国性跟踪调查。CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

2023-03-05

1999-2021年全国各省在校大学生人数

1999-2021年全国各省在校大学生人数，包括本专科生人数，不包括研究生人数。

2022-11-12

市场化指数（1997-2022）

中国分省份市场化指数（简称“市场化指数”）是一个用指数形式衡量全国各省、自治区和直辖市市场化相对进程的指数体系，数据涵盖了全国31个省、自治区、直辖市（以下简称“省份”）在1997—2022年的市场化相对进程总体评分及排序、各方面指数和分项指数评分及排序（西藏个别年份数据暂缺）。市场化指数包含总指标以及各个分项：政府与市场关系、非国有经济发展、产品市场的发育程度、要素市场的发育程度、市场中介组织的发育和法律制度环境。

2022-06-10