- 博客(129)
- 资源 (19)
- 收藏
- 关注
原创 第十二章 深度学习基础 案例:CNN分析K线图来评估股票价格趋势
本案例展示了使用卷积神经网络(CNN)分析股票K线图来预测价格趋势。采用1993-2001年的月度20日K线数据作为训练集,构建了一个包含3个卷积层和1个全连接层的CNN模型。模型采用LeakyReLU激活函数和Xavier权重初始化,并加入了批量归一化和Dropout层以防止过拟合。数据被划分为70%训练集和30%验证集,通过PyTorch框架实现数据加载和模型训练。该案例演示了如何将CNN应用于金融时间序列分析任务,为股票价格趋势预测提供了一种基于深度学习的解决方案。
2026-06-09 20:46:48
59
原创 第十二章 深度学习基础 案例:MLP实现银行单据手写数字识别
摘要 本案例使用PyTorch框架构建MLP神经网络模型实现MNIST手写数字识别。主要步骤包括:设置随机种子保证结果可重复性;加载MNIST数据集并进行标准化预处理,计算训练集的均值和标准差;定义包含随机旋转、随机裁剪等数据增强的transform操作;划分90%训练集和10%验证集;展示预处理后的样本图像以验证数据增强效果。案例完整实现了从数据准备到模型构建的流程,为后续的神经网络训练和评估奠定了基础。关键点在于正确处理图像数据的标准化和增强操作,以及合理地划分训练集和验证集。
2026-06-09 20:42:03
190
原创 第十章 聚类 案例:汽车款式聚类
本文基于Auto汽车数据集,对392款汽车进行聚类分析。数据包含8个特征,包括mpg、排量、马力等连续变量以及气缸数、年份、产地等分类变量。预处理阶段对连续变量进行Z-score标准化,对分类变量进行哑变量编码。通过标准化和编码后的数据,后续将采用聚类算法识别具有相似特征的汽车组别。该分析有助于发现汽车款式的潜在分类模式,为市场细分和产品定位提供参考。
2026-06-02 20:41:13
1442
原创 第九章 集成学习 Boosting案例:信用卡欺诈分类
信用卡欺诈检测案例摘要 本案例使用欧洲持卡人2013年9月的信用卡交易数据,包含284,807笔交易,其中仅492笔为欺诈(占比0.172%)。数据经过PCA处理,包含28个主成分特征(V1-V28)以及时间和金额两个原始特征。案例展示了数据读取、探索性分析(EDA)和模型构建过程,使用Adaboost、Gradient Boosting和XGBoost等算法处理高度不平衡的分类问题。测试集比例为20%,随机种子设为42以确保结果可复现。该案例典型地展示了金融领域欺诈检测面临的类别不平衡挑战。
2026-05-26 20:52:05
528
原创 第九章 集成学习 Bagging案例:某产品召回预测
本文介绍了一个产品召回预测案例,使用随机森林模型分析用户行为数据。案例基于某产品召回前的调查数据,包含四个渠道的消费、时长、访问次数等特征。通过Python的sklearn库构建随机森林分类器,将数据按7:3划分为训练集和测试集。模型评估显示测试集准确率达90.6%,ROC AUC得分为0.82。特征重要性分析揭示了影响召回预测的关键变量,为产品风险管理提供了数据支持。案例展示了机器学习在实际业务问题中的应用,特别是对敏感商业数据的处理和分析方法。
2026-05-26 20:36:16
260
原创 第八章 分类 SVM案例:中文商品评论情感判定
本文基于电商平台手机评论数据,使用SVM模型进行情感分析。数据集包含8186条评论,分为好评(1)、中评(0)和差评(-1)三类。通过jieba进行中文分词处理,并利用WordCloud生成词云图直观展示不同情感评论的高频词汇。为提升模型效果,建立了停用词表去除"手机"等无区分意义的词语。案例展示了从文本预处理到情感分类的完整流程,为电商平台分析用户评价提供了实用方法。
2026-05-20 09:14:26
471
原创 第八章 分类 决策树案例:成年人群体收入预测
摘要 本案例使用决策树模型预测成年人收入水平(是否大于50K)。数据集包含年龄、工作类别、教育程度等特征。首先对数据进行预处理:删除含"?"的异常值,合并相似教育等级(如将1st-4th等合并为Elementary-School)。然后划分训练集和测试集,使用LabelEncoder对分类变量进行编码。通过决策树分类器建模,评估模型在准确率、精确率和召回率等指标上的表现。案例展示了从数据清洗到模型构建的完整流程,为收入预测提供了一种机器学习解决方案。
2026-05-19 20:23:56
418
原创 第八章 分类 KNN: 社交网络平台汽车广告精准营销
本案例基于社交网络广告数据,使用KNN算法预测用户购车行为。数据集包含400名用户的年龄、薪资和购车决策信息,平均年龄37岁,平均薪资69,742美元。分析显示64.2%用户未购车。通过标准化处理特征数据后,构建KNN分类模型(n_neighbors=1)进行训练。案例展示了从数据探索到模型构建的全过程,旨在实现汽车广告的精准投放。可视化分析包括性别分布、薪资分布和购车比例等关键指标。
2026-05-19 20:06:02
388
原创 第七章 回归案例(三)客户流失预警逻辑回归
本文案例基于通信用户流失数据,使用逻辑回归模型预测用户流失概率。数据集包含3463条记录,每条记录有20个特征变量,包括用户ID、流失状态、性别、年龄、教育水平、收入等级、使用时长等。数据分析显示数据完整无缺失值,为建模提供了良好基础。案例首先通过交叉表分析探索变量间关系,例如假设流量使用上升趋势(posTrend=1)与流失率负相关。后续将使用statsmodels库构建逻辑回归模型,分析各特征对流失概率的影响程度,为企业客户流失预警提供决策支持。
2026-04-21 20:52:28
479
原创 第七章 回归案例(二)美国爱荷华州埃姆斯地区房价预测
本文介绍了美国爱荷华州埃姆斯地区房价预测案例。数据集包含1460条样本和81个特征,目标变量为房价。首先对数据进行预处理,包括删除无用特征ID、识别并删除异常点(GrLivArea>4000且SalePrice<300000的样本)。然后分析目标变量SalePrice的分布特征,发现其呈现右偏分布,不符合线性模型对正态分布的要求。因此对SalePrice进行对数变换(np.log1p),使其更接近正态分布。文中展示了数据预处理前后的分布对比图(密度直方图和QQ图),验证了变换效果。该案例旨在演示
2026-04-21 20:40:39
465
原创 第七章 回归案例(一)波士顿房价预测
本文介绍了使用线性回归模型预测波士顿房价的案例。通过sklearn加载包含506个样本、13个特征变量的数据集,详细解释了各特征含义。使用pandas进行数据预处理后,构建LinearRegression模型,采用最小二乘法估计回归系数。案例展示了从数据读取、特征解释到模型搭建的全过程,为房价预测提供了机器学习解决方案。
2026-04-21 20:29:29
480
原创 第六章 Matplotlib案例股票K线图绘制
本文介绍了使用Python绘制股票K线图的方法,主要包括两个步骤:1) 使用tushare获取股票数据;2) 使用mplfinance绘制K线图。文章详细讲解了K线图的基本概念(开盘价、收盘价、最高价、最低价)和颜色表示(红色阳线表示上涨,绿色阴线表示下跌)。同时展示了如何添加交易量图和均线图(5日、10日、20日均线),并说明了均线的计算方法。文中还提供了数据格式转换、图表样式设置等具体代码实现,帮助读者快速掌握股票K线图的绘制技巧。
2026-04-21 18:17:15
424
原创 第六章 Matplotlib
本文介绍了Matplotlib数据可视化库的基本使用方法。主要内容包括:1) 常用图表类型的绘制,如折线图、散点图、柱状图、直方图、饼图和箱形图;2) 图表样式自定义,包括线条颜色、类型、宽度和透明度的设置;3) 子图绘制方法,实现在同一画布上展示多个图表;4) 坐标轴设置技巧,包括刻度单位和显示范围的调整。文章通过代码示例和效果图展示了Matplotlib丰富的可视化功能,帮助读者快速掌握数据可视化的基本技能。
2026-04-14 20:55:30
398
原创 张雪峰走了:他撕开了社会的“遮羞布”,也堵上了普通人的“逃生窗”?
他全盘否定文科的价值,将其定义为“服务业(甚至是贬义的服务业)”,这种观点虽然迎合了当下“文科萎缩”的全球趋势,但也极其短视。他把家长对孩子未来的焦虑,把年轻人对“拼爹”社会的无力感,包装成段子,以一种“破罐子破摔式的清醒”投喂给大众。如果教育的目的只是为了“找个好工作”,如果评价人生的尺度只有“搞钱”和“上岸”,那么张雪峰所谓的“保护”,其实也是一种对年轻人精神世界的“围剿”。今天,我们不吹不黑,只想透过这位“德云社编外人员”的幽默,聊聊他留下的那剂治愈时代焦虑的“猛药”与“毒药”。
2026-04-02 16:13:54
279
1
原创 第四章 Numpy
本文介绍了Python中Numpy库的基础使用,包括数组创建、随机数生成和文件读写功能。Numpy提供了高效的数值计算能力,是科学计算和机器学习的重要基础。文章详细说明了如何通过列表或内置方法创建不同维度的数组,如何生成符合不同分布的随机数,以及如何将数组数据保存到文件或从文件加载。通过示例代码展示了Numpy数组与Python列表的区别,强调了Numpy在数值运算上的优势。
2026-03-31 20:43:13
329
原创 Python 生成随机数
本文演示了两种使用Python生成随机数的方法:1)使用numpy生成1000个标准正态分布随机数并保存为CSV文件;2)生成1-5范围内的1000个整数,按照10%、20%、30%、20%、20%的比例分布,同样保存为CSV文件。两种方法都利用了numpy的随机数生成功能(randn和choice函数),并通过pandas将结果转换为DataFrame后导出为CSV文件,便于后续分析和使用。代码示例清晰展示了从生成到保存的完整流程。
2026-03-31 20:39:04
49
原创 第一章 Jupyter Notebook基础实操
本文介绍了Jupyter Notebook的基础操作指南,主要包括:1)cell的基本概念,区分命令模式(蓝色边框)和编辑模式(绿色边框);2)cell的常用操作,包括运行、新增/删除、复制粘贴和类型转换(代码/markdown);3)实用技巧如切换输出显示、行号显示和重启内核;4)快速查看帮助信息的方法,使用?或Shift+Tab查看库和函数文档。这些功能帮助用户高效使用Jupyter Notebook进行编程和文档编写。
2026-03-31 20:33:38
386
原创 第二章 Python语法基础
Python语法基础摘要 本章介绍了Python编程的基本语法要素,包括: 变量与注释:变量命名规则、赋值操作及单行/多行注释写法 数据类型:数字类型(int/float/complex)的转换与运算、字符串的定义与常用方法 数据结构: 列表:有序可变序列,支持增删改查和切片操作 元组:有序不可变序列,创建后不能修改 集合:无序不重复元素集,可用于去重 代码结构:Python特有的缩进规则,使用Tab键控制代码块范围 这些基础语法是Python编程的核心组成部分,为后续学习更复杂的编程概念奠定基础。
2026-03-31 20:20:52
419
原创 第三章 Python文本分析基础
本文介绍了Python文本分析的基础知识,主要包括文件操作、正则表达式和分词三部分内容。在文件操作部分,讲解了绝对路径和相对路径的区别,以及Python中文件读写的不同模式(r/w/a/rb/wb)和使用方法,特别强调了文件编码问题。正则表达式部分详细说明了常用匹配符号的含义,并演示了re模块的match、search、findall、finditer和sub等核心函数的使用。分词部分展示了英文和中文分词的基本操作,通过实际代码示例帮助理解文本分析的基本流程。全文提供了丰富的代码实例,适合Python初学者
2026-03-24 20:58:09
442
原创 横截面分位数回归
传统回归通常分析自变量对因变量的均值影响,分位数回归则对于因变量不同分位点的影响进行分析,可以更好的揭示规律,尤其在收入分配等领域应用广泛。
2024-05-29 20:34:50
1618
原创 工具变量与两阶段最小二乘stata
以数据集grilic.dta为例,继续探讨教育投资回报率。此数据集的主要变量包括:lnw(工资对数),s(教育年限),expr(工龄),tenure(在现单位的工作年数),iq(智商),med(母亲的教育年限),kww(在“knowledge of the World of Work”测试中的成绩),rns(美国南方虚拟变量,住在南方=1),smsa(大城市虚拟变量,住在大城市=1)。/*读入数据*/use "C:\Users\Administrator\Desktop\stata work..
2022-05-25 17:29:09
20142
2
原创 金融统计分析与挖掘实战8.3-8.4
第八章 上市公司综合评价# 设置工作路径和导入基本数据分析包import osos.chdir("C:\\Users\\Administrator\\Desktop") #设置路径import pandas as pdimport numpy as np8.3 基于总体规模与投资效率的综合评价8.3.1 数据读取与处理data=pd.read_excel('data.xlsx') #读取数据data2=data.iloc[data['Accper'].values=='2016-12
2022-05-18 15:22:02
2543
1
原创 金融统计分析与挖掘实战7.6-7.7
7.6 沪深300指数走势预测import osos.chdir("C:\\Users\\Administrator\\Desktop") #设置路径import pandas as pdimport numpy as np7.6.1 读取数据td=pd.read_excel('index300.xlsx') # 读取数据td.head(6) # 查看前6行 Indexcd Idxtrd01 Idxtrd02
2022-05-13 15:40:20
1918
1
原创 金融统计分析与挖掘实战7.3-7.5
# 7.3 上市公式净利润增长率计算import osos.chdir("C:\\Users\\Administrator\\Desktop")import pandas as pddt = pd.read_excel('data2.xlsx') #获取数据dt.head(6) Stkcd Accper B002000101 0 16 2014-12-3
2022-05-11 15:27:08
3178
1
原创 金融统计分析与挖掘实战6.1-6.3
# 6.1 关联规则import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好# 6.2.1 一对一关联规则挖掘# 将原始数据转化为布尔数值表tiem = ['西红柿','排骨','鸡蛋','茄子','袜子','酸奶','土豆','鞋子']data = pd.read_excel('tr.xlsx'
2022-05-04 15:39:45
1589
2
原创 金融数据分析与挖掘实战5.6-5.7
# 5.6 支持向量机#汽车评价数据,6个特征变量,1个分类标签,共1728条记录#要求取1690条记录作为训练集,余下的作为测试集,计算预测准确率import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好# 1.读取数据data = pd.read_excel("car.xlsx")datah
2022-04-29 15:39:33
849
原创 金融统计分析与挖掘实战5.3-5.5
# 5.3 线性回归应用# 一、准备工作(导入包,输入数据,选择变量)import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好data = pd.read_excel("发电场数据.xlsx")datah = data.head(6) #看前6行的数据,本例中有9000多样本,显示全占用篇幅较大
2022-04-27 17:26:14
1609
原创 金融统计分析与挖掘实战5.1-5.2
# 第5章 机器学习包# 5.2.1 缺失值处理import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径,注意双\\ 任何操作前可以先将常用包和路径先设置好data = pd.read_excel("missing.xlsx") #将文件放到工作路径下,用该命令读取数据print(data) a b c d0 2.
2022-04-22 17:11:27
947
原创 金融统计分析与挖掘实战3.3.3-3.5
# 3.3.3 数据框# 8.as_matrix()报错import pandas as pdimport numpy as nplist1 = [1,2,3,4,5,6]list2 = [2,3,4,5,6,7]D = pd.DataFrame({"m1":list1,"m2":list2})print(D) m1 m20 1 21 2 32 3 43 4 54 5 65 6 7D1 = D.as_matrix()
2022-04-13 17:19:24
428
原创 金融统计分析与挖掘实战3.3.1-3.3.3
# 3.3 数据框 # 特征:多个序列按照相同的索引组成的二维表# 3.3.1 数据框的创建import pandas as pdimport numpy as np # 先导入两个最常用的数据处理分析包data = {"a" : [2,2,np.nan,5,6],"b" : ["kl","kl","kl",np.nan,"kl"],"c" : [4,6,5,np.nan,6],"d" : [7,9,np.nan,9,8]} #生成一个字典df = pd.DataFrame(data)
2022-04-08 17:37:40
1976
原创 金融统计分析与挖掘实战3.1-3.2
# 第三章 数据处理包 pandas# 3.2序列#3.2.1 序列的创建与访问import pandas as pdimport numpy as np # 数据分析前先导入两个最常见的包# 创建序列# 列表、元组和数组转化为序列s1 = pd.Series([1,-2,2.3,'hq']) #把列表转换为序列print(s1) #虽然我们没写索引,但系统默认了索引0 11 -22 2.33 hqdtype: objecttyp
2022-04-06 17:18:16
1168
2014-2021年各省、市、县 乡村创新创业指数
2024-07-18
中国劳动力动态调查2011-2016年
2023-03-05
市场化指数(1997-2022)
2022-06-10
地级市绿色全要素生产率(2000-2019).xlsx
2022-01-16
CFPS数据excel.zip
2021-03-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅