自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 基于支持向量机的量化选股模型

要求开发一个基于支持向量机技术的多因子量化投资模型,以近五年沪深300成分股的交易与财务数据为样本,结合大数据相关技术进行数据清洗,整理,存储,并构建投资策略与回测框架,输出量化投资模型的结果,为投资者选股与择时提供参考信号,具体要求如下:从金融数据库(CSMAR、jqdata、tushare)获得2014-2020年股票行情数据以及公司的财务数据利用数据构造相关选股因子,并进行数据清洗、数据预处理等操作 以上述选股因子作为特征,并以下一期收益率数据作为标签,选取前 70%的数据作为训练集,后30..

2022-03-20 09:51:11 5913 8

原创 kaggle数分项目 | netfix影视内容分析

2022-03-18 22:47:28 2256

原创 获取动态下拉加载数据

然后我找到了一篇大佬的文章可以用selimun实现模拟下拉的动作,但是其中用到的很多包之前没有学习过...@classmethod的用法@classmethod都可以直接类名.方法名()来调用也不需要self参数,但第一个参数需要是表示自身类的cls参数unittest测试框架unittest 是python的单元测试框架,unitt..

2022-03-08 15:53:28 969

原创 踩坑 | selenium的环境搭建

Web自动化测试 —— 测试环境搭建 (Selenium+Python) Windows篇_技在手,能在身,思在脑,从容过生活。-CSDN博客_web自动化测试seleniumz之前不知道啥时候安装了selenium包,但是又一直没用,今天要用的时候才知道还要配置环境。最开始一直报错“selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH.”然后去下载

2022-02-26 18:05:36 752 2

原创 《游戏数据分析实战》总结&思考

对于一个游戏行业的门外汉,这本书对于了解游戏业务具有很强的指导性,通过大量的案例说明了游戏这一具有特殊行业逻辑的行业,如何针对性地进行数据分析。一、游戏关键数据指标1、转化率——从点击广告到付费的每一步转化(常使用漏斗图分析)激活率、激活且登录率分析各个环节的转换率,对各渠道各项转化率以及后续用户质量进行长期监控,寻找提升渠道转换率的策略(调整广告投放等)2、留存率——新用户在一段时间内再次登录游戏的比例,从新用户转变为活跃用户、稳定、忠诚用户的过程。根据时间频率分(..

2022-02-21 12:51:04 7233 1

原创 泰坦尼克号生存率预测(持续更新中,探索性数据分析...)

探索性数据分析:目的是了解数据集的要点,即对数据的初步了解。当你收到一个数据集时,你需要对数据集的变量、数据类型和变量之间的关系有一个概念。

2022-12-06 00:06:42 734

原创 统计分析常见思维

在统计学章节中讨论过的内容,我们有两种变量分类和数字,这些变量又进一步细分为序数和名义,以及数字变量的连续和离散,如图所示。

2022-11-30 15:20:01 328

原创 稳健性检验套路汇总!(持续更新......)

稳健性检验通常有三种:一、改变变量的代理(更换自变量、更换因变量的构造方法)二、改变估计方法,如考虑内生性等(工具变量法、2sls估计法、GMM估计法、DID估计法)三、改变模型设定,增减变量

2022-11-01 09:35:41 11426

原创 关联规则挖掘在股票联动分析中的应用

掌握关联规则挖掘技术,能够在真实的金融数据集上利用该技术进行数据关联分析,并提取相应的关联规则。

2022-11-01 09:33:44 661

原创 Stata命令自查2.0

DID方法,stata怎么求指定时间段的均值。

2022-10-05 17:07:09 1165

原创 内生性解决方法——stata命令

内生性问题——工具变量、heckman二阶段回归、PSM、DID等方法的stata命令。

2022-06-18 19:32:33 10083

原创 用sklearn库快速实现数据处理

数据预处理 (1)缺失值处理from sklearn.preprocessing import Imputer1)用平均数填充2)用中位数填充3)用最频繁值(众数)填充(2)数据标准化from sklearn.preprocessing import StandardScaler

2022-06-17 20:23:43 152

原创 Pandas库常用命令汇总——自用备查(挖坑,持续更新)

pandas库是进行数据处理于分析的最常用的python库之一,其具有非常强大的功能,现将Pandas库常用命令汇总(挖坑,持续更新)

2022-06-17 16:21:53 563

原创 NLP文本情感——SNOWNLP简易版

NLP情感分析简介:NLP(Natural Language Processing,自然语言处理)研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯。自然语言生成三阶段:文本规划、语句规划、实现NLP应用领域:机器翻译、情感分析、智能问答、文摘生成、文本分类、舆论分析、知识图谱。情感分析是自然语言处理(NLP)领域的一类任务,又称倾向性分析,意见抽取,意见挖掘,情感挖掘,主观分析等,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。常

2022-05-25 11:00:40 2847

原创 计量常用知识——自用备查

参考:实证论文怎么写? - 知乎1.控制变量、中介变量与调节变量调节变量是与控制变量都是自变量。调节变量是外来的变量,非模型的一部分,只有在证明存在干扰效果的时候才会代入。控制变量是模型的一部分,主要目的是为了得到更为精确的估计。调节变量不是研究者关注的核心自变量,而是为了澄清核心自变量与因变量的关系,即:在调节变量取不同值的情况下,核心自变量与因变量的关系有何变化。 比较一下,控制变量也是为了澄清上述关系,但控制变量的终极目标是分离出核心自变量对因变量的纯影响 ...控制变量是模型中除了自变.

2022-05-25 09:53:54 8173 1

原创 异方差、自相关

一、异方差异方差——用人话解释:随机扰动项的方差跟自变量有关系异方差的后果:1、OLS的估计仍然是无偏、一致的2、T检验、F检验失效3、高斯马克尔科夫定理使用了同方差假设——OLS不再是BLUE(Best Linear Unbiased Estimation)即无偏最小估计量异方差的检验——不满足球形扰动项1.White 检验2. BP 检验两者的区别:White 检验包含交互项和高次项BP 检验优势是可以帮助确定异方差的具体形..

2022-05-24 00:47:17 9842 1

原创 学术研究 | 工具变量

工具变量工具变量需要满足两个比较矛盾的条件——相关性与外生性即工具变量必须和内生解释变量(x)强相关 ,工具变量跟随机扰动项不相关(外生性)参考:B站UP主Silencedream视频

2022-05-24 00:19:26 1930

原创 stata常用命令汇总——自用备查

用stata软件进行数据处理的时候经常需要用的命令,防止经常去查,汇总一下,以备快速查询

2022-03-31 15:43:27 27203 1

原创 学术研究 | 选题

一直在被论文折磨到头秃...还是记录下一些重要的事吧,以后常看常新,少走弯路。什么是一个好的选题?1、具有重大意义2、新颖:把话题带入了一个崭新的方向,有时,这个新的方向是在对话中加入了新的词汇, 体现在新的想法和概念中,有时,新的方向源于前人没有说清楚的新见解。 选题太熟悉使得研究最多被认为是现有对话的一个边际拓展;选题太成熟使得研究的贡献被视作徒劳;选题与现有文献太相近则被视为重叠并且脱离了对核心现象的观察。 选题并非绝对的创新,要建立在前人的基础之上, 在充分了解已有相关的研

2022-03-26 10:08:02 389

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除