自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 Python爬虫入门

css选择器# bs4解析soup = BeautifulSoup(page_content,features="html5lib") #参数features="html5lib"是看了警告后加的,不想出现红字就加上了mainnav_type=soup.select('.mainnav-type') #选择所有class="mainnav-type"的元素,具体看css选择器的表格。

2023-09-07 10:42:11 190

原创 SciPy模块、StataModels模块、arch模块、datetime模块

还有一部分统计功能,略了包括描述性统计、连续概率分析、正态性统计检验。

2023-07-21 18:07:18 159

原创 Matplotlib模块的操作

【代码】Matplotlib模块的操作。

2023-07-18 21:08:58 157

原创 Pandas模块的操作

序列and数据框。

2023-07-15 14:36:36 121

原创 NumPy模块的操作

np.array([ ]) 列表→一维数组.reshape 一维数组→二维数组.ravel 多维数组→一维数组.shape 看数组几行几列.ndim 查看数组的维度.size 查看数组元素数量.dtype 查看数组的元素类型。

2023-07-12 10:00:14 45

原创 【R语言】神经网络

【代码】【R语言】神经网络。

2023-07-03 14:33:54 162

原创 【R语言】随机森林

每个记录由86个变量组成,包含社会人口统计数据(变量1~43)和产品所有权(变量44~86)。社会人口统计学数据来自邮政编码。生活在具有相同邮政编码的区域的所有客户具有相同的社会人口学属性。接下来使用ISLR包中的Caravan数据集来重新构建模型,该数据包含5822个真实客户记录。期望通过模型的构建,进行预测,判断用户是否会购买大篷车的保险。变量86(购买)表示客户是否购买了大篷车保险单。

2023-07-03 08:23:54 179

原创 【R语言】关联规则

【代码】【R语言】关联规则。

2023-07-02 18:39:42 206

原创 【R语言】聚类模型

本节用到的数据来源于25个欧洲国家的蛋白质摄入百分比,获取数据的链接是http://www.biz.uiowa.edu/faculty/jledolter/DataMining/protein.csv数据集包括25条数据、10个特征。

2023-07-01 10:06:44 87

原创 【R语言】逻辑回归模型

目的是预测哪些客户将拖欠信用卡债务有1万条数据、3个特征需要分析的是学生身份、信用卡余额、收入这3个特征,并对违约行为进行适当分类。

2023-06-30 20:56:28 143

原创 【R语言】线性回归模型

首先每个部分保持为测试数据,将模型重新拟合用于预测删除的观察结果的剩余k-1部分。将一组观察值随机地划分为大致相等大小的k个随机样本。然后计算均方误差来估计测试误差。

2023-06-30 16:17:39 91

原创 【R语言】多维缩放

【代码】【R语言】多维缩放。

2023-06-28 18:08:28 84 1

原创 【R语言】主成分分析

● 使用Cattell碎石图进行判断,碎石图绘制了特征值与主成分数量,这类图可以清晰地展示特征值与主成分个数之间的关系,图形变化最大之前的主成分都可以保留。● 平行分析法,其原理是模拟一个与原数据集相同大小的矩阵来判断提取的特征值,若真实的某个特征值大于随机数据矩阵的平均特征值,则可以保留。结果得到了所有的主成分,然后根据之前判断的主成分个数,选取相应的主成分,即可得到所需的结果。此外,通过仅对所有主成分的子集进行回归,主成分分析可以显著降低基础模型的参数数量。碎石图的结果给出了3种准则的评判结果。

2023-06-28 10:17:52 1156 2

原创 【R语言】生存分析

使用生存分析的原因是它具备处理删失数据的条件(测量或观察的数据仅部分已知的条件),而其他技术(包括线性回归)不能够很好地解决这类问题。●区间删失(Interval Censored):指的是事件的发生时间只能确定在某一时间区间内。删失数据:在研究某事物的观察过程中,该对象生存时间没有被完全观测到,造成生存数据不完整的现象。●右删失(Right Censored):指的是事件的发生时间只能确定在某一时间点之后。生成分析的目的:研究某对象某一时间某一事件的发生的概率,以及影响对象时间发生的因素。

2023-06-27 22:43:33 3096

原创 【R语言】数据探索

VIM包对数据的缺失值进行可视化,然后进行填补。

2023-06-25 16:55:57 586

原创 【R语言】数据集、数据结构等

向量——一维数组存储数值型、字符型或逻辑型数据同一向量中无法混杂不同模式的数据。

2023-06-25 16:38:29 245

原创 【R语言】数据的读取

col_names:可以是FALSE、TRUE或者一个字符向量,默认是TRUE。参数设置为TRUE表示读取第一行作为列明,参数设置为字符向量,表示将字符向量作为数据集的列名字。使用readxl包,提供了高效读取Excel数据的方式。skip:一个数值,表示读取数据时跳过多少条数据。n_max:一个数值,表示最多读取多少条数据。使用haven包,用于读取其他统计软件的数据。使用R语言自带的iris数据集做演示。关于system.file。

2023-06-25 16:23:54 2050

原创 【计量经济学及Stata应用】第11章 二值选择模型

Stata应用实例存档。

2023-06-12 12:52:38 936 2

原创 【计量经济学及Stata应用】第10章 工具变量法

OLS能够成立的最重要的条件是解释变量与扰动项不相关(即前定变量或同期外生的假设)。解释变量与扰动项相关(内生性)的例子很多。解决内生性的主要方法之一为工具变量法,它对于实证研究有着重要的价值。内生性的主要来源包括。前者已在第9章讨论,下面首先介绍后二者。

2023-06-09 23:51:09 6796

原创 【计量经济学及Stata应用】第9章 模型设定于数据问题

第。

2023-06-07 16:31:10 1328 1

原创 【计量经济学及Stata应用】第8章 自相关

(3)对数据进行人为处理导致的自相关:平移平均数、内插值(第9章)、季节调整(第13章)。(2)横截面数据不容易出现自相关,但相邻的观测单位之间也可能存在溢出效应,这种自相关也成为“空间自相关”。(4)设定误差:如果模型设定中遗漏了某个自相关的解释变量,并被纳入到扰动项中,则会引起扰动项的自相关。一阶自相关系数很接近置信区间的边界,故怀疑存在一阶自相关,而更高自相关则可大致忽略。由于自相关的存在,使得样本回归线上下摆动幅度增大,导致参数估计变得不准确。我感觉可以认为是可能出现自相关的几种情况。

2023-06-03 16:36:21 3046

原创 【计量经济学及Stata应用】第7章 异方差

OLS回归→计算残差→得到残差平方的对数→辅助回归→计算辅助回归的拟合值→去掉对数,得到方差估计值→WLS回归。缺点:如果解释变量较多,则解释变量的二次项(含交叉项)将更多,在辅助回归中将损失较多样本容量。残差可视为扰动项的实现值,可通过残差的波动来大致考察是否存在异方差。上面两幅图,表明很可能存在异方差,即扰动项的方差随着观测值而变。在BP检验的辅助回归中加入所有的二次项(含平方项与交叉项)加权之后的回归方程满足球形扰动项的假定,故是BLUE。通过变量转换,使得变换后的模型满足球形扰动项的假定。

2023-05-31 17:01:32 2624 2

原创 【计量经济学及Stata应用】第6章 大样本OLS

在计量经济学中,如果解释变量与扰动项相关,即二者的协方差不等于0,则称此解释变量为“内生解释变量”,简称“内生变量”,反之,则为“外生变量”。由于内生变量的存在,致使OLS回归出现偏差,统称为“内生性偏差”,或简称“内生性”。思路:x服从(0,1)上的均匀分布,抽取10000组样本,每组样本容量30,就是10000个30,计算出10000个样本均值,将这10000个样本均值画出来,看看是不是正态分布的形状。而根据大样本理论,只要研究统计量的大样本分布,相对比较容易推导(可使用大数定律与中心极限定理)。

2023-05-29 10:45:23 3293 1

原创 【计量经济学及Stata应用】第 5 章 多元线性回归

在假定5.1—5.4之下,最小二乘法是最佳线性无偏估计(Best Linear Unbiased Estimator,BLUE),即存在所有线性的无偏估计量中,最小二乘法的方差最小。这意味着,数据矩阵的各列向量为线性无关,即不存在某个解释变量为另一个解释变量的倍数,或可由其他解释变量线性表出的情形。类错误指的是,虽然原假设为假(替代假设为真),但却根据观测数据做出了接受假设的错误。类错误指的是,虽然原假设为真,但却根据观测数据做出了拒绝原假设的错误判断,即。,对解释变量过多(模型不够简洁)进行惩罚。

2023-05-06 00:21:34 3498

原创 【计量经济学及Stata应用】第 4 章 一元线性回归

由于无常数项的回归必然经过远点,故也称为“经过原点的回归”。在有常数项的情况下,根据平方和分解公式,可将被解释变量的离差平方和分解为。将被解释变量的平方和分成两部分:可由模型解释的部分,模型不可解释的部分。OLS估计量要有意义,分母必须有意义,不为零,解释变量。残差相加会出现正负相抵的现象,残差绝对值相加不易运算。被解释变量的均值恰好等于拟合值的均值,即。被解释变量可分解为相互正交的两个部分,即。根据一元回归的结果,教育投资的回报率为。,即每增加一年教育,平均可提高收入。是变的,不能是常数。

2023-04-30 16:28:02 5174 4

原创 【计量经济学及Stata应用】第 3 章 数学回顾

微积分部分略。

2023-04-29 11:03:50 1433 1

原创 【计量经济学及Stata应用】第 2 章 Stata 入门

1.复制粘贴。//适用:小数据2.点击“打开”,一步一步点。//适用:文件路径长,不好打字3.命令:use 路径 //适用:路径短,保存代码。

2023-04-28 10:09:47 455 1

原创 【计量经济学及Stata应用】第 1 章 导论

经济数据一般不是“实验数据”,而是自然发生的“观测数据”。由于个人行为的随机性,所有经济变量原则上都是随机变量。

2023-04-28 08:53:14 521 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除