Vickie_wwq-CSDN博客

原创 Python爬虫入门

css选择器# bs4解析soup = BeautifulSoup(page_content,features="html5lib") #参数features="html5lib"是看了警告后加的，不想出现红字就加上了mainnav_type=soup.select('.mainnav-type') #选择所有class="mainnav-type"的元素，具体看css选择器的表格。

2023-09-07 10:42:11 672

原创 SciPy模块、StataModels模块、arch模块、datetime模块

还有一部分统计功能，略了包括描述性统计、连续概率分析、正态性统计检验。

2023-07-21 18:07:18 324

原创 Matplotlib模块的操作

【代码】Matplotlib模块的操作。

2023-07-18 21:08:58 368

原创 NumPy模块的操作

np.array([ ]) 列表→一维数组.reshape 一维数组→二维数组.ravel 多维数组→一维数组.shape 看数组几行几列.ndim 查看数组的维度.size 查看数组元素数量.dtype 查看数组的元素类型。

2023-07-12 10:00:14 125

原创【R语言】随机森林

每个记录由86个变量组成，包含社会人口统计数据（变量1～43）和产品所有权（变量44～86）。社会人口统计学数据来自邮政编码。生活在具有相同邮政编码的区域的所有客户具有相同的社会人口学属性。接下来使用ISLR包中的Caravan数据集来重新构建模型，该数据包含5822个真实客户记录。期望通过模型的构建，进行预测，判断用户是否会购买大篷车的保险。变量86（购买）表示客户是否购买了大篷车保险单。

2023-07-03 08:23:54 831

原创【R语言】聚类模型

本节用到的数据来源于25个欧洲国家的蛋白质摄入百分比，获取数据的链接是http://www.biz.uiowa.edu/faculty/jledolter/DataMining/protein.csv数据集包括25条数据、10个特征。

2023-07-01 10:06:44 304

原创【R语言】逻辑回归模型

目的是预测哪些客户将拖欠信用卡债务有1万条数据、3个特征需要分析的是学生身份、信用卡余额、收入这3个特征，并对违约行为进行适当分类。

2023-06-30 20:56:28 462

原创【R语言】线性回归模型

首先每个部分保持为测试数据，将模型重新拟合用于预测删除的观察结果的剩余k-1部分。将一组观察值随机地划分为大致相等大小的k个随机样本。然后计算均方误差来估计测试误差。

2023-06-30 16:17:39 342

●　使用Cattell碎石图进行判断，碎石图绘制了特征值与主成分数量，这类图可以清晰地展示特征值与主成分个数之间的关系，图形变化最大之前的主成分都可以保留。●　平行分析法，其原理是模拟一个与原数据集相同大小的矩阵来判断提取的特征值，若真实的某个特征值大于随机数据矩阵的平均特征值，则可以保留。结果得到了所有的主成分，然后根据之前判断的主成分个数，选取相应的主成分，即可得到所需的结果。此外，通过仅对所有主成分的子集进行回归，主成分分析可以显著降低基础模型的参数数量。碎石图的结果给出了3种准则的评判结果。

2023-06-28 10:17:52 3778 2

原创【R语言】生存分析

使用生存分析的原因是它具备处理删失数据的条件（测量或观察的数据仅部分已知的条件），而其他技术（包括线性回归）不能够很好地解决这类问题。●区间删失（Interval Censored）：指的是事件的发生时间只能确定在某一时间区间内。删失数据：在研究某事物的观察过程中，该对象生存时间没有被完全观测到，造成生存数据不完整的现象。●右删失（Right Censored）：指的是事件的发生时间只能确定在某一时间点之后。生成分析的目的：研究某对象某一时间某一事件的发生的概率，以及影响对象时间发生的因素。

2023-06-27 22:43:33 5312

原创【R语言】数据探索

VIM包对数据的缺失值进行可视化，然后进行填补。

2023-06-25 16:55:57 1375

原创【R语言】数据集、数据结构等

向量——一维数组存储数值型、字符型或逻辑型数据同一向量中无法混杂不同模式的数据。

2023-06-25 16:38:29 556

原创【R语言】数据的读取

col_names：可以是FALSE、TRUE或者一个字符向量，默认是TRUE。参数设置为TRUE表示读取第一行作为列明，参数设置为字符向量，表示将字符向量作为数据集的列名字。使用readxl包，提供了高效读取Excel数据的方式。skip：一个数值，表示读取数据时跳过多少条数据。n_max：一个数值，表示最多读取多少条数据。使用haven包，用于读取其他统计软件的数据。使用R语言自带的iris数据集做演示。关于system.file。

2023-06-25 16:23:54 3034

原创【计量经济学及Stata应用】第11章二值选择模型

Stata应用实例存档。

2023-06-12 12:52:38 2055 3

原创【计量经济学及Stata应用】第10章工具变量法

OLS能够成立的最重要的条件是解释变量与扰动项不相关（即前定变量或同期外生的假设）。解释变量与扰动项相关（内生性）的例子很多。解决内生性的主要方法之一为工具变量法，它对于实证研究有着重要的价值。内生性的主要来源包括。前者已在第9章讨论，下面首先介绍后二者。

2023-06-09 23:51:09 16428 1

原创【计量经济学及Stata应用】第9章模型设定于数据问题

第。

2023-06-07 16:31:10 3473 1

原创【计量经济学及Stata应用】第8章自相关

（3）对数据进行人为处理导致的自相关：平移平均数、内插值（第9章）、季节调整（第13章）。（2）横截面数据不容易出现自相关，但相邻的观测单位之间也可能存在溢出效应，这种自相关也成为“空间自相关”。（4）设定误差：如果模型设定中遗漏了某个自相关的解释变量，并被纳入到扰动项中，则会引起扰动项的自相关。一阶自相关系数很接近置信区间的边界，故怀疑存在一阶自相关，而更高自相关则可大致忽略。由于自相关的存在，使得样本回归线上下摆动幅度增大，导致参数估计变得不准确。我感觉可以认为是可能出现自相关的几种情况。

2023-06-03 16:36:21 8511 4

原创【计量经济学及Stata应用】第7章异方差

OLS回归→计算残差→得到残差平方的对数→辅助回归→计算辅助回归的拟合值→去掉对数，得到方差估计值→WLS回归。缺点：如果解释变量较多，则解释变量的二次项（含交叉项）将更多，在辅助回归中将损失较多样本容量。残差可视为扰动项的实现值，可通过残差的波动来大致考察是否存在异方差。上面两幅图，表明很可能存在异方差，即扰动项的方差随着观测值而变。在BP检验的辅助回归中加入所有的二次项（含平方项与交叉项）加权之后的回归方程满足球形扰动项的假定，故是BLUE。通过变量转换，使得变换后的模型满足球形扰动项的假定。

2023-05-31 17:01:32 6985 2

原创【计量经济学及Stata应用】第6章大样本OLS

在计量经济学中，如果解释变量与扰动项相关，即二者的协方差不等于0，则称此解释变量为“内生解释变量”，简称“内生变量”，反之，则为“外生变量”。由于内生变量的存在，致使OLS回归出现偏差，统称为“内生性偏差”，或简称“内生性”。思路：x服从(0,1)上的均匀分布，抽取10000组样本，每组样本容量30，就是10000个30，计算出10000个样本均值，将这10000个样本均值画出来，看看是不是正态分布的形状。而根据大样本理论，只要研究统计量的大样本分布，相对比较容易推导（可使用大数定律与中心极限定理）。

2023-05-29 10:45:23 6541 2

原创【计量经济学及Stata应用】第 5 章多元线性回归

在假定5.1—5.4之下，最小二乘法是最佳线性无偏估计（Best Linear Unbiased Estimator，BLUE），即存在所有线性的无偏估计量中，最小二乘法的方差最小。这意味着，数据矩阵的各列向量为线性无关，即不存在某个解释变量为另一个解释变量的倍数，或可由其他解释变量线性表出的情形。类错误指的是，虽然原假设为假（替代假设为真），但却根据观测数据做出了接受假设的错误。类错误指的是，虽然原假设为真，但却根据观测数据做出了拒绝原假设的错误判断，即。，对解释变量过多(模型不够简洁)进行惩罚。

2023-05-06 00:21:34 5975

weixin_46155316的博客

原创 Python爬虫入门

原创 SciPy模块、StataModels模块、arch模块、datetime模块

原创 Matplotlib模块的操作

原创 Pandas模块的操作

原创 NumPy模块的操作

原创【R语言】神经网络

原创【R语言】随机森林

原创【R语言】关联规则

原创【R语言】聚类模型

原创【R语言】逻辑回归模型

原创【R语言】线性回归模型

原创【R语言】多维缩放

原创【R语言】主成分分析