weixin_44755943-CSDN博客

原创 Python 实现文本共现网络分析

在大规模语料中，若两个词经常共同出现（共现）在截取的同一单元（如一定词语间隔/一句话/一篇文档等）中，则认为这两个词在语义上是相互关联的，而且，共现的频率越高，其相互间的关联越紧密。在知识网络研究中应用普遍，最为常见的就是利用论文关键词及其共现关系构建共词矩阵，进而映射为共词网络并可视化，从而来揭示某一学科某一领域某一主题的研究热点与趋势、知识结构与演化等。其次，单个词出现的次数越多，在网络图中节点越大，若一个词与许多词均有联系，则这个词会在网络图的中心区域。数据采用的还是大江大河2弹幕数据。

2024-04-30 08:51:14 737 2

原创社交网络分析4（上）：社交网络链路预测分析、Logistic回归模型、LLSLP方法（LightGBM 堆叠链路预测）、正则化方法、多重共线性

基于网络结构的方法：依据社交网络的结构特征。基于内容的方法：根据用户生成的内容进行预测。基于用户行为的方法：依据用户的活动和互动模式。此分析的目标是预测未来可能形成的联系，从而提升社交网络的推荐质量和预测准确性。它在社交网络、推荐系统、数据挖掘等领域有着广泛的应用。

2024-04-29 18:27:38 793

原创 R语言实现地理探测器的流程及代码

在文本介绍csv格式的数据的前4个函数（factor_detector，interaction_detector，risk_detector，ecological_detector）在R包中的实现。>factor_detector("Y", "X", as.data.frame(文件夹名称)) *其中as函数为转换为数据框**其中当”X"为多个因子的时候，可以用c(2,3,4,5,6,7,8,9,10,11) 表示，数字代表列号。> 文件夹名称=read_csv("文件夹名称.csv") *数据赋值*

2024-04-29 18:12:14 735

原创离散选择模型（Discrete Choice Model）简介——离散选择模型之（1）

离散选择模型（Discrete Choice Model, DCM）在经济学领域和社会学领域都有广泛的应用。例如，消费者在购买汽车的时候通常会比较几个不同的品牌，如福特、本田、大众，等等。如果将消费者选择福特汽车记为Y=1，选择本田汽车记为Y=2，选择大众汽车记为Y=3；那么在研究消费者选择何种汽车品牌的时候，由于因变量不是一个连续的变量（Y=1, 2, 3），传统的线性回归模型就有一定的局限。

2024-04-28 09:50:12 1572

原创计量相关问题解决办法

2进一步可以用逐步回归法，方差膨胀因子VIF来检验，一般情况下VIF大于5就表明存在较为严重的多重共线性，利用条件数来判断，如果条件数小于30，表明不存在共线性，在30到100之间表明存在一定程度的多重共线性，但不会对模型的回归与解释产生影响，如果高于100则表明存在严重的多重共线性。而第二种情况，这个异常值不管在X还是Y的分布上，都看起来“异常”，至少其仍然处于比较正常的X和Y的分布范围内，但这个数据对于回归曲线斜率的影响是很大的。一致性最重要，最基本的要求，内生性是保证OLS为一致估计量的重要条件。

2024-04-28 09:21:57 853

原创常用计量经济模型汇总/附案例教程

时间序列模型就是利用时间序列的相关性质建立起来的，是一种先进的统计方法，当有足够多的数据来构成一个时间序列，此时建立起来的时间序列模型通常可以得到很好的预测效果。

2024-04-25 22:33:43 3215

原创因变量二分类资料的Probit回归分析

一般情况下，在我们研究的回归模型中，都隐含的假定了因变量（Y）是定量的，而解释变量（X）是定量、定性（或虚拟变量）。当因变量（Y）为二值定性的情况：比如一个家庭是否拥有一所住房，如拥有 Y=1，不拥有 Y=0，则被称为线性概率模型。当因变量为二值时，X 与 Y 的关系如图中的点:要预测的值y为期望令根据员工满意度、月均工作小时、工伤事故、薪资水平四个影响因素(自变量)研究员工是否离职。● 对于连续自变量的边际效应值的意义为：该自变量每增加一个单位，带来因变量的概率上升或下降多少百分比。

2024-04-25 22:22:59 1018

原创应用VAR模型时的15个注意点

如单位根有大于1的，考虑对原始序进行降阶处理（一阶单整序列处理方法：差分或取对数，二阶单整序列：理论上可以差分与取对数同时进行，但由于序列失去了经济含义，应放弃此处理，可考虑序列的趋势分解，如分解后仍然不能满足要求，可以罢工，不建立任何模型，休息或是打砸了电脑），处理过后对新的序列（包括最初的哪些平稳序列）不断重复第一步与第二步，直至满足稳定性为止。由于VAR是无约束的，而协整是有约束的，因此协整检验的最优滞后一般为VAR的最优滞后减去1，确定了最优滞后后，再去诊断检验形式，最终才能做协整。

2024-04-25 22:13:20 769

原创时间序列分析|VAR向量自回归

向量自回归模型（vector autoregressive model，简称VAR模型）是非结构性方程组模型，用于估计多个变量之间的动态关系。向量自回归模型把系统中每一个内生变量作为系统中所有内生变量的滞后值的函数来构造模型，从而实现了将单变量自回归模型推广到由多元时间序列变量组成的“向量”自回归模型。比如说存在一个系统，系统内有多个变量，VAR 模型分别将每一个变量作为因变量 Y，而系统内所有变量的滞后值作为自变量来建立方程。

2024-04-25 18:51:39 1285

原创格兰因果模型可以分析哪些东西_计量 | 使用向量自回归模型(VAR)的操作要点

如单位根有大于1的，考虑对原始序进行降阶处理(一阶单整序列处理方法：差分或取对数，二阶单整序列：理论上可以差分与取对数同时进行，但由于序列失去了经济含义，应放弃此处理，可考虑序列的趋势分解，如分解后仍然不能满足要求，可以罢工，不建立任何模型，休息或是打砸了电脑)，处理过后对新的序列(包括最初的哪些平稳序列)不断重复第一步与第二步，直至满足稳定性为止。2、当检验的数据是平稳的(即不存在单位根)，要想进一步考察变量的因果联系，可以采用格兰杰因果检验，但要做格兰杰检验的前提是数据必须是平稳的，否则不能做。

2024-04-22 17:40:53 653

原创地理探测器(GeoDetector)原理及其实现

而geodetector包需要的自变量数据需要是分级之后的（如使用ArcGIS的reclassify工具实现栅格数据分级，再使用点数据提取分级数值），可以是Excel、CSV等格式（分别通过调用readxl,readr包中的read_xlsx,read_csv函数实现）。评估的方法是首先分别计算两种因子X1和X2对Y的q值：q(X1)和q(X2)，并且计算它们交互（叠加变量X1和X2两个图层相切所形成的新的多边形分布）时的q值： q(X1∩X2)，比较 q(X1)、 q(X2)与 q(X1∩X2)的大小。

2023-11-16 17:35:07 6951 1

原创空间数据挖掘常用的17种方法

设U 是一个用精确数值表示的论域(一维的、二维的或多维的)，U 上对应着定性概念Ã，对于论域中的任意一个元素x，都存在一个有稳定倾向的随机数y=μA(x)，叫作x 对概念Ã 的确定度，x 在U上的分布称为云模型，简称为云。的一个分支，是在空间数据库的基础上，综合利用各种技术方法，从大量的空间数据中自动挖掘事先未知的且潜在有用的知识，提取出非显式存在的空间关系或其它有意义的模式等，揭示出蕴含在数据背后的客观世界的本质规律、内在联系和发展趋势，实现知识的自动获取，从而提供技术决策与经营决策的依据。

2023-11-16 17:29:21 329 1

原创计量——中介变量、调节变量、协变量、控制变量、内生变量、外生变量

调节变量：Y与X的关系受第三个变量的影响中介变量：研究传导机制的中间变量。

2023-10-27 17:39:55 14110 1

weixin_44755943的博客