- 博客(345)
- 资源 (6)
- 收藏
- 关注
原创 Spatial Data Analysis(五):使用 `census` 包获取人口普查数据
本教程将帮助您学习如何使用 python 直接获取人口普查数据,以避免从人口普查网站下载的麻烦。安装“census”和“us”包。 “us”包提供了一些对 FIPS 代码的便捷查找。Import the packages首先,从此处获取人口普查 API 密钥。 这将要求您输入您的隶属关系和电子邮件。 然后您需要通过电子邮件激活您的 API 密钥。 然后您将得到一个长密钥字符串来替换我这里的字符串:然后我们可以使用一个函数来自动下载人口普查数据并将其制作成格式良好的 Dataframe。以下是获取变量
2023-12-06 18:02:42 964
原创 Spatial Data Analysis(四):空间自相关示例
在空间分析中,全局 Moran’s I 和 p 值通常一起使用,以确认空间数据集是否呈现出显著的空间自相关性。如果 Moran’s I 的值接近1且 p 值小于0.05,则可以得出结论,空间数据集呈现出显著的空间自相关性,即空间聚集现象。反之,如果 p 值大于0.05,则可以得出结论,空间数据集中观测点的价值没有表现出统计学上显著的空间自相关性。如果点之间的距离越远,它们之间的空间滞后就越大。全局 Moran’s I 是一个用于空间自相关性检测的指标,它可以用于检测空间数据集中的空间聚集现象。
2023-12-06 17:07:08 3399
原创 Spatial Data Analysis(三):点模式分析
--- 1853年伦敦霍乱爆发在此示例中,我将演示如何使用 John Snow 博士的经典霍乱地图在 Python 中执行 KDE 分析和距离函数。原始数据从这里获得:rasterioseabornpointpats。
2023-12-06 00:13:23 1168
原创 Spatial Data Analysis(二):网络分析
可以指定自定义过滤器,并且可以在此处找到关键字:https://wiki.openstreetmap.org/wiki/Map_features。要绘制图形,您需要定义节点的位置,或者您可以使用一些预定义的布局,例如此处的“shell_layout”(同心圆)。在这里,我们将使用一个名为“osmnx”的包,它可以获取开放街道地图数据并将它们放入干净的网络格式。您可以获取世界上任何城市/地点的数据。绘制网络,可以修改颜色、节点大小、图大小等。浅黄色区域是具有较高程度中心性的地点/节点。
2023-12-04 15:59:36 686 1
原创 Spatial Data Analysis(一):线性回归
来源:https://github.com/Ziqi-Li/GEO4162C/tree/main在此示例中,我们将介绍如何在 python 中拟合线性回归模型。我们将使用的数据集是 2020 年县级选举投票数据以及来自 ACS 的社会经济数据。使用公共键合并两个 DataFrame。制作一张关于人们如何投票的地图。非常熟悉的蓝红色景观。
2023-12-04 15:53:29 1037
原创 SHAP(六):使用 XGBoost 和 HyperOpt 进行信用卡欺诈检测
本笔记本介绍了 XGBoost Classifier 在金融行业中的实现,特别是在信用卡欺诈检测方面。构建 XGBoost 分类器后,它将使用 HyperOpt 库(sklearn 的 GridSearchCV 和 RandomziedSearchCV 算法的替代方案)来调整各种模型参数,目标是实现正常交易和欺诈交易分类的最大 f1 分数。作为模型评估的一部分,将计算 f1 分数度量,为分类构建混淆矩阵,生成分类报告并绘制精确召回曲线。
2023-12-02 23:45:16 990
原创 SHAP(五):使用 XGBoost 进行人口普查收入分类
本笔记本演示了如何使用 XGBoost 预测个人年收入超过 5 万美元的概率。它使用标准 UCI 成人收入数据集。要下载此笔记本的副本,请访问。XGBoost 等梯度增强机方法对于具有多种形式的表格样式输入数据的此类预测问题来说是最先进的。Tree SHAP()允许精确计算树集成方法的 SHAP 值,并已直接集成到 C++ XGBoost 代码库中。这允许快速精确计算 SHAP 值,无需采样,也无需提供背景数据集(因为背景是从树木的覆盖范围推断出来的)。
2023-12-02 21:54:09 1476
原创 SHAP(四):NHANES I 生存模型
XGBoost 的 SHAP 值解释了模型的边际输出,即 Cox 比例风险模型的死亡对数几率的变化。我们可以从下面看到,根据模型,死亡的主要危险因素是年老。死亡风险的下一个最有力的指标是男性。该摘要图取代了特征重要性的典型条形图。它告诉我们哪些特征是最重要的,以及它们对数据集的影响范围。颜色使我们能够匹配特征值的变化如何影响风险的变化(例如高白细胞计数导致高死亡风险)。
2023-12-02 17:05:40 1787
原创 SHAP(三):在解释预测模型以寻求因果见解时要小心
与 Microsoft 的 Eleanor Dillon、Jacob LaRiviere、Scott Lundberg、Jonathan Roth 和 Vasilis Syrgkanis 合作撰写的关于因果关系和可解释机器学习的文章。当与 SHAP 等可解释性工具配合使用时,XGBoost 等预测机器学习模型会变得更加强大。这些工具确定输入特征和预测结果之间信息最丰富的关系,这对于解释模型的作用、获得利益相关者的支持以及诊断潜在问题非常有用。
2023-12-02 02:09:00 1139
原创 SHAP(一):具有 Shapley 值的可解释 AI 简介
这是用 Shapley 值解释机器学习模型的介绍。沙普利值是合作博弈论中广泛使用的方法,具有理想的特性。本教程旨在帮助您深入了解如何计算和解释基于 Shapley 的机器学习模型解释。我们将采取实用的实践方法,使用“shap”Python 包来逐步解释更复杂的模型。这是一个动态文档,作为“shap” Python 包的介绍。因此,如果您有反馈或贡献,请提出问题或拉取请求,以使本教程变得更好!
2023-11-28 01:22:36 2430
原创 SHAP(二):使用 XGBoost 预测英雄联盟获胜
特定预测的特征的 SHAP 值表示当我们观察该特征时模型预测的变化程度。在下面的汇总图中,我们将单个特征(例如“goldearned”)的所有 SHAP 值绘制成一行,其中 x 轴是 SHAP 值(对于该模型,以获胜的对数赔率为单位)。通过对所有特征执行此操作,我们可以看到哪些特征对模型的预测有很大影响(例如“goldearned”),哪些特征对预测影响很小(例如“kills”)。请注意,当点在线上不一致时,它们会垂直堆积以显示密度。每个点也根据该特征的值从高到低进行着色。
2023-11-05 23:29:57 707
原创 地理加权回归GWR(Geographically Weighted Regression)
本笔记本演示了如何使用 Oshan 等人中包含的示例代码使用 MGWR Python 包执行地理加权回归GWR(Geographically Weighted Regression)是一种空间数据分析方法,用于处理空间异质性(spatial heterogeneity)问题。与传统的全局回归方法不同,GWR考虑了空间上相邻观测点之间的关联性,允许回归系数在空间上发生变化。这意味着,GWR可以捕捉到在空间上不同地区(或位置)的变量之间关系的差异。
2023-10-30 23:22:55 1731 1
原创 ESDA in PySal (6):评估空间异方差的局部模式:LOSH
在下面的笔记本中,我们回顾了提出的局部空间异方差 (LOSH) 统计量 (Hi) -y)。LOSH 旨在作为分析空间过程平均水平的本地统计数据的补充。LOSH 侧重于分析空间过程的方差。正如 Ord 和 Getis 所概述的,考虑 10 x 10 的属性值网格。在这个网格中,有一个中心高租金区域(由单元格为 1 标识)和周围的低值区域(由单元格为 0 标识)。
2023-10-17 15:36:43 219
原创 ESDA in PySal (5):空间数据的探索性分析:空间自相关
在本笔记本中,我们介绍_探索性空间数据分析_的方法旨在通过正式的单变量和空间聚类的多变量统计检验。
2023-10-17 15:19:43 1281 1
原创 ESDA in PySal (4):shape-measures:形状测量
esda.shape模块提供文献中使用的统计数据来测量多边形的结构和规则性。这些测量值从非常简单(例如长宽差)到非常复杂(例如归一化转动惯量)不等。无论如何,我们将逐步计算密西西比州各县的一些度量值。为什么是密西西比州?因为密西西比州西侧的县与密西西比河相连,河道蜿蜒曲折。一般来说,我们会认为该州左侧的县比右侧面积更大的县更“不规则”。第一个非常简单的测量是形状的长度和宽度之间的差异。该测量是伸长率的测量。您可以看到下面的效果,其中相对正方形的县被涂成深蓝色,而拉长的矩形县则被涂成浅黄色。
2023-10-17 14:45:24 136
原创 ESDA in PySal (3):Geosilhouettes:集群拟合的地理测量
是观测值与给定聚类的拟合优度的非参数度量。在聚类具有“地理”解释的情况下,例如当它们代表地理区域时,轮廓统计可以结合“空间思维”,以便提供更有用的聚类拟合度量。。这两项新措施共同提供了测量地理数据科学中聚类问题中聚类拟合优度的新方法。下面,我们将深入探讨这些是如何在“esda”包中实现的。首先,让我们设置一些数据。我们将考虑单个单变量数据集,即 1989 年美国南部腹地各县的基尼指数。最后,出于绘图目的,让我们获取底图。
2023-09-17 22:09:42 212
原创 ESDA in PySal (2) localjoincounts
PySAL有5种全局自相关检验:Gamma值、Join Count、Moran’s I、Geary’s C、和Getis and Ord’s G在下面的笔记本中,我们回顾了提出的不同类型的本地连接计数(LJC)。LJC 关注采用二进制值(例如 0 或 1)的空间现象,例如美国大选的获胜与失败,。这套探索性统计数据对于想要关注 Anselin 和 Li 所说的“协同定位”不同类型的分析师来说特别有用。即是否存在特定的 0 或 1 值。下面提供了每个统计数据的用例及其在 PySAL 中的实现。
2023-08-29 16:57:26 342
原创 ESDA in PySal (1) 利用 A-DBSCAN 聚类点并探索边界模糊性
在本例中,我们将以柏林的 AirBnb 房源样本为例,说明如何使用 A-DBSCAN (
2023-08-29 16:41:02 835
原创 Kaggle(3):Predict CO2 Emissions in Rwanda
在本次竞赛中,我们的任务是预测非洲 497 个不同地点 2022 年的二氧化碳排放量。在训练数据中,我们有 2019-2021 年的二氧化碳排放量1.通过平滑消除2020年一次性的新冠疫情趋势。或者,用 2019 年和 2021 年的平均值来估算 2020 年也是一种有效的方法,但此处未实施2.3. 以 2019 年和 2020 年为训练数据,用一些集成模型进行实验,以测试其在 2021 年数据上的 CV。
2023-08-26 00:50:24 471
原创 Kaggle (2) :Bike Sharing Demand 共享单车需求预测
采用xgboost+random forest,虽然包括random forest在内的模型在cross validation上表现很不错,但实际上还是存在过拟合,且使用随机交换特征等数据增强的效果也不怎么好。可以发现,在工作日中的高峰期是早上8点和下午17点、18点;可见注册用户具有和【工作日中的时间-使用量】相似的使用曲线;而非注册用户则具有和【非工作日中的时间-使用量】相似的使用曲线。进一步分析可以发现,和注册用户相比,非注册用户更倾向于在非工作日中使用自行车。可见工作日和非工作日有明显的差距;
2023-07-28 21:08:22 850
原创 Geocomputation (7)地理数据I/O
本章介绍地理数据的读写。地理数据导入对于地理计算至关重要:没有数据,现实世界的应用程序就不可能实现。数据输出也至关重要,使其他人能够使用您工作中产生的有价值的新数据集或改进的数据集。总的来说,这些导入/输出过程可以称为数据I/O。地理数据 I/O 通常在项目开始和结束时只需几行代码即可完成。它作为一个简单的一步过程经常被忽视。
2023-07-07 01:22:04 746
原创 Geocomputation (6)重新投影地理数据
sec-coordinate-reference-systems 引入了坐标参考系统(CRS),重点关注两种主要类型:地理(“经度/纬度”,单位为经度和纬度)和投影(通常以米为单位) 基准)坐标系。本章以这些知识为基础并进行了更深入的探讨。它演示了如何设置地理数据并将其从一种 CRS 转换为另一种 CRS,此外,还强调了您应该注意的由于忽略 CRS 而可能出现的特定问题,特别是当您的数据使用经度/纬度坐标存储时。在许多项目中,无需担心不同的 CRS,更不用说在不同的 CRS 之间进行转换。
2023-06-29 15:57:13 461
原创 Geocomputation (5)raster vector光栅矢量
许多地理数据项目涉及集成来自许多不同来源的数据,例如遥感图像(栅格)和行政边界(矢量)。输入栅格数据集的范围通常大于感兴趣区域。在这种情况下,栅格裁剪和屏蔽对于统一输入数据的空间范围非常有用。这两种操作都减少了对象内存的使用和后续分析步骤的相关计算资源,并且可能是创建涉及栅格数据的有吸引力的地图之前必要的预处理步骤。代表犹他州西南部海拔(海拔米)的“srtm.tif”栅格代表锡安国家公园的zion.gpkg矢量图层目标对象和裁剪对象必须具有相同的投影。
2023-06-25 18:26:27 441
原创 Geocomputation (4)几何图形操作
到目前为止,本书已经解释了地理数据集的结构(第 2 章),以及如何根据其非地理属性(第 3 章)和空间关系(第 4 章)来操作它们。本章重点介绍如何操作地理对象的地理元素,例如简化和转换矢量几何、裁剪栅格数据集以及将矢量对象转换为栅格以及将栅格转换为矢量。阅读完它并尝试最后的练习后,您应该理解并控制 sf 对象中的几何列以及栅格中表示的像素相对于其他地理对象的范围和地理位置。@sec-geo-vec 涵盖了使用“一元”和“二元”运算转换矢量几何形状。
2023-06-23 17:06:01 373
原创 Geocomputation (3)空间数据操作
空间子集化是获取空间对象并返回仅包含与另一个对象在空间中相关的特征的新对象的过程。类似于属性子集(在 @sec-vector-attribute-subsetting 中介绍),可以使用方括号(“[”)运算符使用语法“x[y]”创建“GeoDataFrame”的子集,其中“x”是 一个“GeoDataFrame”,将从中返回行/特征的子集,“y”是“子集对象”。
2023-06-23 00:37:52 557
原创 Geocomputation (2)属性数据操作
例如,我们希望将“continent”和“region_un”列合并到名为“con_reg”的新列中,使用“:”作为分隔符。例如,伦敦的 Elephant & Castle / New Kent Road 停靠点的坐标为经度“-0.098”和纬度“51.495”,在@中描述的简单特征表示中可以表示为“POINT (-0.098 51.495)” sec-空间类。中介“idx_small”(代表小国家的索引的缩写)是一个布尔值“Series”,可用于按表面积划分世界上七个最小国家的子集。
2023-06-21 01:10:13 1856
原创 Geocomputation (1)Python中的地理数据
正如我们将在本章后面的示例代码中看到的那样,和GeoSeries生态系统提供了一种在 Python 中处理矢量图层的综合方法,许多包都基于它构建。然而,栅格数据的情况并非如此:有几个部分重叠的包用于处理栅格数据,每个包都有自己的优点和缺点。numpydict另一个值得一提的与栅格相关的包是。它是用于处理带标签数组的通用包,因此有利于处理“复杂”栅格格式(例如 NetCDF),使用其自己的本机类表示栅格,即和本章将简要介绍基本的地理数据模型:矢量和栅格。
2023-06-20 09:00:00 453
原创 基于距离的平面点模式统计方法(pysal.pointpats doc)
在这个例子中,我们将生成一个点模式作为“观察到的”点模式。通过将观察到的点模式的距离函数与来自 CSR 过程的点模式的距离函数进行比较,我们能够推断观察到的点模式的潜在空间过程是否为给定置信度的 CSR。,因为它测量从“空白空间”中的随机点到点模式中“填充”点的距离。这些随机点的数量决定了我们对观察到的点模式的测量的“细粒度”程度。同样,我们可以看到包络通常高于观察到的函数,这意味着我们的点模式是分散的。点过程的最近邻距离分布函数(包括最近的“事件到事件”和“点到事件”距离分布函数)是几种累积分布函数——
2023-06-15 16:36:12 852
原创 leetcode python刷题记录(十二)(111~120)
给定一个二叉树,找出其最小深度。最小深度是从根节点到最近叶子节点的最短路径上的节点数量。**说明:**叶子节点是指没有子节点的节点。[0, 10^5]
2023-05-15 00:43:06 119
转载 [转]核密度估计与自适应带宽的核密度估计
在很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。另外,带宽应与兴趣点的离散程度呈正相关,对于稀疏型的兴趣点分布应采用较大的带宽,而对于密集型的兴趣点则应考虑较小一些的带宽。如果带宽不是固定的,而是根据样本的位置而变化(其变化取决于估计的位置(balloon estimator)或样本点(逐点估计pointwise estimator)),则会产生一种特别有力的方法,称为。时,自适应带宽的核密度估计就变成了固定带宽的核密度估计了。
2023-04-17 18:46:57 1650
原创 leetcode python刷题记录(十)(91~100)
读于一棵二叉搜索树来说,一个重要的性质就是它的中序遍历为升序,中序遍历的过程为左 -> 根 -> 右,如果给每个结点标记上编号,意思就是说所有左子树节点的编号一定小于根节点,所有右子树的结点编号大于根节点。
2023-04-14 13:00:29 625
原创 铁路轨道不平顺数据分析与预测
铁路轨道作为铁行车的基础设施,是铁路线路的重要组成部分。随着经济和交通运输业的发展,我国的铁路运输正朝着高速和重载方向迅速发展,与此同时,轨道结构承受来自列车荷载、运行速度的冲击和列车的振动等各方面的作用力不断增大,不仅加速了铁路轨道设备的损坏,由此产生的轨道不平顺问题会严重影响车辆行,乘客的舒适度以及设备的使用寿命等,存在非常严重的安全隐患。在铁路运营过程中,轨道在列车不稳定荷载的反复作用下容易发生一定的几何形变,这其中有些是垂直向和横向的动态弹性变形,有些则是永久变形,而这些现象都统称为轨道不平顺。
2023-04-06 01:02:21 2796 5
原创 Geospatial Data Science (10): Individual mobility
一个分析移动数据scikit-mobility 提供了两个用户友好的数据结构,它们扩展了pandasDataFrame。
2023-04-05 22:50:31 412
原创 Geospatial Data Science (9): Spatial networks
它具有将点捕捉到网络并分析受限于网络的点模式的工具,这对于提出诸如“街道网络上的酒吧/药店*如何聚集?如果不是东北部的那两家药房紧挨着,它们的观察曲线将位于近距离模拟包络线的最低端,表明它们在近距离上相当分散。Ripley 的 K 函数采用点模式并考虑最近邻居的所有成对距离,以确定在划定的距离范围内是否存在聚类:https://en.wikipedia.org/wiki/Spatial_descriptive_statistics#Ripley’s_K_and_L_functions。
2023-03-23 22:39:02 469
原创 Geospatial Data Science (8): OpenStreetMap and OSMnx
使用自定义过滤器来微调您的网络。OSMnx 使用预设来查询允许步行、骑自行车、驾车等的街道。您可以通过传递来覆盖它,以在图表中指定您想要的特定 OSM 方式。place = {11 primary要下载整个国家/地区的道路网络,您通常需要将查询限制为仅限高速公路之类的内容,以适应您计算机的 RAM。对于大型查询,例如整个比利时,OSMnx 会将您的查询细分为多个服务器请求以下载所有数据,然后组合图。
2023-03-22 21:36:52 691
原创 Geospatial Data Science(7): Point pattern analysis
点是空间实体,可以用两种根本不同的方式来理解。一方面,点可以看作是空间中的固定对象,也就是说它们的位置是给定的(外生在这种情况下,点的分析与其他类型的空间数据(如多边形和线)的分析非常相似。另一方面,点可以看作是事件的发生,理论上可以在任何地方发生,但只在特定位置出现。这是我们将在笔记本的其余部分采用的方法。当点被视为可能发生在多个位置但只发生在其中几个位置的事件时,此类事件的集合称为点模式。在这种情况下,点的位置是分析兴趣的关键方面之一。
2023-03-10 20:50:19 1089
原创 Geospatial Data Science (6): Spatial clustering
与ESDA技术一样,区域化方法也需要一个便于统计的正式空间表示。在实践中,这意味着我们将需要为要汇总的地区创建一个空间权重矩阵。从技术上讲,这与我们之前看到的过程相同,这要归功于PySAL。在这种情况下,不同的是,我们不是从shapefile开始,而是从GeoJSON开始。幸运的是,PySAL支持 "即时"构建空间权重矩阵,也就是从一个表格开始。这是一个单行本。
2023-03-05 11:27:47 1386
纵断面-记录和计算工程项目中特定区域的纵断面特性.xlsx
2024-03-23
逐桩坐标表直线段.xlsx
2024-03-23
逐桩坐标表曲线段 方位角.xlsx
2024-03-23
逐桩坐标表-用于记录和存档工程项目中的详细地理位置信息.xlsx
2024-03-23
直线、曲线及转角表.xlsx
2024-03-23
土石方数量计算表.xlsx
2024-03-23
土方计算表-用于土木工程项目中的土地移动量计算.xlsx
2024-03-23
高等路基设计表.xlsx
2024-03-23
铁路轨道不平顺分析与预测(完整数据与代码)
2024-01-27
大创经验分享&项目资源&代码程序资源
2024-01-27
ACM/NOI/CSP比赛经验分享&代码程序资源:深度优先搜索
2024-01-27
大创经验分享&项目资源&代码程序资源:模型车牌生成器
2024-01-27
图像风格迁移研究数据集,提供一幅画将任意一张照片转化成这个风格
2024-01-27
电赛历年试题&经验分享&代码程序资源:2020年电赛A题代码
2024-01-27
MySQL-Notes学习笔记
2024-01-27
该方案作为一套多功能的后台框架模板,适用于绝大部分的后台管理系统开发 基于 Vue3 + pinia + typescript
2024-01-27
网页版拳皇KOF-practice
2024-01-27
自然语言处理学习笔记nlp-tutorial
2024-01-27
程序员简历模板,简洁明了,逻辑结构清晰
2024-01-26
2020年美赛D题2020-ICM-Problem-D
2024-01-26
遗传算法求解最优解最大值项目.zip
2024-01-26
第16届智能车规则.pdf
2024-01-22
蓝桥杯标准模板.zip
2024-01-22
java面经文档、技术要点或面试编程题资源
2024-01-22
vue面试题面试集锦01.md
2024-01-22
08.如何分析开源项目.md
2024-01-22
07.SpringCloud.md
2024-01-22
06.SpringBoot.md
2024-01-22
05.SSM整合.md
2024-01-22
04.SpringMVC.md
2024-01-22
03.Spring入门.md
2024-01-22
02.SSM框架之Mybatis.md
2024-01-22
01.JavaWeb入门.md
2024-01-22
java学习:索引.md
2024-01-22
java学习:01.设计模式.md
2024-01-22
java学习:01.JUC.md
2024-01-22
01.Vue学习笔记.md
2024-01-22
java学习:01.ElasticSearch入门.md
2024-01-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人