【数据挖掘实战】task2-task3详情

博客详细介绍了数据挖掘中的共享单车潮汐点分析任务。首先,解释了geohash的原理,通过base32编码将地图划分为多个区域。接着,讨论了任务三中的共享单车潮汐点优化,使用sklearn.neighbors库进行无监督最近邻学习,特别是NearestNeighbors函数的参数设置。最后,提到了提交的代码结果,并提供了相关参考资料。
摘要由CSDN通过智能技术生成


前言

感谢datawhale组织的学习,并免费提供答疑服务。
学习地址:https://coggle.club/learn/DCIC2021/
博客主要记录相关的问题
代码示例地址:https://cdn.coggle.club/dcic2021/DCIC-baseline.html


一、任务2:共享单车潮汐点分析

1.geohash 原理

Geohash其实就是将整个地图或者某个分割所得的区域进行一次划分,由于采用的是base32编码方式,即Geohash中的每一个字母或者数字(如wx4g0e中的w)都是由5bits组成(2^5 = 32,base32),这5bits可以有32中不同的组合(0~31),这样我们可以将整个地图区域分为32个区域,通过00000 ~ 11111来标识这32个区域。第一次对地图划分后的情况如下图所示(每个区域中的编号对应于该区域所对应的编码)
在这里插入图片描述
在这里插入图片描述

2.分析结果

在这里插入图片描述

二、任务三:共享单车潮汐点优化

1.sklearn.neighbors

无监督最近邻

NearestNeighbors (最近邻)实现了 unsupervised nearest neighbors learning(无监督的最近邻学习)。 它为三种不同的最近邻算法提供统一的接口:BallTree, KDTree, 还有基于 sklearn.metrics.pairwise 的 brute-force 算法。算法的选择可通过关键字 ‘algorithm’ 来控制, 并必须是 [‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’] 其中的一个。当设置为默认值 ‘auto’ 时,算法会尝试从训练数据中确定最佳方法。有关上述每个选项的优缺点

#找到最近邻
>>> from sklearn.neighbors import NearestNeighbors
>>> import numpy as np
>>> X = np.array([[-1, -1
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值