自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小一的博客

一个在数据分析道路上努力学习的工具人,梦想做一个无可替代的人

  • 博客(166)
  • 资源 (2)
  • 收藏
  • 关注

原创 别好奇了,excel 绘制闪到发光的三维地图真的很简单!

大家好,我是小一今天的文章来自于朋友圈,在基站分布那一篇文章中用到 excel 绘制三维地图,发现大家并不了解这种绘图方式鉴于在工作中我个人比较常用这种绘图方式,简单、快捷,所以今天分享给...

2021-04-29 07:58:00 586

原创 爬虫实战—轻松爬取全国40城5000+地铁站点数据!附源码和数据集

原文链接:小一教你轻松爬取全国40城5000+地铁站点数据!附源码和数据集大家好,我是小一上一篇文章讲了一个失败的数据分析案例,导致失败最最主要的原因就两个字:数据有时候,爬虫爬到的数据是很珍贵、很稀缺,但是在实际项目最好还是多点谨慎,保证万无一失。今天介绍一种新的 获取城市地铁站点数据的方法,而且不再只是北上广深四个城市,而是 全国开通地铁的城市。对了,你觉得全国有多少个城市开通了地铁?正文今天爬取数据的链接是:http://map.amap.com/subway/index.html.

2021-04-28 13:03:34 6858 20

原创 一个求证了三次才确定概念的数据分析案例!

大家好,我是小一今天的文章又是一波三折,差点没产出来事情是这样的:这次遇到的数据集里面,有一个概念,虽然它不影响整体的分析结果,但是抱着谨慎的态度,前前后后一共还是求证了三次,最终才得以确...

2021-04-24 22:02:00 322

原创 全国 40城 5000+ 地铁站点数据分析实战——这盛世如您所愿!

这盛世如您所愿大家好,我是小一今天这篇文章,是在前两篇文章的基础上进行的后续分析,也算是对地铁站点系列的一个小总结目的也很明确:通过对爬取到的 40 个已开通地铁的城市,共计 5000+ ...

2021-04-20 07:58:00 483

原创 可能我也没有想到,我能把写文章这件事因为一个小小的念头而坚持下来!

大家好,我是小一周末的时光总是很短暂,又一个周末过去了,下一个周末只放一天假。闲聊一下自己这段时间的一些个人感受吧不知道大家有没有发现,从去年疫情期间开始,突然多了 好多好多 的公众号大佬...

2021-04-18 22:02:00 177

原创 小一教你轻松爬取全国40城5000+地铁站点数据!附源码和数据集

大家好,我是小一上一篇文章讲了一个失败的数据分析案例,导致失败最最主要的原因就两个字:数据有时候,爬虫爬到的数据是很珍贵、很稀缺,但是在实际项目最好还是多点谨慎,保证万无一失。今天介绍一种...

2021-04-15 08:21:19 663 12

原创 一个数据分析的真实失败案例,让我突然有点恍惚了

大家好,我是小一阅读今天的文章之前,一定要认真看完下面这段话首先,今天分享的内容不同于以往,今天的主题就两个字:失败,还有两个字:真实刚入职场做数据分析的时候,我基本上隔三差五就会遇到今天...

2021-04-13 07:58:00 1348

原创 数据探索分析就写了6000+的实战文,写完怕不得几万字?

大家好,我是小一今天的这篇文章比较肝,是一篇比较贴合实际工作的数分实战案例全文 6000 多字,可能阅读会花一些时间,但是 绝对物超所值。特别是对于没有项目可以练手的同学来说,建议跟着实操...

2021-04-08 07:58:00 234

原创 数据清洗最基础的10个问题,基本涵盖目前常见的数分场景!

大家好,我是小一今天分享一个数据分析中最常见的概念:数据清洗。很多时候,数据预处理和数据清洗、特征工程等混为一谈,以至于大家分不清到底哪一步用谁。我个人的理解是:数据预处理主要是对数据集进...

2021-03-30 07:58:00 369

原创 一个不一样的周末,可能也会是最难忘的一个周末

大家好,我是小一一个不同的周末周末文章,来晚了周末去做了一件在自己认知之外的事情,也见到了在大城市中辛苦谋生的真实场景在金融界有一句话:你只能赚到自己认知范围之内的钱,但是又有一句话:你所...

2021-03-22 00:37:59 73

原创 《直击面试官》—没人比我更懂逻辑回归,附 9 大面试高频问题

~浪里个浪~ 大家好,我还是浪哥今天分享的内容比较硬核,而且还相当硬核为什么?逻辑回归想必人人都有所耳闻,但是你真的认识它?你真的知道?公式推导什么的暂且不谈,因为那个确实有点绕,难的是...

2021-03-18 07:52:00 183

原创 直击面试官--->决策树最最最最最最常被问到的6个基础问题

~浪里个浪~ 大家好,我是浪哥收到小一哥邀请,让我有空分享分享自己的学习笔记,考虑再三之后,应了下来。其实在答应之前,大概过了一遍自己的学习笔记和面试笔记,说实话,要不是小一哥说他会帮我...

2021-03-16 07:52:00 437

原创 又是模型评估?到底怎么评估?『附 AUC 评估的三计算方法』

大家好,我是小一今天继续聊聊模型评估的事儿前面一节提到了模型评估指标中 ROC 的详细概念和四个常见的问题,以后在遇到 ROC 想必再也不会发懵了:聊聊模型评估的事儿,附 roc 常见的四...

2021-03-04 07:52:00 480

原创 哈,我又搬家了,三年搬 5 次『苦笑脸』

我又搬家了算了一下,这是我来深圳第三个年头的第五次搬家了认真想了一下,搬家的原因还都不太一样,可谓是体验搬家百态了刚来深圳的第一年,公司提供免费的住宿,大概住了有十个多月,刚好是第二年的 ...

2021-02-28 22:02:00 306

原创 聊聊模型评估的事儿,附 roc 常见的四个灵魂发问

大家好,我是小一在风控领域中,对于模型的评估常用的指标其实并不是精准率、召回率这些,而是 ROC。原因很简单:样本。试想一下,在一个用户数据集中有 100w 个用户,但是其中只有 1000...

2021-02-23 07:52:00 140

原创 一键爬取基金历年季度报数据,轻松搞定!附源码

大家好,我是小一今天的文章来自于朋友圈,发现大家对于基金报告的爬取也挺感兴趣,于是就抽时间复现了一下爬虫的整体思路比较简单,代码量甚至都没有基金分析那篇的多,很适合入门的朋友参考学习另外,...

2021-02-20 07:52:00 327

原创 数据处理中的标准化、归一化,究竟是什么?

原文链接:数据处理中的标准化、归一化,究竟是什么?大家好,我是小一今天说一个比较重要的内容,无论是在算法建模还是在数据分析都比较常见:数据归一化和标准化。开始之前,请你先把网上看到的所有相关的博客、帖子都忘掉。不说全部,能讲清楚这个概念的文章真寥寥无几,首先是中英文名称翻译的问题,其次是概念理解的不全面,也就造成了网上的说法不一,看了之后各种被误导。当然,如果你在阅读文章的时候,发现存在问题欢迎留言批评指正【但是我觉得你可能没有批评指正的机会!】先来说下概念数据归一化和标准化都属于.

2021-02-18 15:35:55 8941 8

原创 2020年,『小一的学习笔记』文章合集

大家好,我是小一花了点时间整理了 2020 年公众号的所有发布文章,一共发了 70 篇,70 篇都是原创。其中在 6 月到 10 月这三个月时间里,由于自己的方向出了点问题,也就没有在公众...

2021-02-18 15:00:55 230

原创 新年快乐,感谢陪伴!『每年惯例—文末抽奖』

大家好,我是小一我有提前写文章的习惯,所以你们现在看到的这篇文章其实是我昨天就已经写好的外面正淅淅沥沥的飘着小雨,微风。看了一眼窗外,没有华灯初上,也没有车水马龙。在深圳,冬天,很难得会有...

2021-02-11 11:01:00 80

原创 说说我自己对于 基金 股票 的理解

大家好,我是小一距离 2021 年春节还有 5 天,按照惯例,年末的时候会给大家抽几个红包,到时候别忘了过来抽个奖。最近因为基金分析的那篇文章,有很多朋友关注,在此特别感谢。这篇文章的想法...

2021-02-06 14:14:00 181

原创 ​数据分析最重要的 3 种特征编码,你真的能分清楚?

关注+星标,听说他有点东西全文共 1799字,阅读全文需8分钟大家好,我是小一对于数据处理的新手来说,你可能听说过:标签编码、特征编码、独热编码等类似的概念但是在用的时候却不知道什...

2021-02-02 08:07:05 946

原创 小一爬取了 14455 个已发行基金,到底能分析点啥出来?

大家好,我是小一大概花了一周时间写了这篇文章,篇幅较长,读完会花 5-10 分钟读完本篇文章,你可能会收获以下几点:基金是买老基还是新基?买混基还是股基?跟谁买能赚钱?买哪些侧重板块的基?...

2021-01-31 11:38:00 135

原创 聚类问题的 5 种评估手段,总有一种你不知道的!附代码实现

关注+星标,听说他有点东西全文共2142字,阅读全文需11分钟大家好,我是小一模型评估前面已经介绍了两种,分别对应分类问题:分类问题的 8 种评估方法 和回归问题:回归问题的3个评...

2021-01-26 07:52:00 4099

原创 知乎凡尔赛沙雕语录,究竟有多沙雕?

为保证阅读体验,强烈建议点击原文链接阅读原文链接:知乎凡尔赛沙雕语录,究竟有多沙雕?大家好,我是小一前一阵子,凡尔赛文学突然爆火网络,特别是在知乎上竟然出现了大量的凡尔赛语录随便点进去一个问题一看,确实一张口就是老凡学家了,够沙雕甚至有的问题回答竟然有好几百,关注和浏览量都还挺高。突发奇想,要不?把这些回答爬下来,分析一下【凡学家们】究竟有多沙雕?凡尔赛问题定位 首先,在知乎搜索【凡尔赛语录】,发现有几个相关问题其中第二个和我们要的结果比较相似点进去后可以发现这其实是个回.

2021-01-19 09:42:40 450 1

原创 回归问题的3个评估深坑!

关注+星标,听说他有点东西全文共2093字,阅读全文需10分钟大家好,我是小一前面分类问题的评估有提到『8 种评估方法!』,但是它们并不适用于回归问题。二分类问题的结果最终是一个 ...

2021-01-19 07:52:00 606

原创 今天的心路历程很特别!

大家好,我是小一每次在准备写非技术的文章,都会不自觉地翻一下之前的文章,生怕哪次自己当下的感受和前面的某次吻合。说起吻合这事,提一个很奇怪的现象,发生在我身上发生好几次了。大概情况是这样:...

2021-01-17 14:09:47 166

原创 分类问题的 8 种评估方法(全)!

关注+星标,听说他有点东西全文共3276字,阅读全文需7分钟大家好,我是小一今天接着上节『数据集划分的三种常见方式!』内容,先来看一个例子:对于地震的预测,我们希望能够对所有要发...

2021-01-15 07:52:00 1299

原创 数据集划分的三种常见方式!

关注+星标,听说他有点东西全文共1929字,阅读全文需6分钟大家好,我是小一今天分享一个比较简单的问题:数据集划分的三种方法。数据集划分算是在数据分析建模中比较重要的,模型的好坏不...

2021-01-13 07:52:00 3120

原创 集成算法终极模型之《神器LightGBM》—最后的高山

关注+星标,听说他有点东西全文共6481字,阅读全文需16分钟写在前面的话大家好,我是小一2021 年第一篇文章,还是决定用 6000 多字的技术文来开篇。今天的文章是机器学习算法...

2021-01-07 07:52:00 387 1

原创 通过 PPT 快速给证件照换底色

为保证阅读体验,强烈建议点击原文链接阅读原文链接:用PPT快速给证件照换底色大家好,我是小一今天的文章源自于同事的分享,主要是 通过 PPT 快速给证件照换底色。”PPT 就能换底色?真的吗?会不会很麻烦?““emmm,说一分钟之内就能搞定你可能不信,但事实就是这样!”ok, 下面直接开始干货。今天我们要替换的证件照是下面这个,我们的目标是将蓝色背景替换成红色和灰色首先,插入图片PPT 想必大家都不陌生,直接打开 PPT 新建一个空白页。在空白页中 插入证件照,并用鼠.

2020-12-30 09:53:13 1365 2

原创 集成算法终极模型之《手撕 xgboost》—附详细手推公式

关注+星标,听说他有点东西全文共4255字,阅读全文需16分钟写在前面的话大家好,我是小一今天的文章从标题就能看出来,主要是对于 xgb 模型的推导。强烈建议仔细看完写在前面的话再...

2020-12-30 07:18:00 894

原创 做数据处理,你连 fit、transform、fit_transform 都分不清?

关注+星标,听说他有点东西全文共1413字,阅读全文需8分钟大家好,我是小一这节内容源自于上节的延伸:数据处理中的标准化、归一化,究竟是什么?在上一节介绍数据处理中的归一化和标准化...

2020-12-23 18:02:00 1026

原创 深漂三年,我还是我,我也不再是我!

提笔前考虑了很久,不知从何开始。前段时间被小一哥安排,call 我写写自己在过去一年的备考经历,想了想还是写写我过往三年半的深圳之事。文章写了很多,删了多一半,连贯性可能会有不足,仅做分享...

2020-12-20 22:02:00 213

原创 Python 批量加水印!轻松搞定!

↑关注+星标,听说他有点东西全文共2003字,阅读全文需5分钟大家好,我是小一想必有读者会遇到这种情况:自己辛辛苦苦写的文章被盗,而且对方在文章中既不显示原文链接,也不做任务说明,堂而皇之...

2020-12-11 22:22:00 208

原创 爬取了同事的微博粉丝,结果发现300+涨粉中,真爱粉只有4个!

事情是这样的,同事小A说他最近微博涨粉老快了,但是自己还是和以前一样就偶尔发发动态,看看新闻吃吃瓜,也没买啥涨粉包之类的。小A说这话的时候稍显淡定,但是小一清楚的看到小A的嘴角微微上扬,不禁撇了撇嘴。可能是以为我不信他最近涨粉老快这件事,小A随后发来了这张图:好家伙,他总共粉丝才几百人,这七天就涨了一百多,微博涨粉这么容易的?要不我也换个阵地试试?这速度比小一现在的公众号涨粉快多了。【撇嘴】这个时候小A又补了一句:“这只是近七天的,之前一周的更多呢!“说完这话,小A就转过身去了。这家伙在炫耀

2020-12-02 15:03:20 1132

原创 千万级别数据 de 筛选过滤,小一教你一招

↑关注+星标,听说他有点东西全文共1607字,阅读全文需12分钟大家好,我是小一今天分享一个数据清洗小技巧,可以让你在遇到 百万、千万级别数据 的时候游刃有余。先来说说问题的背景现在有一个...

2020-12-01 18:02:00 420

原创 月底了,回顾一下心路历程

↑关注+星标,听说他有点东西全文共1600字,阅读全文需9分钟大家好,我是小一,周末快乐。眼看着 11 月又快要过去了,看着窗外偶尔飘落的黄叶,思绪似乎也回到了一年前的 11 月。一路看小...

2020-11-29 18:02:00 93

原创 只需要10秒,使用PPT给证件照换底色

↑关注+星标,听说他有点东西全文共1111 字,阅读全文需7分钟大家好,我是小一今天的文章源自于同事的分享,主要是通过 PPT 快速给证件照换底色。“PPT 还能换底色?真的吗?会不会...

2020-11-24 18:02:33 582

原创 win10下自动化任务,5步快速实现

大家好,我是小一前面写过一篇 Linux 下的自动化任务设置,但是发现更多朋友办公用的都是 Windows 系统,所以这篇就来说说如何在win下设置自动化任务。下面是以 win10 系统为例,当然在 win7 系统也同样适用。今天要用到的 Windows 应用叫任务计划程序,主要是用来设置触发器,控制计算机中定时任务的执行。ok,直接在任务栏搜索框搜索:【任务】,通常情况会显示如下图的一个程序,点击它进入后可以看到当前系统默认的计划执行程序,有谷歌程序更新的触发器、微软更新的触发器、显卡.

2020-11-24 09:32:15 7224 1

原创 win10下自动化任务,五步快速实现

↑关注+星标,听说他有点东西全文共1395字,阅读全文需6分钟大家好,我是小一前面写过一篇 Linux 下的自动化任务设置,但是发现更多朋友办公用的都是 Windows 系统,所以这篇就来...

2020-11-18 23:11:00 296

java反编译工具

1 进入到jad当前路径 (cd 进入路径) 2 jad -s java (目标文件路径.class) eg:jad -s java F:\代码\java\A.class 3 反编译生成的文件会在jad文件夹下面生成

2015-08-07

exe4j_windows-x64_5_0_1

exe4j windows64位,安装了jre之后解压直接可以使用

2015-08-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除