大数据分析与机器学习
yoki2009
这个作者很懒,什么都没留下…
展开
-
奥林匹克历史数据分析与金牌预测(上)
这是关于现代奥林匹克运动会的历史数据集,包括从1896年雅典到2016年里约奥运会的所有比赛。在2018年5月从www.sports-reference.com上抓取这些数据。文件athlete_events.csv包含271116行和15列。 每一行对应于参加个人奥运会(运动员比赛)的个体运动员。 列信息:ID - Unique number for each athlete Na...原创 2018-08-16 09:34:42 · 2951 阅读 · 1 评论 -
机器学习从入门到创业手记-1.3 必备的工具与框架
今天的课程主要以自我学习为主,李里发给了每个人一张印有培训内容的表格,要求按照培训内容列表中提到的工具,将其简介都写在工具名称的后面。李里解释道:作为机器学习的初学者刚进入这个领域时肯定是一头雾水,其实就算是具有多年工作经验的程序员,或是统计学专业出身的数学家新进入这个领域也充满了难度,机器学习很好的诠释了什么叫做知识大爆炸的交叉学科,里面涉及的逻辑设计,离散数学,线性代数,编程能力,服...原创 2019-03-12 11:24:18 · 399 阅读 · 0 评论 -
机器学习从入门到创业手记-1.4 难以理解的数学知识
第二天的李里准时站在了培训用的会议室当中。李里:昨天我们进度不是很快,培训的内容也比较简单,今天开始我们要进入比较枯燥的数学理论的培训,你们要做好准备,可能最多进入机器学习领域而后又放弃的人都是由于被铺天盖地的数学公式给吓住了,一会儿看看拉普拉斯定理,一会儿又看看熵的定义,梯度上升与梯度下降都用在什么时候,学习数学知识确实需要时间和下苦功夫,很多开发框架和开源库都是辅助类的,你可以在不明...原创 2019-03-12 11:26:46 · 705 阅读 · 0 评论 -
机器学习从入门到创业手记-2.算法与导师
由于基础概念学习总结写的不够深刻,公司评审小组将我,路思,高维分到了算法基础学习组,而刘思聪他们则分到技术部参与算法模型调整的实践工作,这个结果对于我来说是蛮好的,这个落后三人组公司安排了一个据说很资深的导师辅导我们,目标一个月内就能达到刘思聪他们的理论水平,而且高维也在这个小组,但我看她眼睛有点红,要强的女生真累呀。 所谓的资深导师姓杨,真实年龄只有35岁,但看着总有种想...原创 2019-03-12 11:27:42 · 208 阅读 · 0 评论 -
机器学习从入门到创业手记-2.1.1 线性回归与房价还涨么
我还在回味着路思的话,这么干都不能在北京买房,不敢生孩子,这样的北漂有什么意思,还不如回家乡天津去,虽然机会不多,但生活成本里面我减少了租房的费用还可以每天有母亲做的可口饭菜,现在天天的 X老师红烧肉我已经吃不出味道了,而这个CBD区确实也没有更便宜更卫生的饭餐供应了。 休息时间到了,杨导师回到了战情室,突然间的同理心让我对他有了些好感,可能我将来也要面临同样的难题吧,杨导师...原创 2019-03-12 11:29:44 · 426 阅读 · 0 评论 -
机器学习从入门到创业手记-2.1.2 逻辑回归与选择恐惧症
周日早上躺在宿舍的床上实在不知道干点什么,索性翻起了朋友圈,高维7点38分就发朋友圈了,一张精心打扮的嘟嘴照,配着一行文字,距离太阳越近就越温暖,你倒是温暖了,我的心可是拔凉拔凉的,人的本性有三大非理性怪癖:对拥有的东西视而不见而只关注自己没有什么;对事物投入越多,对其感情越深;在实际拥有权之前就对物品产生了拥有的感觉;高维的事情让我彻底体验了把这三大怪癖。手里翻着微信通讯录但是不知...原创 2019-03-12 11:30:21 · 200 阅读 · 0 评论 -
机器学习从入门到创业手记-2.1.3 SVM与分球法则
第三天战情室。 杨导师:今天的课程比较叫如何给五岁讲懂SVM[1],这也是我看到国外大神的博客里写的,看看诸位的智力如何?SVM的概念起始于一个故事,一个穷小子看上了女孩,并向女孩子表白了,女孩子心里虽然高兴但却要保持必要的矜持,所以给男孩出了一个游戏挑战,并表示你能挑战成功,我就答应你。挑战的内容大家看图2.1.3.1,这里有若干蓝色的球和红色的球放在一张纸上,我给你一个木...原创 2019-03-12 11:30:56 · 225 阅读 · 0 评论 -
机器学习从入门到创业手记-2.1.4 分类决策树与去还是不去
晚上回到了宿舍惯例给家人打电话报报平安,家人希望我能回到天津,他们已经想办法帮我找个稳定,可待遇一般的工作,跟我说这个岗位很多人竞争的,你一定要在一周内赶回来去那个单位报道才行,稳定下来也好买房子啊。我口中一直应付着,放下电话,我也在想我为什么留在北京啊,难道只是因为在天津找不到工作么? 第四天战情室。 早上我推开战情室的大门时,听着高维和路思讨论着问题...原创 2019-03-12 11:33:37 · 225 阅读 · 0 评论 -
机器学习从入门到创业手记-监督学习总结报告
今日只有杨导师的邮件,让我们把学到监督学习算法优缺点,通过自学后总结出来,下班时发邮件提交。 安逸的监督学习算法报告: 线性回归优点: 能够拟合非线性可分的数据,更加灵活的处理复杂的关系 因为需要设置变量的指数,所以它是完全控制要素变量的建模 线性回归缺点: 需要一些数据的先验知识才能选择最佳指数 ...原创 2019-03-13 13:42:19 · 216 阅读 · 0 评论 -
机器学习从入门到创业手记-非监督学习算法
还不到周末啊,每周只歇一天的日子对于刚出校园懒散的我来说实在比较难受,来到战情室这几天更是觉得有些喘不上去气,好在由于是刚毕业,公司人性化的决定我们的工资半个月一发。杨导师今天面带轻松的走进战情室里说:监督学习的基础内容都以学完了,总结也都通过了考核,下面开始非监督学习算法,这里我只给大家讲下基础,剩下的都要靠你们自学完成了,记住公司不是养闲人的地方,需要你们快速成长,而我也不能天天在这...原创 2019-03-13 13:45:19 · 172 阅读 · 0 评论 -
机器学习从入门到创业手记-K-Means与啤酒尿布的销售密码
离开了杨导师所有的事情都要自己做了,路思和我负责算法含义研究,高维负责根据原理推导应用场景。 高维说我把K-Means算法定义写了出来每个人都谈谈想法K-Means算法定义:把n n {\displaystyle n} 个点划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。 K-Mean计...原创 2019-03-13 13:45:57 · 500 阅读 · 0 评论 -
机器学习从入门到创业手记-主成分分析与谁是关键因素
主成分分析是统计方法里的一种降维方法,它的主要思想是将原有N个特征通过正交变换将一组可能存在相关性的特征缩减到K特征(K<=N) 。高维:定义好抽象呀,能解释一下么?路思:我们先从二维情况理解一下定义,假设原始数据中有下单量和成交量呈现出正相关的关系,我用图2.2.3.1解释一下这个过程,这里假设该图假设这是一个二维数据,即只有两个变量,分别由横纵坐标代表,这...原创 2019-03-13 13:51:35 · 286 阅读 · 0 评论 -
机器学习从入门到创业手记- 非监督学习总结报告
安逸的非监督学习总结报告: K-means优点: K-Means理论简单,容易实现 K-Means缺点: 聚类数目k是一个输入参数。选择不恰当的k值可能会导致糟糕的聚类结果。这也是为什么要进行特征检查来决定数据集的聚类数目了。 收敛到局部最优解,可能导致“反直观”的错误结果。 自动编码优点:...原创 2019-03-13 13:52:14 · 211 阅读 · 0 评论 -
机器学习从入门到创业手记-神经网络
神经网络的培训公司要求阅读发的培训材料完成自我培训。 神经网络培训材料: 当你在阅读本材料时正在使用头脑中一个复杂的神经网络,大约有10亿个神经元通过互联来帮助你完成阅读和思考,其中每个神经元都是由树突,细胞体,和轴突三部分主城的,树突负责接收电信号并传送到细胞体,细胞体负责对这些输入信号进行整合并进行阈值处理,而轴突将细胞体的输出信号导向到其它神经单元...原创 2019-03-13 13:52:59 · 266 阅读 · 0 评论 -
机器学习从入门到创业手记-基础开发技术
从战情室出来时,我除了收获机器学习算法的基础知识外也和路思与高维熟悉了很多,路思这人来自与小县城,但当年高考也是全县第四的成绩考入了的大学,他时常有些忿忿不平的表示当年要是全国统一分数线,他一定会上个211,985之类的重点,我也十分了解他的郁闷,他从初中时就学校就采用封闭式教育,半个月才能回家一次,每天早上五点半起床,六点十分跑操,晚上要在教室统一学到十点才准回宿舍,然后回宿舍十一点熄灯,周而复...原创 2019-03-13 13:53:34 · 220 阅读 · 0 评论 -
机器学习从入门到创业手记-机器学习环境配置
我,路思和高维从单位领了新的笔记本,也坐到了公司给我们提供的宽敞明亮的工位上,我觉得当时拒绝父母让我回去工作也许是对的。 第一天的工作并不复杂,李里给每个人打印了一张《机器学习开发环境配置表》的文件,让我们按照纸面的步骤把机器配置好。 《机器学习开发环境配置表》 PYTHON 3.X 安装 ...原创 2019-03-13 13:54:11 · 258 阅读 · 0 评论 -
机器学习从入门到创业手记-1.2 机器学习的概念
坐在公司宽敞的会议室里,面前是一杯现煮的咖啡,公司的CEO 站在大的投影屏幕前意气风发,举手投足间透露出成功人士的魅力。“首先欢迎各位加入爱视达智能科技有限公司,我是公司的联合创始人 David 王,曾经在Google中国工作过,看到你们就和那时的自己一样充满了朝气,我代表着公司的过去,你们则代表着公司的未来,希望各位同仁精诚团结,爱视达智能必将成为行业领军企业,你们在今后的三个月里会接...原创 2019-03-12 11:22:50 · 330 阅读 · 0 评论 -
机器学习从入门到创业手记-1.理论概念
楔子:儿时,我们觉得父母不平凡,无所不能;青少年时代,觉得自己不平凡,志得意满;中年时,又觉得孩子不平凡,聪明绝顶。直到年近不惑才能消失这人生三大幻觉。我的姓安,名字叫安逸,父母给我取这个名字的良苦用心就是希望我不像他们那样为生活奔波忙碌。1.1入职闹表响了五六声了,其实我早就睁开了眼睛,昨夜睡的并不好,对于今天的面试我心里一点底气都没有,从天津的...原创 2019-03-12 11:21:25 · 265 阅读 · 0 评论 -
机器学习从入门到创业手记-数据分析实战
昨天下班高维说要和我一起过圣诞节,让我兴奋的一夜都没睡好,只期待今天能早些过完,一定不加班,怀揣着幸福走进了公司,如往常一样打开电脑准备工作但却集中不起精力,满脑子都是如何过好圣诞节的计划,这时座位旁边的路思神神秘秘的把脑袋凑过来说,你知道么?单位说实习期过后要考试,不是咱们几个都能留在公司的,昨晚你走的早不知道,我们看见人事部和王总他们到晚上八点多还在会议室讨论淘汰方案呢。这个消息对我来说很震惊...原创 2019-03-18 17:37:23 · 707 阅读 · 1 评论 -
奥林匹克历史数据分析与金牌预测(下)
上面做了数据基础分析,其实用SQL语句也都能很好实现,现在我们要去实现一下SQL做不了的事情,去预测一下中国在下届奥运会的奖牌情况。 同样先是基础数据处理,找到我们认为和最后能夺得奖牌相关的数据,先根据经验去除相关没用的字段,这里我保留了Age,Height,Weight,TEAM,Games, Year, Event,和Medal字段,我们用这些属性字段预测奖牌的情况,这样可以合理的选择...原创 2018-08-16 09:36:36 · 1666 阅读 · 3 评论 -
在线卖家商品售价自动推荐(下)
我们通过上章的分析看到高品质,新品,本身昂贵的物品定价可能更高,而且特别的是不包邮的产品定价普遍高于包邮的。 那么一个商品的最终定价与这些客观因素的关联度如何呢?哪些方面更直接影响价格呢?由于不同类别产品价格相差太多,我们先将产品分类。图 商品分类 将原有分类模式 主分类/二级分类/三级分类模式改为独立字段,用来训练使用...原创 2018-08-22 15:58:10 · 217 阅读 · 0 评论 -
日本性价比旅馆分析报告
我不是精日,但我比较期待去日本这个国家旅游,那里空气比较好,人都很有礼貌,街道又干净,日系产品也不错,说到去旅游很多人都开始做攻略,旅游路线,住宿宾馆都是重点关注的对象,选择正确了可以玩的省时省力,最主要还省钱。 据Japan-Guide.com报道,在日本停留一晚只需2.5至5,000日元。 让我们看一下,当您在此分析中入住宿舍时,如何选择最佳酒店。 数据库来自:Hostel...原创 2018-08-17 15:26:50 · 723 阅读 · 0 评论 -
在线卖家商品售价自动推荐(上)
开淘宝,当微商现在自由创业者的最佳选择,但很多新手在入行后发现最难的是产品定价,定的高了吧,没人会会买你的,定低了吧,都对不起自己付出的时间,并且产品定价不光受成本的影响,例如服装还要受到季节,品牌的影响,产地,产品的型号规格,历史购买价格,客户认可度等多方面影响,这里对于新手实在太难了。 我无法得到淘宝的的这方面信息,故采用日本最大的电商Mercai提供的数据,他们想向...原创 2018-08-20 18:49:51 · 401 阅读 · 0 评论 -
图解APP Store上的高分应用特征(上)
我最近迷上了腾讯的手游魂斗罗,作为非人民币玩家以时间换等级的理念驱动下终于把人物练到了102级,再往上实在是太耗时间了,就有些索然无味了,想弄点新游戏玩玩,苹果手机是只能从APP Store下载的应用的,我一般的做法是按照系统的排序,看看前几名的APP,点入看看功能和截图,再决定下不下载,作为一个懒惰用户没给软件打过分。之前我从没想过到底是什么是驱使用户下载的主原因和动力,哪个方面是最吸引我的关注...原创 2018-08-23 18:52:42 · 743 阅读 · 0 评论 -
机器学习从入门到创业手记-sklearn基础设计
早上刚坐到座位上,看到刘思聪正在装扮自己的办公桌,桌台上有个他和女孩合影,他大方的递给我看说,告诉我是我这是她女朋友,在国家邮政工作,是他父亲朋友的女儿,我应付到好工作啊,挺稳定,他笑了笑,她家不指望她挣钱,就有个事情干就完了,我问那为什么选择去邮政工作啊?刘思聪笑的更开心了,说就因为离家近呀,走路几分钟就到了。原来炫富的方式真是多种多样呀,我知道那个附近的房价都在每平米8万以上。...原创 2019-03-14 10:42:45 · 310 阅读 · 0 评论 -
机器学习从入门到创业手记-构造数据集
PPT页15旁白:对于机器学习而言合适的数据一直都是稀缺资源,尤其是对于初学者根本无法找到适合自己模型算法的数据,所幸sklearn提供了制造训练数据的方法,请试着创造出样本数为10000特征数为3,共分4个类别的数据集,并显示出来。安逸提交的代码: import matplotlib.pyplot as plt from ...原创 2019-03-14 10:46:28 · 430 阅读 · 0 评论 -
机器学习从入门到创业手记-应用与实践
结束了sklearn的培训的同时也迎来了阶段考核,经过这段时间的学习除了发我对机器学习有所入门,另外也发现了高维已经天天和刘思聪出双入对了,但两个人均矢口否认两人的关系,由于刘思聪坐我旁边,我也时常听他在上班时间和他那个正牌女友煲电话,我还让路思帮我旁敲侧击的问了高维,高维也说只是在北京人生地不熟,刘思聪尽一下地主之谊而已,让我别想太多了,但每个周末去约她,她都说忙。路思劝我:你别那么傻了,人家图...原创 2019-03-14 10:52:34 · 410 阅读 · 0 评论 -
机器学习从入门到创业手记-TensorFlow速成
3.5.1 TensorFlow名词与语法李里:TensorFlow作为开源产品整体源代码放在了网上供大家下载,下载地址是https://github.com/TensorFlow/TensorFlow,下载源码编译然后配置环境变量等,但并不建议采用这样的安装方式,容易出现各种异常状况,而且安装逻辑比较复杂,这里推荐采用Pip的方式进行安装。这里列出一些常用的Tensorflow名词和基础语法...原创 2019-03-14 10:53:20 · 336 阅读 · 0 评论 -
机器学习从入门到创业手记- TensorFlow开发基础
李里:在安装TensorFlow后,先来查看一下你的TensorFlow的版本号看看是否安装的TensorFlow开发环境可用。 #输出版本号 import tensorflow as tf print("TensorFlow Version is "+tf.__version__) #输出 >>>TensorFlow Versio...原创 2019-03-14 10:54:33 · 358 阅读 · 0 评论 -
机器学习从入门到创业手记- TensorFlow Hi-Level API开发
李里:TensorFlow除了比较复杂的Low Level API外还提供了可以极大简化机器学习编程的高阶API,称之为Estimator。Estimator提供了诸如训练,评估,预测,导出保存等操作,用户可以使用预创建的Estimator,也可以编写自定义Estimator。所有的Estimator无论是预创建还是自定义都是基于tf.estimator.Estimator这个基类派生出来的。...原创 2019-03-14 10:55:16 · 283 阅读 · 0 评论 -
机器学习从入门到创业手记-处理数据的乐趣在于挖掘
在月度Team Building[1]上,我问刘思聪:爱视达智能是怎么发展起来的?David王看着也很年轻,怎么又那么多钱投入公司啊? 刘思聪:哪是他的钱啊,都是他融资来的。 安逸:如何才能融到资呢? 刘思聪:你有背景么?你有资源么?你有什么特别的本事么?安逸惭愧的笑了笑。 刘思聪:什么都没...原创 2019-03-14 10:56:50 · 370 阅读 · 0 评论 -
机器学习从入门到创业手记-关联与聚类分析
在基础软件部的主要负责的协助工程师完成数据分析,这段时间公司的业务主要来个各种电商平台,集中在用户画像,销售产品关联推荐等,这让我对之前高维提到过的啤酒尿布关联的案例有了兴趣。一日无事,我走到高维旁边说:hi,你能给我讲讲牛奶啤酒尿布那个案例是怎么分析出来的?我觉得在那么多产品,那么大的销售量中如何才能找到对应的关联呢?高维:这个可是我学电子商务的必修课程,我给你画个表来解释,...原创 2019-03-14 10:57:29 · 1135 阅读 · 0 评论 -
机器学习从入门到创业手记-数据可视化
Seaborn也是基于python的可视化绘图库,用pip install seaborn进行安装。 第一个例子: import seaborn as sns import matplotlib.pyplot as plt sns.set() tips = sns.load_dataset("tips"...原创 2019-03-14 11:00:40 · 260 阅读 · 0 评论 -
机器学习从入门到创业手记-数据特征工程
李里:现在机器学习模型训练调参越来越自动化,但数据的特征提取还需要分析人员手动完成并且和该数据领域的专业知识有很大关系,但数据的特征选取又是关系到最后模型质量最重要的一个步骤,所以很多能实现自动化特征工程的工具就应运而生了特征工程的含义是从现有数据中解构出隐含的特征, 高维:有些抽象,能举个例子描述一下么? 李里:比如每个人的身高和体重是两个特...原创 2019-03-14 11:01:43 · 498 阅读 · 0 评论 -
机器学习从入门到创业手记-初识sklearn
之前对刘思聪了解并不多,印象中就是个矮胖子,说话总是牛哄哄的,现在他坐在了我的左边,右边坐着路思,本来路思应该挨着刘思聪的,但他在宿舍里和我说他不喜欢那么张扬的人,要跟我换了座位。 刘思聪:hi,你们在战情室待着有趣么?晚上没事的话,我请你们加上高维一起吃个饭,以后有需要帮助的地方尽管开口。我随声附和着,而路思则在一边上着网,仿佛没有听见。这时邮件系统提示一封新邮件...原创 2019-03-13 13:57:19 · 400 阅读 · 0 评论