Python 机器学习基础
Python 机器学习基础
我是小白呀
吾本布衣, 出自纽约, 四周大山. 箪瓢屡空, 环堵萧然, 不弊风日. 吾好读书, 滴水石穿, 笨鸟先飞, 求知不断, 方能立足. 不羡孔北海之座上客常满, 但求吾辈架上书常在. 涸辙遗鲋, 暮成枯, 人而无志, 与彼何殊. Self-study Computer Science. 愿为 open source 自效微力. 天高地阔,欲往观之.
因为啥也不会, 默默做一只小白
展开
-
机器学习 第六节 第八课 ( 完结 )
练习四现在我们有北上广, 深圳, 和沈阳 5 个城市的 PM2.5 随时间的变化情况.观察这组数据中的时间结构, 并不是字符串, 这个时候我们应该怎么办?执行结果:原创 2020-11-11 06:56:03 · 1247 阅读 · 0 评论 -
机器学习 第六节 第七课
[toc]PeriodIndex之前所学习的 DatatimeIndex 可以理解为时间戳.那么现在我们要学习的 PeriodIndex 可以理解为时间段.执行结果:那么如果给这个时间段降采样呢?执行结果:原创 2020-11-11 05:25:42 · 1287 阅读 · 0 评论 -
机器学习 第六节 第六课
[toc]练习三现在我们有 2015 到 2017 年 25 万条 911 的紧急电话的数据, 请统计出不同月份不同类型紧急电话的次数的变化情况.执行结果:原创 2020-11-11 02:58:56 · 1300 阅读 · 0 评论 -
机器学习 第六节 第五课
[toc]练习二现在我们有 2015 到 2017 年 25 万条 911 的紧急电话的数据, 请统计出不同月份不同类型紧急电话的次数的变化情况.执行结果:strftime() 方法strftime() 函数接收以时间元组, 并返回以可读字符串表示的当地时间, 格式由参数 format 决定....原创 2020-11-11 01:25:30 · 1276 阅读 · 0 评论 -
机器学习 第六节 第四课
[toc]Pandas 重采样重采样: 指的是将时间序列从一个频率转化为另一个频率进行处理的过程, 将高频率数据数据转化为低频数据为降采样, 低频转化为高频率为升采样.pandas 提供了一个 resample 的方法来帮助我们实现频率转化.执行结果:...原创 2020-11-10 23:43:25 · 1310 阅读 · 0 评论 -
机器学习 第六节 第三课
[toc]在 DataFrame 中使用时间序列执行结果:在最开始的 911 数据的案例中, 我们可以使用 pandas 提供的方法把时间字符串转换为时间序列.format 参数大部分情况下可以不用写, 但是对于 pandas 无法格式化的时间字符串, 我们可以使用该参数, 比如包含中文....原创 2020-11-10 06:38:28 · 1294 阅读 · 0 评论 -
机器学习 第六节 第二课
[toc]Pandas 之时间序列为什么要学习 pandas 中的时间序列不管在什么行业, 时间序列都是一种非常重要的数据形式, 很多统计数据以及数据的规律也都和时间序列有着非常重要的联系, 而且在 pandas 中处理时间序列是非常简单的.生成一段时间范围start 和 end 以及 freq 配合能够生成 start 和 end 范围内以频率 freq 的一组时间索引start 和 periods 以及 freq 配合能够生成从 start 开始的频率为 freq 的 per原创 2020-11-10 06:14:19 · 1318 阅读 · 0 评论 -
机器学习 第六节 第一课
[toc]练习一现在我们有 2015 到 2017 年 25 万条 911 的紧急电话的数据, 请统计出这些数据中不同类型的紧急情况的次数, 如果我们还想统计出不同月份不同类型紧急电话的次数的变化情况, 应该怎么做呢?...原创 2020-11-10 02:22:30 · 1303 阅读 · 0 评论 -
机器学习 第五节 第十课
[toc]总结原创 2020-11-09 12:37:45 · 1293 阅读 · 0 评论 -
机器学习 第五节 第九课
[toc]练习四现在我们有全球排名靠前的 10000 本书的数据, 那么请统计一下下面几个问题:1. 不同年份书的数量2. 不同年份书的平均评分情况原创 2020-11-09 12:28:25 · 1415 阅读 · 0 评论 -
机器学习 第五节 第八课
[toc]练习三Part 1使用 matplotlib 呈现出店铺总数排名前 10 的国家执行结果:Part 2使用 matplotlib 呈现出每个中国每个城市的店铺数量执行结果:原创 2020-11-08 09:13:06 · 1378 阅读 · 0 评论 -
机器学习 第五节 第七课
[toc]Series 复合索引执行结果:DataFrame 复合索引执行结果:原创 2020-11-08 05:52:39 · 1297 阅读 · 0 评论 -
机器学习 第五节 第六课
[toc]索引的复合索引简单的索引操作:获取 index:执行结果:指定 index:执行结果:重新设置 index:执行结果:指定某一列作为 index:执行结果:执行结果:返回 index 的唯一值:执行结果:...原创 2020-11-08 04:30:00 · 1320 阅读 · 0 评论 -
机器学习 第五节 第五课
[toc]练习二现在我们有一组关于全球星巴克店铺的统计数据, 如果我想知道中国每个省份星巴克的数量的情况, 那么应该怎么办?思路: 长度是一个思路, 但是我们有更多的方法 ( 聚合方法 ) 来解决这个问题.执行结果:执行结果:分组和聚合grouped 是一个 DataFrameGroupBy 对象, 是可迭代的.grouped 中的每一个元素是一个元组, 元组里面是 ( 索引 ( 分组的值 ), 分组之后的 DataFrame )....原创 2020-11-07 13:45:15 · 1337 阅读 · 0 评论 -
机器学习 第五节 第四课
[toc]练习一现在我们有一组关于全球星巴克店铺的统计数据, 如果我想知道美国的星巴克数量和中国的哪个多, 或者我想知道中国每个省份星巴克的数量的情况, 那么应该怎么办?思路: 遍历一遍, 每次加 1?执行结果:分组和聚合在 pandas 中类似的分组的操作我们有很简单的方式来完成.调用 groupy 方法之后返回的是什么内容?...原创 2020-11-07 11:50:22 · 1364 阅读 · 0 评论 -
机器学习 第五节 第三课
[toc]数据合并之 mergemerge: 按照指定的列把数据按照一定的方式合并到一起.执行结果:原创 2020-11-07 08:12:29 · 1252 阅读 · 0 评论 -
机器学习 第五节 第二课
[toc]数据合并之 joinjoin: 默认情况下他是把行索引相同的数据合并到一起执行结果:执行结果:原创 2020-11-06 12:16:36 · 1351 阅读 · 0 评论 -
机器学习 第五节 第一课
[toc]思考对于这一组电影数据, 如果我们希望统计电影分类 ( genre ) 的情况, 应该如何处理数据?思路: 重新构造一个全为 0 的数组, 类名为分类, 如果某一条数据中分类出现过, 就让 0 变为 1.执行结果:...原创 2020-11-06 11:12:22 · 1346 阅读 · 0 评论 -
机器学习 第四节 第九课
[toc]练习三假设现在我们有一组从 2006 年到 2016 年 1000 部最流行的电影数据, 我们想知道这些电影中评分的平均分, 导演的人数等信息, 我们应该怎么获取?执行结果:原创 2020-11-06 06:39:01 · 1375 阅读 · 0 评论 -
机器学习 第四节 第八课
[toc]练习二对于一组电影数据, 如果我们想 rating, runtime 的分布情况, 应该如何呈现数据?执行结果:执行结果:原创 2020-11-06 04:50:51 · 1348 阅读 · 0 评论 -
机器学习 第四节 第七课
[toc]Pandas 之布尔索引回到之前狗的名字的问题上, 假如我们想找到所有的使用次数超过 80 次的狗狗名字,应该怎么选择?执行结果:缺失数据的处理对于 NaN 的数据, 在 numpy 中我们是如何处理的?在 pandas 中我们处理起来非常容易判断数据是否为 NaN执行结果:处理 NaN 数据删除 NaN 所在行执行结果:填充数据执行结果:处理为 0 的数据执行结果:注: 当然不是每次为 0原创 2020-11-06 01:06:59 · 1318 阅读 · 0 评论 -
机器学习 第四节 第六课
[toc]Pandas 之取行或者列刚刚我们知道了如何给数据按照某一行或者排序, 那么现在我们想单独研究使用次数前 100 的数据, 应该如何做?我们具体要选择某一行该怎么选择呢?我们要同时选择和列该怎么办?pandas 之 loc1. df.loc 通过标签索引行数据2. df.iloc 通过位置获取行数据执行结果:执行结果:...原创 2020-11-05 11:13:14 · 1478 阅读 · 0 评论 -
机器学习 第四节 第五课
[toc]练习一让我们尝试一下刚刚的方法去统计狗狗名字的数据很多同学肯定想知道使用次数最高的前几个名字是什呢?执行结果:如果我的数据有 10 列, 我想按照其中的第一, 第三, 第八列排序, 怎么办?( 查看 ipython 的帮助文档 )...原创 2020-11-05 08:23:30 · 1456 阅读 · 0 评论 -
机器学习 第四节 第四课
[toc]Pandas 之 DataFrame和一个 ndarray 一样, 我们通过 shape, ndim, dtype 了解这个 ndarray 的基本信息, 那么对于 DataFarme 我们有什么方法了解呢?DataFrame 的基础属性df.shape # 行数 列数df.dtypes # 列数据类型df.ndim # 数据维度df.index # 行索引df.columns # 列索引df.values # 对象值, 二维 ndarray 数组执行结原创 2020-11-05 07:46:30 · 1524 阅读 · 0 评论 -
机器学习 第四节 第三课
[toc]Pandas 之 DataFrameDataFrame 对象既有行索引, 又有列索引行索引, 表面不同行, 横向索引, 叫 index, 0 轴, axis= 0列索引, 表名不同列, 纵向索引, 叫 columns, 1 轴, axis= 1执行结果:执行结果:执行结果:...原创 2020-11-05 04:26:07 · 1398 阅读 · 0 评论 -
机器学习 第四节 第二课
[toc]Pandas 之读取外部数据现在假设我们有一组关于狗的名字的统计数据, 那么为了观察这组数据的情况, 我们应该怎么做呢?我们的这组数据存在csv中, 我们可以使用 pd.read csv 即可执行结果:和我们想象的有些差别, 我们以为他会是一个 Series 类型,但是他是一个 DataFrame, 那么接下来我们就来叫做这种类型.但是还有一个问题:对于数据库比如 MySQL 或者 mongodb 中数据我们如何使用呢?pd.read_sql ( sql原创 2020-11-05 02:49:07 · 1512 阅读 · 0 评论 -
机器学习 第四节 第一课
[toc]Pandas为什么要学习 pandasnumpy 已经能够帮助我们处理数据, 能够结合 matplotlib 解决我们数据分析的问题, 那么 pandas 学习的目的在什么地方呢?numpy 能够帮助我们处理数值型数据, 但是这还不够.很多时候, 我们的数据除了数值之外, 还有字符串, 时间序列等.比如: 我们通过爬虫获取到了存储在数据库中的数据.比如: 之前 youtube 的例子中除了数值之外还有国家的信息, 视频的分类 ( tag ) 信息, 标题信息等.所以原创 2020-11-05 00:54:31 · 1423 阅读 · 0 评论 -
机器学习 第三节 第十九课
[toc]小结1. 如何选择一行或多行的数据 ( 列 )?2. 如何给选取的行或者列赋值?3. 如何大于把大于 10 的值替换为 10?4. np.where 如何使用?5. np.clip 如何使用?6. 如何转置 ( 交换轴 )?7. 读取和保存数据为 csv8. np.nan 和 np.inf 是什么9. 常用统计函数你记得几个?10. 标准差反映出数据的什么信息练习英国和美国各自 youtube 1000 的数据结合之前的 matplotnib原创 2020-11-05 00:29:35 · 1427 阅读 · 0 评论 -
机器学习 第三节 第十八课
[toc]Nan 替换成均值代码实现:测试代码:执行结果:原创 2020-11-04 13:15:03 · 1400 阅读 · 0 评论 -
机器学习 第三节 第十七课
[toc]Numpy 中常用统计函数求和: t.sum(axis=None)均值: t.mean(a,axis=None) 受离群点的影响较大中值: np.median(t,axis=None)最大值: t.max(axis=None)最小值: t.min(axis=None)极值: np.ptp(t,axis=None) 即最大值和最小值只差标准差: t.std(axis=None)执行结果:标准差是一组数据平均值分散程度的一种度量. 一个较大的标准差, .原创 2020-11-04 12:51:31 · 1526 阅读 · 0 评论 -
机器学习 第三节 第十六课
[toc]Numpy 中的 nan 和 infnan ( NAN, Nan ): not a number 表示不是一个数字inf ( -inf, inf ): infinity, inf 表示正无穷, -inf 表示浮无穷什么时候 numpy 中会出现 nan当我们读取本地的文件为 float 的时候, 如果有缺失, 就会出现 nan.当做了一个不合适的计算的时候 ( 比如无穷大 ( inf ) 减去无穷大 ).什么时候 numpy 中回去出现 inf ( -inf, +inf原创 2020-11-04 11:59:11 · 1491 阅读 · 1 评论 -
机器学习 第三节 第十五课
[toc]Numpy 生成随机数代码实现执行结果:分布的补充均匀分布在相同的大小范围内的出现概率是等可能的正态分布呈种型, 两头低,中间高, 左右对称原创 2020-11-04 07:13:34 · 1498 阅读 · 0 评论 -
机器学习 第三节 第十四课
[toc]Numpy 更多好用的方法创建一个全 0 数组执行结果:创建一个全 1 数组执行结果:创建一个对角线为 1 的正方形数组 ( 方阵 )执行结果:获得最大值最小值的位置执行结果:执行结果:...原创 2020-11-04 06:49:25 · 1509 阅读 · 0 评论 -
机器学习 第三节 第十三课
[toc]练习一现在希望把之前案例中两个国家的数据方法一起来研究分析, 同时保留国家的信息 ( 每条数据的国家来源 ), 应该怎么办?代码实现执行结果:原创 2020-11-04 05:28:40 · 1453 阅读 · 0 评论 -
机器学习 第三节 第十二课
[toc]数组的行列交换数组视频或者竖直拼接很简单, 但是拼接之前应该注意什么?竖直拼接的时候: 每一列代表的意义相同! 否则牛头不对马嘴.如果每一列的意义不同, 这个时候应该交换某一组数的列, 让其和另外一类相同.代码实现行交换执行结果:列交换执行结果:...原创 2020-11-04 04:28:49 · 1484 阅读 · 0 评论 -
机器学习 第三节 第十一课
[toc]数据的拼接竖直拼接 ( vertically )执行结果:水平拼接 ( horizontally )执行结果:原创 2020-11-04 04:20:43 · 1475 阅读 · 0 评论 -
机器学习 第三节 第十课
[toc]Numpy 中三元运算符执行结果:numpy 中的 clip ( 裁剪 )执行结果:原创 2020-11-04 04:01:12 · 1485 阅读 · 0 评论 -
机器学习 第三节 第九课
[toc]Numpy 中布尔索引执行结果:执行结果:原创 2020-11-04 03:49:58 · 1392 阅读 · 0 评论 -
机器学习 第三节 第八课
[toc]Numpy 中数值的修改执行结果:执行结果:注: 因为浅拷贝, 所以当数组 b 被修改时, 数组 a 也随着被修改原创 2020-11-03 21:57:41 · 1368 阅读 · 0 评论 -
机器学习 第三节 第七课
[toc]Numpy 索引和切片对于刚刚加载出来的数据, 我如果只想选择其中的某一列 ( 行 ) 我们应该怎么做呢?其实操作很简单, 和 Python 中列表的操作一样执行结果:执行结果:执行结果:执行结果:...原创 2020-11-03 21:41:45 · 1346 阅读 · 0 评论