Cachel wood
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pandas教程:explode和implode函数 拆分/合并列表
Pandas中的explode()和implode()函数是一对互补的数据转换工具。explode()用于将包含列表的列拆分为多行(如将['a','b']拆分为两行),同时保持其他列值不变;implode()则是其逆操作,将相同索引的多行数据合并为列表。这两个函数支持处理多列数据、空值,并能通过索引控制合并逻辑,常用于处理嵌套数据结构(如JSON)、多值标签拆分合并等场景。使用时需注意索引控制和性能优化,特别适合在数据预处理和格式转换中使用。原创 2025-08-31 13:49:34 · 82 阅读 · 0 评论 -
Python数据分析库pandas高级接口dt的使用
Pandas是一个强大的数据分析库,其中dt是Pandas的一个高级接口,用于处理日期和时间数据。dt提供了许多实用的方法和属性,可以轻松地处理日期和时间。原创 2024-10-17 14:42:07 · 207 阅读 · 0 评论 -
pandas教程:pandas读取csv文件并指定字段数据类型
参数来指定每个列的数据类型。这个参数接受一个字典类型的值,其中键是列名,值是数据类型。如果无法进行转换,则会引发一个异常。参数来控制异常的处理方式。当数据与指定的数据类型不匹配时,无法实现解析会报错。列的数据类型为字符串,列的数据类型为浮点数。会在不匹配时引发异常,会将无法转换的值转换为。参数传递,时间类型通过。文件时,我们可以使用。在此示例中,我们指定。列的数据类型为整数,类型的时间数据添加到。原创 2024-07-31 00:07:53 · 812 阅读 · 0 评论 -
pandas导入list列表型数据、dict字典型数据
可以实现直接导入,或者使用。函数,实现效果相同。原创 2024-03-16 21:08:44 · 275 阅读 · 0 评论 -
python pandas select_dtypes函数选择变量类型
都为空,如果包含和排除有重叠的元素,如果传入任何类型的字符串。必须提供这些参数中的至少一个。原创 2024-01-28 22:50:39 · 546 阅读 · 0 评论 -
pandas删除空行函数dropna 及其参数axis、how、subset、inplace
数据存在一定的缺失值,例如。列均存在一定量的缺失值。原创 2024-01-28 21:50:05 · 699 阅读 · 0 评论 -
python sklearn labelencoder、OneHotEncoder和get_dummies的区别
输入的应该是表示类别的数字,如果输入文本,会报错的。原创 2024-01-25 22:05:59 · 522 阅读 · 0 评论 -
pandas-profiling / ydata-profiling介绍与使用教程
:一个全面且自动的潜在数据质量问题列表(高相关性、偏斜、一致性、零值、缺失值、常数值等)):主要提供有关数据集的全局详细信息(记录数、变量数、整体缺失值和重复值、内存占用情况)):包括相关性分析、详细分析缺失数据、重复行,并为变量之间的交互提供视觉支持。):对数据中可能需要处理的问题/挑战的概要(缺失数据、不准确性、偏斜等)):包括描述性统计量(平均值、中位数、众数等)和信息可视化,如分布直方图。):最常见的类别(大写、小写、分隔符)、脚本(拉丁文、西里尔文)和区块(版本等相关的教程,直接拥抱新版本的。原创 2023-11-30 20:56:25 · 963 阅读 · 0 评论 -
pandas教程:2012 Federal Election Commission Database 2012联邦选举委员会数据库
里面包含了支持者的名字,职业和雇主,地址,赞助金额。我们可以已经能想到如何切割、整理数据,来提取赞助者的统计数据,或提取宣传活动的模式,这里我们展示一些不同的分析方法。可以看到有些职业是同一种工作类型,指代的是同一个东西。这两个连续操作是分别独立执行的,一个结束后,另一个才开始。上,这里我是把数据集压缩成了ZIP格式,解压后能正常导入)。我觉得也有必要好好了解一下,这个网站做了很好的讲解,),所以我们最好添加这样的信息。这样的情况,即把两个索引操作连在一起。,发现映射关系被正常执行了,所以这里的。原创 2023-11-28 19:49:37 · 267 阅读 · 0 评论 -
pandas教程:USDA Food Database USDA食品数据库
译者:虽然作者在书中说了用concat联结在一起,但我实际测试后,这个concat的方法非常耗时,用时几乎是append方法的两倍,所以上面的代码中使用了append方法。我们必须把这样的数据进行处理,方便之后的分析。这个数据是关于食物营养成分的。部分组合成一个大表格。每种食物都有一系列特征,其中有两个。这里我们提取食品名,群(我们可以看到食物群的分布,使用。上面所有步骤结束后,我们可以把。的时候,我们可以吹创业提取的。数据做一些分析,把每种食物的。(氨基酸)的营养群(原创 2023-11-28 19:44:44 · 1186 阅读 · 0 评论 -
pandas教程:US Baby Names 1880–2010 1880年至2010年美国婴儿姓名
一位研究人员指出:近百年来,男孩名字在最后一个字母上的分布发生了显著的变化。# 从name列中取出最后一个字母0 y1 a2 a3 h4 esexFMyear191019602010191019602010a108376.0691247.0670605.0977.05204.028438.0bNaN694.0450.0411.03912.038859.0c5.049.0946.0482.015476.023125.0d。原创 2023-11-28 19:40:38 · 279 阅读 · 0 评论 -
pandas教程:MovieLens 1M Dataset MovieLens 1M数据集
假设我们想要根据性别和年龄来计算某部电影的平均得分,如果将所有的数据都合并到一个表中的话,问题就简单多了。这个数据集是电影评分数据:包括电影评分,电影元数据(风格类型,年代)以及关于用户的人口统计学数据(年龄,邮编,性别,职业等)。为了按性别计算每部电影的平均得分,我们可以使用。如果想对不同的电影分类进行分析的话,就需要先将其转换成更有用的形式才行。,其内容为电影平均得分,行标为电影名称,列表为性别。注意,年龄和职业是以编码形式给出的,它们的具体含义请参考改数据集的。分为三个表:评分,用户信息,电影信息。原创 2023-11-28 19:29:03 · 362 阅读 · 0 评论 -
pandas教程:时区计数 USA.gov Data from Bitly USA.gov数据集
2011年,短链接服务(URL shortening service)商和美国政府网站合作,提供了一份从用户中收集来的匿名数据,这些用户使用了结尾为.gov或.mil的短链接。在2011年,这些数据的动态信息每小时都会保存一次,并可供下载。不过在2017年,这项服务被停掉了。数据是每小时更新一次,文件中的每一行都用JOSN(JavaScript Object Notation)格式保存。python有很多内置的模块能把JSON字符串转换成Python字典对象。原创 2023-11-28 08:57:53 · 265 阅读 · 0 评论 -
pandas教程:Introduction to scikit-learn scikit-learn简介
是一个被广泛使用的python机器学习工具包。里面包含了很多监督式学习和非监督式学习的模型,可以实现分类,聚类,预测等任务。虽然并没有和pandas深度整合,但在训练模型之前,pandas在数据清洗阶段能起很大作用。译者:构建的机器学习模型的一个常见流程是,用pandas对数据进行查看和清洗,然后把处理过的数据喂给中的模型进行训练。这里用一个经典的kaggle比赛数据集来做例子,泰坦尼克生还者数据集。原创 2023-11-27 20:46:45 · 779 阅读 · 0 评论 -
pandas教程:Introduction to statsmodels statsmodels简介
是一个有很多统计模型的python库,能完成很多统计测试,数据探索以及可视化。它也包含一些经典的统计方法,比如贝叶斯方法和一个机器学习的模型。线性模型(),广义线性模型(),鲁棒线性模型(线性混合效应模型(方差分析(ANOVA)方法(时间序列处理()和状态空间模型(广义矩估计方法(接下来我们用一些中的工具,并了解如何使用Patsy公式和pandasDataFrame进行建模。原创 2023-11-27 20:44:13 · 629 阅读 · 1 评论 -
pandas教程:Creating Model Descriptions with Patsy 利用Patsy创建模型描述
作为建模的一部分,我们可能会在一个数据及上训练模型,然后在另一个数据及上评价模型。当使用中心化或标准化这样的转换时,我们必须注意,必须用模型在新数据集上做预测。的形式来包含有交集的术语,这种方法可以用于使用多个术语,例如,一个方法分析模型(因为我们必须用原本在训练集上得到的平均值和标准差,用在新的数据集上。库,用于描述统计模型(尤其是线性模型),方法是通过一个叫做公式语法(的语法并不代表将a和b相加,而是代表为模型创建的设计矩阵的术语(当我们在一个模型中使用多个类型术语时,会变得更复杂一些,之前用。原创 2023-11-27 20:40:35 · 169 阅读 · 0 评论 -
pandas教程:Interfacing Between pandas and Model Code pandas与建模代码间的交互
这一章回顾一下之间pandas的一些特性,希望能在我们处理数据的时候有所帮助。和。原创 2023-11-27 20:37:39 · 185 阅读 · 0 评论 -
pandas教程:Techniques for Method Chaining 方法链接的技巧
需要记住的是,当使用方法链接的时候,你可能会需要引用临时对象。在之后的例子,我们不能引用load_data的结果,除非它被赋值给临时变量。不过,有时候我们想要用自己的函数或一些第三方库里的函数。一个有用的模式是生成一系列可重复的函数操作。除此之外,我们可能想要把这种转换用方法链接的形式实现。对序列进行转换的时候,我们会发现会创建很多再也不会用到的临时变量(它不会修改原有的对象,而是会返回一个带有修改标识的新。中的函数被绑定到了绑定到了在某个链接状态下的对象上(对象的时候,我们可以把上面的利用。原创 2023-11-27 20:35:04 · 182 阅读 · 0 评论 -
pandas教程:Advanced GroupBy Use 高级GroupBy用法
一个无包装的组操作可能会涉及多个组聚合操作,不过向量化操作会胜过这种操作。的函数,但是结果的大小和输入的必须一样。对于内建的聚合函数,我们可以传入一个字符串别名,就像使用。这就需要我们使用无包装的组操作(方法是一个基于时间的组操作。方法在组上进行转换操作的。还有一个内建的方法叫。的一些用法,这里还有一些技巧可能会用得到。分组后的平均值来替换。包含多个时间序列,用多一个。列的值做重采样,我们引入。我们已经在第十章讨论了。假设我们想要产生一个和。的一个限制是时间必须是。内建的聚合函数,比如。原创 2023-11-27 20:31:16 · 306 阅读 · 0 评论 -
pandas教程:Categorical Data 类别数据
表示不同类别值的数组,被称作类别,字典,或层级。类型,使用的时候会减少很多内存的使用。最后一点需要注意的,类型数据没必要一定是字符串,它可以是任何不可变的值类型。所以,取决于输入的数据,假设我们知道实际的类别超过了当前观测到的四个类别,那么我们可以使用。中,给一列中不同的类别创建不同的列,用1表示出现,用0表示未出现。会非常快,因为用的是基于整数的编码,而不是由字符串组成的数组。类型,是用来保存那些基于整数的类别型数据。对于不同的类型数据值,一个更好的方法是用维度表(表示类别的整数值被叫做,类别编码(原创 2023-11-27 20:17:51 · 316 阅读 · 0 评论 -
pandas教程:Resampling and Frequency Conversion 重采样和频度转换
最后,我们可能想要对结果的索引进行位移,比如在右边界减少一秒。)指的是把时间序列的频度变为另一个频度的过程。增采样需要考虑的要多一些,比如在重采样前,选择哪一个时间跨度作为结束,就像。一个数据点只能属于一个间隔,所有间隔的合集,构成整个时间范围(在经济界,一个比较流行的用法,是对时间序列进行聚合,计算每一个桶(把一个低频度转换为高频度,是不需要进行聚合的。的左边的时间戳,会被用来作为结果里时间序列的标签。是一个灵活且高效的方法,可以用于处理大量的时间序列。W-FRI`,既不属于降采样,也不属于增采样。原创 2023-11-19 10:35:23 · 249 阅读 · 0 评论 -
pandas教程:Periods and Period Arithmetic 周期和周期运算
这里,年度周期可以用月度周期替换,对应的第一个月也会包含在每个年度周期里。如果我们想要每年的最后一个工作日的话,可以使用。有固定频度的数据集,有时会在很多列上存储时间跨度信息。的频度会从时间戳中来推测,但我们也可以自己设定想要的频度。),一个时间戳只能属于一个有指定频度的单独周期。如果两个周期有相同的频度,二者的区别就是它们之间有多少个单元(因此,根据财政年度结束的不同,周期。年一年的时间跨度,从1月1日到12月31日。,并指定频度,我们可以把这些合并得到一个新的。如果我们有字符串组成的数组,可以使用。原创 2023-11-19 10:30:19 · 242 阅读 · 0 评论 -
pandas教程:Time Zone Handling 时区处理
观测所门口墙上有一个标志24小时的时钟,显示当下的时间,对全球而言,这里所设定的时间是世界时间参考点,全球都以格林威治的时间作为标准来设定时间,这就是我们耳熟能详的「格林威治标准时间」(为准)、地轴运动修正后的新时标以及以「秒」为单位的国际原子时所综合精算而成的时间,计算过程相当严谨精密,因此若以「世界标准时间」的角度来说,)的由来,标示在手表上,则代表此表具有两地时间功能,也就是同时可以显示原居地和另一个国度的时间。讲朴素的时间戳进行本地化,还会检查夏令时转换期附近是否有模糊的或不存在的时间。原创 2023-11-19 10:24:53 · 353 阅读 · 0 评论 -
pandas教程:Date Ranges, Frequencies, and Shifting 日期范围,频度,和位移
普通的时间序列通常是不规律的,但我们希望能有一个固定的频度,比如每天,每月,或没15分钟,即使有一些缺失值也没关系。幸运的是,中有一套方法和工具来进行重采样,推断频度,并生成固定频度的日期范围。例如,我们可以把样本时间序列变为固定按日的频度,需要调用:这里的’D’表示按日的频度()。关于频度()和重采样()的转换,会在11.6进行具体介绍,这里我们展示一些基本的用法。之前虽然用过,但没有做解释,其实是用来生成的,使用时要根据频度来指明长度:默认,会生成按日频度的时间戳。如果我们只传入一个开始或一个原创 2023-11-19 10:20:18 · 272 阅读 · 0 评论 -
pandas教程:Time Series Basics 时间序列基础
记住,这种方式的切片得到的只是原来数据的一个视图,如果我们在切片的结果上进行更改的的,原来的数据也会变化。’就直接被解析为一年,然后选中这个时期的数据。中,一个基本的时间序列对象,是一个用时间戳作为索引的。假设我们想要聚合那些有重复时间戳的数据,一种方法是用。当我们基于标签进行索引和选择时,时间序列就像是。中,每隔两个元素选一个元素。有一个相等的实例方法(,能在两个日期上,对。原创 2023-11-19 10:13:00 · 173 阅读 · 0 评论 -
pandas教程:Date and Time Data Types and Tools 日期和时间数据类型及其工具
但是,如果每次都要写格式的话很烦人,尤其是对于一些比较常见的格式。它可能会把一些字符串识别为日期,例如,'42’就会被解析为2042年加上今天的日期。)的,意思是数据点会遵照某种规律定期出现,比如每15秒,每5分钟,或每个月。),没有一个固定的时间规律。)的选项,用于处理不同国家或不同语言的问题。例如,月份的缩写在德国和法国,与英语是不同的。在国际上,日在月之前是很常见的(译者:美国是把月放在日前面的),所以我们可以设置。时间序列指能在任何能在时间上观测到的数据。对于一个一直的时间格式,使用。原创 2023-11-19 10:08:30 · 377 阅读 · 0 评论 -
pandas教程:Pivot Tables and Cross-Tabulation 数据透视表和交叉表
来制作,这个本节会进行介绍,除此之外还会有介绍如何利用多层级索引来进行。)的一部分,我们想要按国家和惯用手来进行汇总。来把数据聚合为表格,能沿着行或列,根据组键来整理数据。(数据透视表)是一种常见的数据汇总工具,常见与各种。行,这一行的值是不考虑任何组中任意两个组的平均值(数据集,假设我们想要计算一个含有组平均值的表格(列,这一列的值是不考虑吸烟周和非吸烟者的平均值(),是数据透视表的一个特殊形式,只计算组频率(想要使用不同的聚合函数,传递给。如果一些组合是空的(或。默认的聚合类型),按。原创 2023-11-19 09:58:42 · 273 阅读 · 0 评论 -
pandas教程:Apply:General split-apply-combine 通常的分割-应用-合并
一个可能的方法是,我们先创建一个能计算不同列相关性的函数,然后拿每一列与。假设我们想要从每副花色中随机抽取两张,花色是每张牌名字的最后一个字符(即H, S, C, D),我们可以根据花色分组,然后使用。与道琼斯指数相比,标准普尔500指数包含的公司更多,因此风险更为分散,能够反映更广泛的市场变化。最后,我们按年来给这些百分比变化分组,年份可以从每行的标签中通过一个一行函数提取,然后返回的结果中,用。函数,所以每一组会返还5行作为结果,最后把两组的结果整合起来,一共是10行)。我们也可以计算列内的相关性。原创 2023-11-15 23:50:53 · 205 阅读 · 0 评论 -
pandas教程:Data Aggregation 数据聚合
然而,我们可能想要在列上使用不同的函数进行聚合,又或者想要一次执行多个函数。目前为止提到的所有例子,最后返回的聚合数据都是有索引的,而且这个索引默认是多层级索引,这个索引是由不同的组键的组合构成的(注意:自定义的函数会比上面表中的函数慢一些,上面的函数时优化过的,而自定义的函数会有一些额外的计算,所以慢一些。上面结果的列名是自动给出的,当然,我们也可以更改这些列名。应用到所有的列上,也可以在不同的列上应用不同的函数。,我们有更多的选择,我们可以用一个含有多个函数的。当然,我们也可以在上面的结果上直接调用。原创 2023-11-15 23:41:51 · 600 阅读 · 0 评论 -
pandas教程:GroupBy Mechanics 分组机制
语法糖(Syntactic sugar),是由Peter J. Landin(和图灵一样的天才人物,是他最先发现了Lambda演算,由此而创立了函数式编程)创造的一个词语,它意指那些没有给计算机语言添加新功能,而只是对人类来说更“甜蜜”的语法。默认,所有的数值型列都会被汇总计算,但是出现有碍列的情况的话,就会过滤掉这种列。中,在这种情况下,我们可以传入列名(可以是字符串,数字,或其他。(分组对象)已经有了我们想要的信息,现在需要的是对于每一个。,如果传入的只是单独一个列名,那么返回的是一个分组后的。原创 2023-11-15 23:19:07 · 595 阅读 · 0 评论 -
9.2 Plotting with pandas and seaborn(用pandas和seaborn绘图)
matplotlib是一个相对底层的工具。pandas自身有内建的可视化工具。另一个库seaborn则是用来做一些统计图形。导入seaborn会改变matplotlib默认的颜色和绘图样式,提高可读性和美感。即使不适用seaborn的API,也可以利用seaborn来提高可视化的效果。原创 2023-11-15 23:08:25 · 437 阅读 · 0 评论 -
numpy教程:Example Random Walks 随机漫步
这个例子让我了解一个在实际任务中如何利用数组操作。首先一个最简单的随机漫步:从0开始,步幅为1和-1,以相同的概率出现。下面是纯python随机漫步其实就是一个简单的累加。而用np.random一个更复杂的统计值是在哪一步到达了一个指定值。我们想知道从0走出10步用了多久,不论是正方形还是负方向。给我们一个布尔数组告诉我们是否超过10,但我们想要第一次出现的10或-10。因此,我们利用argmax来计算,这个会返回布尔数组中最大值的索引(Ture注意,使用argmax。原创 2023-11-09 10:35:16 · 219 阅读 · 0 评论 -
numpy教程:Array-Oriented Programming with Arrays 数组导向编程
向量化的数组运算比纯python同等程度的运算要快很多。一个简单的例子,假设我们想要评价函数。在进行书中的内容之前,先举个例子说明meshgrid的效果。meshgrid函数用两个坐标轴上的点在平面上画网格。与是等同的生成三维数组,可用来计算三变量的函数和绘制三维立体图这里,主要以为例,来对该函数进行介绍。将向量x和y定义的区域转换成矩阵X和Y,其中矩阵X的行向量是向量x的简单复制,而矩阵Y的列向量是向量y的简单复制(注:下面代码中X和Y均是数组,在文中统一称为矩阵了)。原创 2023-11-09 10:32:55 · 177 阅读 · 0 评论 -
numpy教程:Universal Functions 通用函数 伪随机数
本函数是实现a除以b,然后返回商与余数的元组。如果两个参数a,b都是整数,那么会采用整数除法,结果相当于(a//b, a % b)。如果a或b是浮点数,相当于(math.floor(a/b), a%b)。可以把一些简单的函数做快速的向量化封装,输入时一个以上的标量,输出也是一个以上的标量。提供了很多生成随机数的函数,可以选择生成符合某种概率分布的随机数。能保存多个数组,还可以指定数组对应的关键字,不过是未压缩的。在生成大量样本方法,是全局的,如果想要避免全局状态,可以用。计算的是X和X的转置的矩阵乘法。原创 2023-11-08 19:09:24 · 236 阅读 · 0 评论 -
numpy教程:The NumPy ndarray
并不能保证返回所有是0的数组,某些情况下,会返回为初始化的垃圾数值,比如上面。对于多维数组,如果省略后面的索引,返回的将是一个低纬度的多维数组。, 一个有效的多维数组,能提供以数组为导向的快速数值计算和灵活的广播功能(我翻译为点对点,就是指两个数组的运算,在同一位置的元素间才会进行运算。类型,这种类型的长度是固定的,所以可能会直接截取部分输入而不给警告。用布尔索引总是会返回一份新创建的数据,原本的数据不会被改变。做矩阵计算的时候,这个功能很常用,计算矩阵乘法的时候,用。所以,数组中的切片,是要沿着设置的。原创 2023-11-08 18:52:06 · 281 阅读 · 0 评论 -
pandas教程:Summarizing and Computing Descriptive Statistics 总结和描述性统计
里出现过的值,从1到5。而对应的每个方框里的值,则是表示该值在当前列中出现的次数。能实现一个向量化的集合成员关系检查,能用于过滤数据集,检查一个子集,是否在。大部分可以归类为降维或汇总统计,这些方法是用来从。收购后,好像是不能用了。于是这里我们直接从下好的数据包里加载。(即缺失值)会被除外,除非整个切片全是。属性,我们可以通过更简洁的方式来选中。(即1,2,3,4,5)其实就是整个。另一种类型既不是降维,也不是累加。被计算之前,所有的数据会根据。不是有序的,但我们可以排序,,能返回间接的统计值,比如。原创 2023-11-08 10:12:15 · 147 阅读 · 0 评论 -
pandas教程:Essential Functionality 索引 过滤 映射 排序
这里没有给0和2(指两个数字7)赋予average rank 6.5,而是给第一个看到的7(label 0)设置rank为6,第二个看到的7(label 2)设置rank为7。中,4和4的排名是第4名和第五名,取平均得4.5。另一个常用的操作是把一个用在一维数组上的函数,应用在一行或一列上。对于行,即使有相同的,但列不一样的话也会是缺失值。接下来介绍pandas中的一些主要功能,这里只介绍一些经常用到的。这样的语法是比较冗长的,因为这是会被经常用到的一个功能。是唯一的,但这并是不强制的。原创 2023-11-08 00:04:30 · 358 阅读 · 0 评论 -
pandas教程:Introduction to pandas Data Structures pandas的数据结构
表示一个长方形表格,并包含排好序的列,每一列都可以是不同的数值类型(数字,字符串,布尔值)。可以看做是分享所有索引的由series组成的字典。数据是保存在一维以上的区块里的。如果列不存在,赋值会创建一个新列。这里series我就不翻译成序列了,因为之前的所有笔记里,我都是把。在这种重复的标签中选择的话,会选中所有相同的标签。是一个像数组一样的一维序列,并伴有一个数组表示。关于缺失数据,在第七章还会讲得更详细一些。里的那种表格来用的,这样感觉更直观一些)的方法,它是一个长度固定,有顺序的。原创 2023-11-07 23:34:13 · 325 阅读 · 0 评论 -
pandas教程:Interacting with Web APIs API和数据库的交互
我们不希望每次询问数据库的时候都重复以上步骤,这样对计算机很不好(逐步对计算机系统或文件做小改动导致大的损害)。选择数据库通常取决于性能,数据整合性,实际应用的可扩展性。中有一些函数能简化这个过程。举个例子,这里创建一个。有很多方法可以访问这些。如果在工作中,大部分数据并不会以。中的每一个元素都是一个。工具箱,它能抽象出不同。,这里推荐一个易用的。原创 2023-11-07 23:24:54 · 338 阅读 · 0 评论 -
pandas教程:Binary Data Formats 二进制数据格式
元数据(meta data)——“data about data” 关于数据的数据,一般是结构化数据(如存储在数据库里的数据,规定了字段的长度、类型等)。元数据是指从信息资源中抽取出来的用于说明其特征、内容的结构化的数据(如题名,版本、出版数据、相关说明,包括检索点等),用于组织、描述、检索、保存、管理信息和知识资源。,但是我们鼓励你多尝试一个不同的文件格式,看看他们能有多快,是否符合你数据分析的要求。格式是用来存储大量的科学数组数据的。,使用一些为分布式存储实际的二进制格式会更适合一些,比如。原创 2023-11-07 23:18:47 · 605 阅读 · 0 评论