![](https://img-blog.csdnimg.cn/20191213133949737.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python数分三剑客
numpy pandas matplotlib
老酱儿
这个作者很懒,什么都没留下…
展开
-
python对多层列索引取值
处理 Dataframe数据,遇到了一个 多层列索引 的数据,再进行切片数据的时候,遇到了一些问题,所以对 多层列索引 的切片做个 整体的总结数据切片的2种方法,loc 以及 iloc ,做个简单的总结下面使用这两种方法对df进行切片取值,取出下图红框中的数据loc的方法,不管是行索引,还是列索引 都必须使用 索引名,所以如果索引中有数字作为索引的时候,要加上引号iloc的方法,是直接使用下标,行列 都是从0开始 按照下标,列数按照最后一层索引的下标开始......原创 2022-07-13 15:54:57 · 1498 阅读 · 0 评论 -
Numpy数组的广播机制
Numpy数组的广播机制当两个数组的形状并不相同的时候,我们可以通过扩展数组的方法来实现相加、相减、相乘等操作,这种机制叫做广播(broadcasting)定义数据import numpy as npa = np.array([1,2,3])b = np.array([4,5,6])c =np.array([[4],[5],[6]])d = np.array([[1,2,3], [4,5,6]])e = np.array([[1,2,3], [4,5,6],[7,8,9]])1.1原创 2020-07-03 14:03:21 · 783 阅读 · 0 评论 -
Python中数据合并concatenate,merge,concat,join等用法
转载地址numpy中的concatenate()>>> a = np.array([[1, 2], [3, 4]])>>> b = np.array([[5, 6]])>>> np.concatenate((a, b), axis=0)array([[1, 2], [3, 4], [5, 6]])>...转载 2019-12-30 09:47:41 · 2808 阅读 · 0 评论 -
知识图谱
转载出处[https://www.cnblogs.com/huangyc/p/10043749.html]0. 目录1. 前言2. 知识图谱定义3. 数据类型和存储方式4. 知识图谱的架构 4.1 逻辑架构 4.2 技术架构5. 信息抽取 5.1 实体抽取(Entity Extraction) 5.2 关系抽取(Relation Extraction)...转载 2019-10-25 09:14:37 · 573 阅读 · 0 评论 -
基于朴素贝叶斯的图书信息分类
import numpyimport jiebaimport pandasfrom sklearn.naive_bayes import MultinomialNBfrom sklearn.feature_extraction.text import CountVectorizer# 加载数据data = pandas.read_csv('data/data.csv',enco...原创 2019-09-21 08:41:56 · 368 阅读 · 0 评论 -
基于线性回归的波士顿房价预测
import numpyimport pandasfrom matplotlib import pyplotfrom sklearn.linear_model import Ridge # 岭回归---线性回归+ L2正则化from sklearn.datasets import load_boston # 数据from sklearn.linear_model import SGD...原创 2019-09-21 08:41:13 · 4831 阅读 · 0 评论 -
基于逻辑回归的癌症分析
import numpyimport pandasfrom sklearn.metrics import roc_auc_scorefrom sklearn.preprocessing import StandardScaler # 标准化from sklearn.linear_model import LogisticRegression #逻辑回归from sklearn...原创 2019-09-21 08:40:37 · 412 阅读 · 0 评论 -
词数统计及其重要程度统计
词数统计import jiebafrom sklearn.feature_extraction.text import CountVectorizer #统计词数,英文'''# 构建文章【英文】content = ['This is the first document.', 'This is the second second document.', 'And the third...原创 2019-09-21 08:35:25 · 1091 阅读 · 1 评论 -
数据标准化和离散化
数据的标准化标准化数据的目的:将数据转化为同一量级,避免量级对结果产生不利的影响数据转化的三种方式:离差标准化,标准差标准化,小数定标标准化离差标准化Ø 数据的整体分布情况并不会随离差标准化而发生改变,原先取值较大的数据,在做完离差标准化后的值依旧较大。Ø 当数据和最小值相等的时候,通过离差标准化可以发现数据变为0。Ø 若数据极差过大就会出现数据在离差标准化后数据之间的差值非常小的情况...原创 2019-09-18 13:47:52 · 3219 阅读 · 0 评论 -
数据的清洗,合并,转化和重构
数据合并连接根据单个或多个键将不同DataFrame的行连接起来,类似数据库的连接操作。直接合并【concat】import pandas# 直接拼接【concat】# 加载数据data_1 = pandas.read_excel('data_file/concat数据拼接.xlsx',sheetname=0)data_2 = pandas.read_excel('data_fil...原创 2019-09-16 20:48:41 · 543 阅读 · 0 评论 -
pandas的时间数据
在多数情况下,对时间类型数据进行分析的前提就是将原本为字符串的时间转换为标准时间类型, pandas继承了NumPy库和datetime库的时间相关模块,提供了6种时间相关的类。Timestamp 其中Timestamp作为时间类中最基础的,也是最为常用的。在多数情况下,时间相关的字符串都会转换成为Timestamp。pandas提供to_datetime函数,能够实现这一...原创 2019-09-15 18:34:09 · 875 阅读 · 0 评论 -
matplotlib数据可视化 — 初级图形绘制
第一部分主要作用是构建出一张空白的画布,并可以选择是否将整个画布划分为多个部分,方便在同一幅图上绘制多个图形的情况。最简单的绘图可以省略第一部分,而后直接在默认的画布上进行图形绘制第二部分是绘图的主体部分。其中添加标题,坐标轴名称,绘制图形等步骤是并列的,没有先后顺序,可以先绘制图形,也可以先添加各类标签。但是添加图例一定要在绘制图形之后。第三部分主要用于保存和显示图形pyplot使用r...原创 2019-09-11 08:54:47 · 467 阅读 · 0 评论 -
数据分析
数据描述数据的本质:数据对象【样本、实例、数据点、或对象】数据属性属性(attribute)是一个数据字段,表示数据对象的一个特征。标称属性:其值是一些符号或者事物的名称二元属性:只有两种结果的标称属性序数属性:其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。【标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。】数值属性:区间...原创 2019-09-08 20:51:24 · 336 阅读 · 0 评论 -
数据分析 ---- numpy
Numpy是用于数据科学计算的基础,不但能够完成科学计算任务,还能被用作高效地多维数据容器。用于存储和处理大型矩阵。 Python提供了一个array模块,和list不同,它直接保存数值,但是由于Python 的array模块不支持多维,也没有各种运算函数。 Numpy 弥补了这一遗憾。Numpy提供了一种存储单一数据类型的多维数组——ndarr...原创 2019-09-08 19:27:24 · 141 阅读 · 0 评论