手把手陪你学Python
文章平均质量分 61
Yif18
微信搜一搜“TriHub数据社”,欢迎关注获得入社福利
展开
-
Python综合评价模型(八)熵权法
熵权法是根据评价指标的变异程度(差异系数)来分配权重,评价指标变异程度越大,所赋权重就越大,并以此对评价对象进行综合评价的方法原创 2023-04-07 13:01:55 · 3812 阅读 · 2 评论 -
Chapter 3.3 词向量和语言模型(三)
知识点3.3.1 word2vec知识点3.3.2 哈夫曼树知识点3.3.3 层次Softmax知识点3.3.4 负采样原创 2022-02-24 14:28:38 · 147 阅读 · 0 评论 -
Chapter 3.2 词向量和语言模型(二)
知识点3.2.1 共现矩阵知识点3.2.2 NNLM模型(神经网络语言模型)原创 2022-02-22 16:30:02 · 648 阅读 · 0 评论 -
Chapter 3.1 文本向量化和语言模型(一)
知识点3.1.1 文本向量化和语言模型的概念知识点3.1.2 词袋模型知识点3.1.3 N-gram模型最基础的以词为基本单元的文本向量化方法把文本看成是一系列词的集合(袋子)词和词相互独立,一个词是否在文本中出现不依赖于其他词#载入需要的程序库impor原创 2022-01-28 11:32:50 · 1610 阅读 · 0 评论 -
Chapter 2.3 高频词和关键词提取(三)
知识点2.3.1 TextRank算法的思想起源知识点2.3.2 TextRank算法的基本思想知识点2.3.3 基于jieba的TextRank关键词提取原创 2022-01-25 19:18:23 · 822 阅读 · 0 评论 -
Chapter 2.2 高频词和关键词提取(二)续
知识点2.2.5 基于sklearn的TF-IDF关键词提取原创 2022-01-25 11:27:21 · 1937 阅读 · 0 评论 -
Chapter 2.2 高频词和关键词提取(二)
知识点2.2.1 TF-IDF算法的基本思想知识点2.2.2 基于jieba的TF-IDF关键词提取知识点2.2.3 关键词的词云图展示原创 2022-01-21 11:30:00 · 1066 阅读 · 0 评论 -
Chapter 2.1 高频词和关键词提取(一)
知识点2.1.1 高频词和关键词的区别知识点2.1.2 基于numpy和pandas的高频词提取知识点2.1.3 基于nltk的高频词提取知识点2.1.4 高频词的词云图展示原创 2022-01-17 16:18:11 · 2202 阅读 · 0 评论 -
手把手陪你学文本分析——Chapter 2 分词的优化操作
知识点1.2.1 新词词典的形成知识点1.2.2 新词词典的使用知识点1.2.3 停用词词典的使用知识点1.2.4 词性标注原创 2022-01-06 16:26:03 · 774 阅读 · 0 评论 -
手把手陪你学文本分析——Chapter 1 分词的基础操作
Chapter 1.1 分词的基础操作知识点1.1.1 分词方法的类型知识点1.1.2 基于规则分词的主要规则知识点1.1.3 分词工具的介绍——Jieba分词知识点1.1.4 Jieba分词的实战——2021年政府工作报告原创 2022-01-05 11:23:23 · 996 阅读 · 0 评论 -
Excel VS Python 第九期——多表合并
Excel VS Python 第九期——多表合并原创 2021-12-29 10:25:02 · 669 阅读 · 0 评论 -
Excel VS Python 第八期——选择部分数据
Excel VS Python 第八期——选择部分数据原创 2021-12-21 15:38:34 · 1754 阅读 · 0 评论 -
Excel VS Python 第七期——选择列数据
有时候,我们仅需要分析数据集的某些部分今天要为大家介绍如何使用Excel 和 Python进行列数据选择案例数据继续使用UCI的红酒质量评分数据集需要完成的任务是选择该数据集的列数据知识点14:选择某一列Excel鼠标单击某列的顶端列编号,即可选择某一列Pythonimport pandas as pd #载入pandas库data = pd.read_excel('C:/Users/dell-pc/Desktop/data.xlsx') #读取Excel文件数据data.he原创 2021-08-15 10:41:12 · 595 阅读 · 0 评论 -
Excel VS Python 第六期——设置数据索引
索引对于数据集而言,是一种独立且不重复的标识设置索引能够便于我们查询数据索引一般分为两种,即行索引和列索引今天要为大家介绍如何使用Excel 和 Python进行数据索引设置案例数据继续使用UCI的红酒质量评分数据集需要完成的任务是设置该数据集的行索引和列索性知识点12:设置数据行索引Excel对于Excel而言,有默认的行号,默认的行号从1开始通过插入第一行即可设置行名Pythonimport pandas as pd #载入pandas库data = pd.read_exc原创 2021-08-08 12:24:01 · 2085 阅读 · 1 评论 -
Excel VS Python 第五期——转换数据类型
有时候,我们在数据预处理的过程中,会遇到一些关于数据类型的小尴尬比如调查单位的行业代码由四个数字组成,但却不是数值而是字符,这就需要我们对数据类型进行转换今天要为大家介绍如何使用Excel 和 Python进行数据类型转换案例数据继续使用UCI的红酒质量评分数据集需要完成的任务是将“id”列数据由数值型转换为字符型知识点10:查看数据类型Excel选中"id"列——单击鼠标右键——设置单元格格式Pythonimport pandas as pd #载入pandas库data = p原创 2021-07-30 17:05:14 · 1743 阅读 · 0 评论 -
Excel VS Python 第四期——异常值处理
Excel VS Python 第四期相信大家最近都在为河南加油郑州这次的特大暴雨属于极端天气,而在数据分析过程中,我们也常会遇到一些极端大或极端小的异常数据值如果变量服从或近似服从正态分布,那么大于“均值+3倍标准差”,或小于“均值-3倍标准差”的数据值就为“异常值”一般而言,数据处于“均值±3倍标准差”范围外的概率小于0.3%,属于小概率事件今天要为大家介绍如何使用Excel 和 Python处理数据集中的异常值案例数据继续使用UCI的红酒质量评分数据集需要完成的任务是检测并删除变量“fi原创 2021-07-24 17:59:09 · 2640 阅读 · 0 评论 -
Excel VS Python 第三期——重复值处理
这几天气温超高,大家要注意防暑,当然也要记得运动完千万别直接吃冰淇淋也千万别猛吹空调,不然就会拉肚子加热伤风今天要为大家介绍如何使用Excel 和 Python处理数据集中的重复值案例数据继续使用UCI的红酒质量评分数据集,字段“ID”为调查样本的唯一标识需要完成的任务是检测并删除重复的调查样本知识点6:检测重复值Excel选中“ID”列,开始——条件格式——突出显示单元格规则——重复值——确定Pythonimport pandas as pd #载入pandas库data = pd原创 2021-07-19 09:17:54 · 537 阅读 · 0 评论 -
Excel VS Python 第二期——缺失值处理
知识点3:检查缺失值import pandas as pd #载入pandas库data = pd.read_excel('C:/Users/dell-pc/Desktop/data.xlsx') #读取Excel文件数据data.head(5) #显示前5行数据data.shape[0] #显示数据集的行数data.isnull().sum() #查看各列数据的缺失情况知识点4:删除缺失值data.dropna(how = "any", inplace = True)原创 2021-07-11 17:01:05 · 1174 阅读 · 0 评论 -
【手把手陪你学Python】用pyecharts库画水球图
水球图是什么?水球图是一种可用于展示单个百分比数据的动态图表第一步 载入pyecharts库from pyecharts.charts import Liquid, Grid #首次使用需先安装,执行命令pip install pyechartsfrom pyecharts import options as optsfrom pyecharts.commons.utils import JsCode第二步 绘制基本水球图pic1 = ( Liquid() .ad原创 2021-07-06 19:57:35 · 2286 阅读 · 1 评论 -
Excel VS Python 第一期——Excel文件读取
写在前面从本周开始准备挖个新坑——Excel VS PythonExcel是最基础、最常用的数据分析工具软件Python则是最热门、最实用的数据分析编程语言这个专题的推文将主要介绍如何通过使用Excel 和Python来实现一套较完整的数据分析流程,分析结果可用于统计分析、报告或课题的撰写另外 ,结合每2-3期的推文内容会为大家安排一次相应的直播或录播课程知识点1:读取Excel文件数据基本方式1import pandas as pd #载入pandas库data = pd.read_原创 2021-07-05 09:15:13 · 267 阅读 · 1 评论 -
【手把手陪你学Python】用pyecharts库画桑基图
桑基图是什么?桑基图(Sankey diagram),即桑基能量分流图或桑基能量平衡图,是一种特定类型的流程图,主要由边、流量和节点组成,其中边代表流动的数据,流量代表流动数据的具体数值,节点代表不同的分类,图中延伸的边的宽度对应流量的大小最初因1898年Matthew Henry Phineas Riall Sankey绘制的“蒸汽机的能源效率图”而闻名,故以其名字命名为“桑基图”要点1:核心在于展示数据的流转情况要点2:主要由边、流量和节点组成,边越宽流量越大要点3:遵循守恒定律,始末端的边原创 2021-06-21 15:23:02 · 2176 阅读 · 0 评论 -
【手把手陪你学Python】用pyecharts画词云图
【小白的Python小贴士】用pyecharts画词云图词云图是什么?词云图是通过“关键词云层”或“关键词渲染”的方式,对文本数据中出现频率较高或权重较大的“关键词”进行可视化的展示,便于读者直观领略文本数据的主旨和核心内容pyecharts是什么?pyecharts是一款将Python与Echarts相结合的数据可视化工具,而Echarts是由百度开源的数据可视化工具,一个纯JavaScript的图表库pyecharts官方文档第一步 安装pyecharts库pip install py原创 2021-06-15 10:06:46 · 4583 阅读 · 4 评论