数据处理
文章平均质量分 63
大数据,excel啥的处理,都是很简单的入门的
shu天
(最近去准备考试了,没办法回复私信和评论还请见谅)咸鱼才是一切的尽头
展开
-
[python]csv数据处理 将目录下所有csv文件取出想要的列,去重并存入新csv
代码import pandas as pdimport osimport csvpath = r"/home/kali/Desktop/结果文件10.1"with open('./user_id.txt','w'): passfor dirpath,dirnames,filenames in os.walk(path): for filename in filenames: # 使用pandas读入 data = pd.read_csv(os.path.join(dirpath,f原创 2021-08-11 12:51:17 · 2004 阅读 · 0 评论 -
[python]文本处理 wordcloud词云
词云是对分词结果频数表的图形化展示,对文本中出现频率较高的“关键词”予以视觉上的突出,使浏览网页者只要一眼就能领略文本的主旨wordcloud生成词云import wordcloudimport matplotlib.pyplot as plt # pyplot显示图像text = '圣诞节 十大金牌' #文本必须用空格或标点间隔fontpath = 'C:\Windows\Fonts\STXINGKA.TTF' #window默认字体就在这个路径cloud = wordcloud原创 2021-08-08 19:06:40 · 254 阅读 · 0 评论 -
[python]文本处理 pandas、nltk词频统计
先做好预处理和分词,word_list为处理好的列表nltk的FreqDist方法import nltkfreqlist = nltk.FreqDist(word_list) #生成一个词频的字典freqlist['词'] #查一个词的频率freqlist.keys() #看里面所有的词freqlist.tabulate(10) #前十个高频词,表显示freqlist.most_common(5) #列表显示,列表中是元组pandasimport pandas as p原创 2021-08-08 18:12:33 · 1860 阅读 · 0 评论 -
[python][pandas]pandas数据处理+直方图绘制
依旧是学校作业数据:wechart.csv(微信公众号后台数据),数据说明如下:根据上述数据,完成以下内容:按后三个字段统计各月数据(生成Excel,命名为”学号.xls/xlsx)PS:将数据里缺失数据填充为0,在程序中体现;将1的结果按字段画出直方图。import pandas as pdimport osimport csvimport matplotlib.pyplot as pltdata = pd.read_csv( r"./wechart.csv") #读取文件中原创 2021-12-03 00:15:00 · 4570 阅读 · 1 评论 -
[python]pandas基础操作
学校作业记一下一、数据说明:本次练习使用的数据集来自数据网站Kaggle的美国新冠肺炎疫情数据集,该数据集以数据表us-counties.csv组织,其中包含了美国发现首例新冠肺炎确诊病例至2020-05-19的相关数据。数据包含以下字段:字段名称 字段含义 例子date 日期 2020/1/21;2020/1/22;etccounty 区县(州的下一级单位) S原创 2021-11-27 00:00:00 · 383 阅读 · 0 评论 -
HDFS (Hadoop Distributed File System)基础( 概念+常用命令 )
HDFS (Hadoop Distributed File System)基础( 概念+常用命令 )Hadoop Distributed File SystemHDFS (Hadoop Distributed File System)基础( 概念+常用命令 )一、基础组成二、常用命令参数:具体命令:1.目录操作2.文件上传下载3.查看磁盘信息本文来自csdn的⭐️shu天⭐️,平时会记录ctf、取证和渗透相关的文章,欢迎大家来我的主页:shu天_CSDN博客-ctf,取证,web领域博主:https:原创 2022-04-16 09:00:00 · 489 阅读 · 0 评论 -
CentOS 7 下 Hadoop全分布式集群搭建
Hadoop集群搭建一、基础环境1.安装java2.安装Hadoop3. 关闭防火墙4.修改IP和主机名5.配置host使IP和主机名关系映射二、配置Hadoop集群1.**修改配置文件:**2.格式化 Namenode**克隆 2 台客户机**12. 设置 ssh 免密登录5.启动四、some tips一、概念1.单机模式(独立模式)(Local或Standalone Mode)2.伪分布式模式(Pseudo-Distrubuted Mode)3.全分布式集群模式(Full-Distribute原创 2022-03-23 09:44:49 · 1301 阅读 · 0 评论