教你最简单、最易上手的词云图

最新推荐文章于 2023-11-23 13:03:33 发布

张謹礧

最新推荐文章于 2023-11-23 13:03:33 发布

阅读量248

点赞数

分类专栏： python爬虫+可视化 pycharm作图文章标签： python

本文链接：https://blog.csdn.net/weixin_66547608/article/details/130788828

版权

pycharm作图同时被 2 个专栏收录

13 篇文章

订阅专栏

python爬虫+可视化

10 篇文章

订阅专栏

文章介绍了如何使用Python的jieba和wordcloud库生成词云图，展示了大数据的基本概念，如4V特性（大量化、多样化、快速化、价值化），并提到了Hadoop的发展历程和典型应用场景，包括GFS、MapReduce和Bigtable。此外，还讨论了大数据在不同领域的应用，如在线旅游、电子商务和医疗保健。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

词云图，作为现在的一种统计高频词的热门可视化图，它可以让你在写报告、写计划的时候增加亮点，让你的文章更上一层楼。

废话不多说

之直接上代码

我是在pycharm上进行的运行

import jieba
import wordcloud
import imageio
mask=imageio.imread('86bf3bf9e1f985e1cabaee9f58d5d10a.jpg')
with open('dbj.txt',encoding='utf-8') as f:
    t=f.read()
ls=jieba.lcut(t)
txt=" ".join(ls)
w=wordcloud.WordCloud(width=2000,height=1400,
font_path="msyh.ttc",colormap='cool',
background_color='black',mask=mask)
w.generate(txt)
w.to_file(r'pic2.png')

结果

'86bf3bf9e1f985e1cabaee9f58d5d10a.jpg'使用的是这个

文档dbj.txt

人工智能 集成学习 考研 张三石 张人玉 大数据 云计算 物联网 深度学习 二班 数据科学与大数据技术
人工智能 集成学习 考研 张三石 张人玉 大数据 云计算 物联网  二班 数据科学与大数据技术
二班 数据科学与大数据技术
二班 数据科学与大数据技术
二班 数据科学与大数据技术
二班 数据科学与大数据技术
人工智能 集成学习 考研 张三石 张人玉 大数据 云计算 物联网 深度学习
石 张人玉 大数据 云计算 物联网 深度学习
人工智能 集成学习 考研 张三石 张人玉 大数据 云计算 物联网 深度学习
人工智能 集成学习 考研 张三石 张人玉 人工智能 集成学习 考研 张三石 张人玉 大数据 云计算 物联网 深度学习
人工智能 集成学习 考研 张三石 张人玉 大数据 云计算 物联网 深度学习

主要内容

（1）大数据理论概述

（2）GOOGLE的三遍论文及其思想

（3）hadoop的典型应用场景和应用架构

1.1 大数据产生的背景

自从1946年 第一台计算机ENIAC诞生，信息产业的不断发展，到了2001年互联网的迅速发展，数据成倍递增，预计在2023年数据将增长到1000ZB。

在这里引入一节字节单位：

信息存储量是度量存储器存放程序和数据的数量。其主要度量单位是字节，1个字节（Byte）等于8位（b）二进制。位（bit，Binary Digits）：存放一位二进制数，即0或1，为最小的存储单位，8个二进制位为一个字节单位。一个英文字母（不分大小写）占一个字节的空间，一个中文汉字占两个字节的空间。英文标点占一个字节，中文标点占两个字节 [6]  。

1字节(Byte)=8位(bit) [6] 

1KB( Kilobyte，千字节)=1024B [6] 

1MB( Megabyte，兆字节)=1024KB 

1GB( Gigabyte，吉字节，千兆)=1024MB 

1TB( Trillionbyte，万亿字节，太字节)=1024GB  

1PB( Petabyte，千万亿字节，拍字节)=1024TB  

1EB( Exabyte，百亿亿字节，艾字节)=1024PB  

1ZB(Zettabyte，十万亿亿字节，泽字节)=1024EB 

1YB( Yottabyte，一亿亿亿字节，尧字节)=1024ZB  

1BB( Brontobyte，千亿亿亿字节)=1024YB 

1.2大数据的定义

       “大数据”是一种涵盖多种技术的概念，通俗的来说，是指无法在一定时间内用常规软件对其内容进行抓取、管理和处理的集合。

        IMB公司将“大数据”理念定义为4V特性，即大量化（Volume）、多样化（Variety）、快速化（Velocity）、价值化（Value）。

        大数据一般是指在10TB上规模以上的数据量。而大数据与过去的海里数据有所区别，即4V特性。数据量大、数据类型多、处理速度快、价值密度低。

   数据体量大：大数据的数据量从TB上升到PB级别

   数据种类多：大数据的类型包括前文提到的网络日志、视频、图片、地理位置信息等

（数据种类：结构化数据：结构化数据，简单来说就是数据库。结合到典型场景中更容易理解，比如企业ERP、财务系统；医疗HIS数据库；教育一卡通；政府行政审批；其他核心数据库等。基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

          半结构化数据：非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等。

           非结构化数据：和普通纯文本相比，半结构化数据具有一定的结构性，OEM(Object exchange Model)是一种典型的半结构化数据模型。

           这样的数据和上面两种类别都不一样，它是结构化的数据，但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理，由于结构变化很大也不能够简单的建立一个表和他对应。）

    处理速度快：1秒定律。这是大数据技术和传统技术挖掘技术的本质区别

    价值密度低：以视频为例，在连续不断的视频监控器中，可能有用的数据时间仅仅是那一两秒。

        

1.3 大数据技术的发展

       大数据的发展历程

       2003年，Google公司发表了论文“The Google File System”,介绍GFS分布式文件系统，主要讲解海量数据的可靠存储方法。

       2004年，Google公司发表了论文“MapReduce:Simplified Data Processing on Large Clusters"

介绍并行计算模型MapReduce，主要讲解海量数据的高效计算方法。

        2006年，Google公司发表了”Bigtable:A  Distributed Storage System for Structured Data",介绍Google大表(Bigtable)的设计。Bigtable是Google公司的分布式数据存储系统，是用来处理海量数据的一种非关系性数据库。开发出Hadoop的HDFS分布式文件系统、MapReduce分布式计算模型并开源。

       2008年，hadoop成为Apache基金会的顶级项目

       2010年，Google公司根据Bigtable论文思想，开发出Hadoop的HBase并开源。

       2011年，Twitter公司提供开源产品Storm，它是开源的分布式实时计算系统。

       2014年，Spark成为Apache基金会的顶级项目，它是专门为大规模数据处理而设计的快速通过的设计引擎。

1.4 Hadoop的典型应用场景

        美国著名科技博客GigaOM的专栏作家Berrick Harris 跟踪云计算和hadoop技术已有多年，他总结了如下10个Hadoop应用场景。

        （1）在线旅游：

        （2）移动数据：

        （3）电子商务：

        （4）能源开采：

        （5）节能：

        （6）基础架构管理：

        （7）图像处理：

        （8）诈骗监测

        （9）IT安全：

        （10）医疗保健：
也可以自己选择