“TED演讲”可视化(应统期末作业)(二)

该博客通过分析TED演讲数据,揭示了TED演讲的类别分布,其中TED类占比最高;探讨了TED的历史发布趋势,发现2007年4月和2012年是发布高峰;展示了标签词云,突出global、issue、technology等主题;并统计了演讲者职业,writer、author等最受青睐;最后,列举了TED演讲的热门人物。
摘要由CSDN通过智能技术生成

先说好哈,欢迎学习借鉴,请勿直接搬运,好歹你改一改换个逻辑,改改代码再用作你的是吧!天下文章一大抄,就看你会抄不会抄!
放上链接
「可视化期末.pdf」https://www.aliyundrive.com/s/NXFHUQjCZcP
提取码: 8phq

分析开始
**

1.TED角度

**

1)TED远不止是TED
在这里插入图片描述
从我们所获取的数据中,我们发现TED下属子类划分十分细致,具体有TED、TEDGlobal、TEDWomen、TEDMED、TEDIndia、TEDSummit等等,但通过清洗和统计,演讲次数的份额结果表明,依旧是传统的TED拔得头筹比例独占49.90%,远超其他种类如TEDglobal排在其次,拥有22.06%,而其他的都仅仅是个位百分数。所以我们平常所观看的往往也是排在首位的TED这一个大类。相对来说,它的演讲涉及更为广泛为人所知,高度契合所宣扬的知识分享精神。

1)大类占比:极坐标柱状图和玫瑰图
from pyecharts.globals import CurrentConfig, OnlineHostType
CurrentConfig.ONLINE_HOST = OnlineHostType.NOTEBOOK_HOST
# In[3]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import pyecharts
from pyecharts import options as opts
from pyecharts.globals import ThemeType
import os
import re
# In[4]:
os.chdir(r"F:\研究生学习阶段\学习相关\研一下\可视化\期末\表格")
data = pd.read_excel("ted_main.xls")
# In[5]:
data.head(2)
# In[ ]:
# In[6]:
def fun(s):
    return re.compile(r"\D+").search(s).group()
# In[101]:
event_type = pd.DataFrame(data['event'].value_counts().tolist(),columns=['num'])
event_type['event'] = data['event'].value_counts().index.tolist()
event_type['event'] = list(map(fun,event_type['event'].tolist()))
ted_df = event_type.groupby("event").sum().sort_values(by='num',ascending=False)
# In[17]:
ted_df= ted_df.reset_index()
x = ted_df['event'].tolist()[:8]
y = ted_df['num'].tolist()[:8]
total = ted_df['num'].sum()
total
# In[9]:
from pyecharts.charts import Pie
# In[10]:
x_data = x
y_data = y 
data_pair = [list(z) for z in zip(x_data, y_data)]
# In[11]:
pie = (
     Pie()
    .add(
        series_name="场次",
        data_pair = data_pair,
        rosetype='radius',
        radius="55%",
        center=["50%", "50%"],
        label_opts=opts.LabelOpts( position="outer"),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="Customized Pie",
            pos_left="center",
            pos_top="20",
            title_textstyle_opts=opts.TextStyleOpts(color="#fff"),
        ),
        legend_opts=opts.LegendOpts(is_show=False,pos_left='right',orient='vertical'),
    )
    
)
pie.render_notebook()
# In[74]:
from pyecharts.charts import Polar
data_pair.sort(reverse=False,key=lambda x: x[1] )
df = pd.DataFrame(data_pair)
x = df.iloc[:,0].tolist()
y = df.iloc[:,1].tolist()
x
# In[108]:
c = (
    Polar()
    .add_schema(
        radiusaxis_opts=opts.RadiusAxisOpts(data=x),
        angleaxis_opts=opts.AngleAxisOpts(is_clockwise=True, max_=2000),
    )
    .add("TED大类", y, type_="bar")
    .set_global_opts(title_opts=opts.TitleOpts(title="Polar-RadiusAxis"))
    .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='bottom'))
    
)
c.render_notebook()

2)TED辉煌的发布历史
TED演讲时至今日,已经有14年历史了,它肯定经历过一个所谓大紫大红的时间,有过沉浮起落,所以笔者对2006-2017年中不同月份的TED演讲数量进行汇总,得到了各年各月TED演讲的发布量的热度图,清晰如下:
在这里插入图片描述
我们发现,2007年4月份的颜色深度明显超过其他,单月视频发布量高达37次;2012年在所有年份中TED视频发布量最高,自2010年往2017年TED的单月发布量都较为可观。得益于互联网的发展和对网络学习的重视。另外,也同样存在相当多的月份视频发布量为0,例如在TED网络视频刚开始的2016年中,有一半的月份都没有发布视频,2017年存在0数据,是因为数据缺失。

TED发布热度图
#!/usr/bin/env python
# coding: utf-8
# In[1]:
from pyecharts.globals import CurrentConfig, OnlineHostType
CurrentConfig.ONLINE_HOST = OnlineHostType.NOTEBOOK_HOST
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import pyecharts
from pyecharts import options as opts
from pyecharts.globals import ThemeType
import os
import re
import time
# In[2]:
os.chdir(r"F:\研究生学习阶段\学习相关\研一下\可视化\期末\表格")
data = pd.read_excel("ted_main.xls")
# In[3]:
data.head(2)
# In[4]:
def time_trans(s):
    time_local = time.localtime(s)
    #转换成新的时间格式(2016-05)
    return time.strftime("%Y",time_local)
def time_trans_m(s):
    time_local = time.localtime(s)
    #转换成新的时间格式(2016-05)
    return</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值