Python告诉你咪蒙10w+文章标题的秘密

摘要:用数据分析解密咪蒙套路

关键词:标题 咪蒙 Python jieba

文末分享本文代码和数据,欢迎自取~

咪蒙时代已经伴随着压垮骆驼的最后一根稻草落下帷幕,我身为一个内容生产者,也曾经在朋友圈读过她的几篇文章。借着她的隐去,我随手百度到了她的一组文章数据,那么今天就用python和数据来一探咪蒙撰文必火的奥秘。
本数据包含12个字段,1112条数据,包括咪蒙的文章标题、点赞量、阅读量等数据,文末分享本文数据和过程代码。

咪蒙的影响力

本来是想先用阅读量探究她的影响力究竟如何,然而清一色的10W+让我放弃了这个念头,我们还是从点赞情况开始。

首先,对数据做一下简单的清洗,使用pandas导入数据并去除空值:

data = pd.read_excel('咪蒙阅读数据.xlsx',sheet_name = 0)
data = data[data['赞赏']!=-2]

然后进行最大、最小、平均点赞数求取:

#计算平均点赞数
data1 = data.sort_values(by='点赞',ascending=False)
print('最大点赞数',round(data1['点赞'].max(),0))
print('最小点赞数',round(data1['点赞'].min(),0))
print('平均点赞数',round(data1['点赞'].mean(),0))

我们看到,**最大点赞数竟然也是10w+,最小的也有525,平均为1.2w。**有一个问题是,这份数据中,超过10w的点赞数只显示为100001,然而实际点赞数可能远超这个数,意味着平均赞数可能比1.2w还要高很多!

即使是阅读量超过1.2w都已经打败了90%的公众号,何况是点赞量。咪蒙老师在点赞量这一课上为我演示了什么叫“在座的都是渣渣”。

咪蒙是如何成长的

我们将点赞量放在时间的维度上进行观察,可以发现咪蒙的影响力是如何增长的。

#计算每年点赞量
data1['year'] = data1['发文时间'].dt.year
data_year =data1.groupby('year').sum()['点赞'].to_frame()
fig = plt.figure(figsize=(15,8))
x = data_year.index.tolist()
y = data_year['点赞'].tolist()
sns.barplot(x, y, palette="nipy_spectral_r")

plt.title('每年点赞量分析')
plt.ylabel('点赞量')
sns.despine(bottom=True)
plt.savefig('pic0.png',dpi=400)
plt.show()

从数据上看,故事是这样的:

-2015年刚成立,所以热度不高;

-2016年热度开始呈现出明显的上涨,这一年也是大众认识她的一年;

-2017年达到峰值,影响力爆棚;

-2018年赞数呈下滑趋势,可能受着微信的改版和公众号红利消失的影响,也可能埋伏着咪蒙口碑与粉丝的消退的伏笔;

-2019年,以一个刷爆朋友圈的“寒门学子”事件退场,也算是符合咪蒙的风格了。

一个有趣的现象是,如果按月来看点赞量的话,咪蒙在下半年获得的总点赞数是明显好于上半年的。

此处按月为单位统计了咪蒙所有文章在2016-2018整年的点赞量。上半年总点赞量4494305,下半年总点赞量8522342,下半年的总量远远大于上半年。

为什么呢?我稍后解释。

咪蒙爱用哪些词

让我们先看看咪蒙文章标题常用哪些套路,提取点赞数Top20的文章标题并作图:

从标题看似乎都是一些情感话题以及时事评论,简单分析可以发现有以下特点:

**1. 热点+咪蒙的影响力=刷屏级别点赞。**三篇超过10w+点赞的文章分别评论了宋仲基&宋慧乔结婚,刘鑫江歌案,携程亲子园三件热点,可见追热点作用对于自媒体文章影响力有极大提升作用,甚至写江歌案的两篇文章都榜上有名;

**2. 敢写雷人标题。**这就是咪蒙的功底了,让人忍不住想要一探究竟,比如《这家殡仪馆,居然有特殊服务》,这……太可怕了!

**3. 标题感情丰富。**读她的标题仿佛在和一个女闺蜜聊天。关于这一点后面的分析中还有体现。

如果把所有标题进行词频分析,看看哪些高频词汇是经常出现的,可以看出咪蒙更多的套路。此处使用jieba分词工具去除停用词,再计算每个词在标题中出现的频率,然后把结果导出可以做出词云图。

#计算文章关键字
stop_list = pd.read_csv('./停用词.txt',engine='python',\
                        encoding='utf-8',names=['t'])['t'].tolist()
word_l = []
for line in data1['标题']:
    line_l = jieba.lcut(line)
    for word in line_l:
        if word not in stop_list and len(word)>1:
            word_l.append(word)
word_frame = pd.DataFrame()
word_frame['word'] = word_l
word_frame['count'] = 1
word_frame = word_frame.groupby('word').sum()['count'].to_frame()
word_frame = word_frame.sort_values(by='count',ascending=False)

结果可以说是很明显了,大多数文章围绕爱情、婚姻、情感等话题展开。咪蒙擅长的领域本来也是年轻女性容易关注的东西,结合高超的文字驾驭能力,做到直击痛点,难怪有超高的关注度。

咪蒙的套路与读者的真香

回到上文提过的一个现象,为什么会出现咪蒙在文章点赞量表现上,下半年明显要强于上半年的现象呢?一个可能的原因是这样的:

我们看看上半年和下半年的top20词频对比:

全年用词类型一直都集中在男女情感话题,没有太多区别。但下半年咪蒙用这类词的频次却相比上半年要高多了。这里面包含了文章数量的影响,也包含了这文风标题的集中。也许咪蒙并非有意为之,但这可能说明了一件事:鸡汤虽毒,越浓越香。

咪蒙取题法初探
咪蒙有一篇文章叫《如何成为下一个咪蒙》,内容中有教授她的写作经:

除了她自己总结的内容,我从数据上还发现了两个选题方法:

1、标题宜长:

#计算标题长度
data1['title_length'] = data1['标题'].apply(lambda x:len(x))
print('最大标题长度',round(data1['title_length'].max(),0))
print('最小标题长度',round(data1['title_length'].min(),0))
print('平均标题长度',round(data1['title_length'].mean(),0))

计算她的文章标题字数可知,咪蒙的平均标题长度是15个字,对于微信文章来说是很长的。其中甚至有一篇64个字的神仙文章,我一查,正是贡献了“甜甜”这一词频称霸的文章:


打开一看原来是曾经的狗粮。

2、标题宜从“作者”的角度说话,表达鲜明情绪

在之前的词频分析里,诸如“什么”“为什么”“我”这样的词是属于停用词,被代码过滤掉了,我随手用Excel查看了一下“什么”的出现次数,发现出现了89次!

这些包含“什么”关键词的标题(节选)是否让你感受到咪蒙的情绪呢?

另一个有趣现象是在咪蒙写过的1073篇文章中,带有感叹号或问号或引号或省略号的标题占到45.4%。这类标点在文字上更能表达情感,进一步说明咪蒙对于向读者表达情感的重视。

结合我发现的这两点,我觉得本文标题应该改成“我去!咪蒙的10w+写作经都藏在数据里了!!!快来看看看看看看看看看……

但我终究还是想起了本号学术研究的定位(大误),没有这么起名。有兴趣的同学,欢迎自己至文末下载数据,自己分析咪蒙的写作之道。

如何看待“咪蒙现象”

分析了这么多,我十分好奇咪蒙的网络风评,但她的微信公众号和微博账号都已注销,我便随手在微博上搜了一波用户评论,截取部分如下:

@永夜了的极地旅行:
第一次注意到咪蒙,是好多年前在韩寒主编的杂志《独唱团》上,她写了一篇《好疼的金圣叹》,当时觉得写得真的很好,很有意思。后来她写得越来越随波逐流,哗众取宠,觉得真的很失望
@国服倒数王昭君:
说真的,我看过她的文章,看完也没什么感觉…就是普普通通的网文,文笔挺好,思路清晰,然后有的地方有励志成分,有点不解人们为什么都骂她?
@扒皮爱八卦:
鸡汤要喝,适度而止。
@微博用户:
感觉咪蒙的文章风趣、机智,能触及乐点或痛点,能引起共鸣,也挺好的。指望看几篇文章能受教育是不可能的。
@mio52777
自媒体铺天盖地的时代,还是要我们读者自己有判断意识啊。

总的来说,不喜欢她的人庆幸毒鸡汤的陨落,喜欢她的人不理解为什么她会被打压,更多人是叹其才能悲其选择。

为了方便对比,我顺手搜了咪蒙早年的代表作《好疼的金圣叹》,这里是其中的一段:

两天后,狱警再度爆料。“砍金圣叹头的那位刽子手现在已经成我们公检法系统的红人了。据他说,金圣叹死之前,恳请刽子手优先杀自己,省得看到其他朋友被杀,不爽。那刽子手肯定不干噻,金圣叹就说,我身土藏有银票,你先杀了我,钱都归你了。刽子手想 ‘“人之将死其言也善”,就网开一面优先杀了他,搜了半天,真的从他两边耳朵里各搜出一个小纸团。乱激动的,打开一看,你们猜是啥。”
这狱警要是去写悬疑小说,东野圭吾要失业的啊。
“一个纸团上写的‘好’,另一个写的‘疼’。”

这字里行间透露出的过人才气和锋芒,似乎想不到她后来会产这么多《她被甩后,凭什么被一堆男人追?!》类型的文章。

“咪蒙现象”是随着碎片化阅读的短平快节奏和许多年轻女性的关注焦点应运而生的。她有极高的文字驾驭能力,在满足目标用户的阅读口味方面,她无疑是高手。只是读者,走进了她的文字,也要记得走出来。

毕竟,无论她的文字是在谩骂还是喂鸡汤,都不会真的改变我们要面对的生活。一个公众号的文章也并不足以真的塑造三观。偶尔听听不同的声音,倘若还能从中收获一点欢笑和写作经验,未尝不是一件好事。

好了,关于咪蒙文章标题的奥秘就说到这里。那么,你对咪蒙的看法是什么呢?欢迎大家踊跃留言。最后别忘了收干货点好看哦~

关注微信公众号“大鹏教你玩数据”后台回复【34】,可以获取完整源代码和咪蒙文章阅读量数据

本文作者为:聚聚、大鹏、木木、颖子;牺牲色相倾情出演表情包的狗子为五花。

展开阅读全文

没有更多推荐了,返回首页