本系列是微信公众号/文章系列中数据分析的第一篇,仅作一个简单的示例展示,可供分析参考。
注:为避免其他影响,这里不放出具体公众号名称。以下为部分数据截图。
广告部分:
- 如何拿到微信文章相关数据,可见记一次微信公众号爬虫的经历(微信文章阅读点赞的获取)。相关数据获取可见文末联系方式
- 如何批量关注公众号,可见自动批量关注微信公众号(非逆向)
正文部分:
阅读数
首先,微信文章主要三个数据指标是阅读点赞和评论,其中评论又分为评论内容、评论内容点赞、评论总数。先小试牛刀随便根据阅读点赞评论数据画个图。
# coding: utf-8
import numpy as np
import os
import pandas as pd
import matplotlib.pyplot as plt
from pandas.plotting import register_matplotlib_converters
if __name__ == '__main__':
fname = fname # 文件名
# 读取数据
df = pd.read_excel(fname, index_col=0)
plt.cla() # 清空画图
register_matplotlib_converters() # 时间序列画图,避免报错或warnning
# 阅读、点赞、评论数随日期的变化
# 处理日期格式
df['date'] = pd.to_datetime(df['date'], format="%Y-%m-%d")
date, read_num, like_num, comments = df['date'], df['read_num'], df['like_num'], df['comments']
# 由于这里一开始拿到的是评论内容(用--分割),所以这里进行简单的处理,统计评论数
comments_num = comments.apply(str).apply(lambda item: 0 if 'nan' in item else len(item.split('--')))
df['comments_num'] = comments_num
# 先把阅读数画一遍
plt.plot(date, read_num, label='read_num'