热词排序算法——贝叶斯均值法

热词排序算法——贝叶斯均值法

贝叶斯均值法

当前(例如今天)的某个词出现的频率相比于历史发生突增,那么这个词的热度上升。

当某个词历史出现的次数为0,而当前出现的次数为100,另一个词历史出现的频率为100,
今日出现的频率为200,虽然同增长100,但明显第一个词是0到1的一个增长,显然比第二个词更重要。

基本思想

  • 假设所有案例都至少有m次曝光(设置一个基准),那么就都具备了同等的一个评选条件;
  • 然后假设这m次曝光的评分是所有案例的平均得分(即假设这个案例具有平均水准) m v + m C \frac{m}{v+m}C v+mmC
  • 最后,用现有的评分进行修正,长期来看,v/(v+m)这部分的权重将越来越大,得分将慢慢接近真实情况。

W R = v v + m R + m v + m C WR = \frac{v}{v+m}R+\frac{m}{v+m}C WR=v+mvR+v+mmC
v : 代表该案例的实际观看量;

m : 代表最低的一个观看量(人工干预设置,可根据实际观看情况而定,平均值等等);

R : 该案例的平均得分;

C : 所有案例的平均得分。

假设变量

1、将单个词语的得分设置为 R ( w ) R(w) R(w)设置为 A t p ( w ) A t p ( w ) + B t p ( w ) = A t p ( w ) T p S u m ( w ) \frac{Atp(w)}{Atp(w)+Btp(w)}=\frac{Atp(w)}{TpSum(w)} Atp(w)+Btp(w)Atp(w)=TpSum(w)Atp(w)

在这里也可以采用牛顿冷却法设置得分值 N θ ( w ) = − l n 当前词频 历史词频 / 时间差 N_\theta(w) = -ln\frac{当前词频}{历史词频}/时间差 Nθ(w)=ln历史词频当前词频/时间差

2、将人工干预设置设置为 m = a v g   T p S u m ( w ) = T p A v g m =avg\ TpSum(w) = TpAvg m=avg TpSum(w)=TpAvg

3、将所有词元的平均得分设置为 C = a v g   R ( w ) C=avg\ R(w) C=avg R(w)

则贝叶斯均值排名为:
W R = A t p ( w ) A t p ( w ) + T p A v g R ( w ) + T p A v g A t p ( w ) + T p A v g C WR=\frac{Atp(w)}{Atp(w)+TpAvg}R(w)+\frac{TpAvg}{Atp(w)+TpAvg}C WR=Atp(w)+TpAvgAtp(w)R(w)+Atp(w)+TpAvgTpAvgC

举例说明

词组历史词频/Btp(w)当前词频/Atp(w)词频和/TpSum(w)得分/R(w)WR
六合彩1106170228080.6060.56385
修正110610012060.08290.45900
下横线102002100.9520.56848
线性回归4002006000.3330.49580
无穷小2002004000.5000.46902
TpAvgC
Avg1044.80.495

W R = A t p ( w ) A t p ( w ) + T p A v g R ( w ) + T p A v g A t p ( w ) + T p A v g C WR=\frac{Atp(w)}{Atp(w)+TpAvg}R(w)+\frac{TpAvg}{Atp(w)+TpAvg}C WR=Atp(w)+TpAvgAtp(w)R(w)+Atp(w)+TpAvgTpAvgC

python实现

新建一个测试集

from collections import Counter

import pandas as pd

test_df = pd.DataFrame(
    (
        [["六合彩", "2024-01-20"] for i in range(1106)]
        + [["六合彩", "2024-01-21"] for i in range(1702)]
        + [["修正", "2024-01-20"] for i in range(1106)]
        + [["修正", "2024-01-21"] for i in range(100)]
        + [["下横线", "2024-01-20"] for i in range(10)]
        + [["下横线", "2024-01-21"] for i in range(200)]
        + [["线性回归", "2024-01-20"] for i in range(400)]
        + [["线性回归", "2024-01-21"] for i in range(200)]
        + [["无穷小", "2024-01-20"] for i in range(200)]
        + [["无穷小", "2024-01-21"] for i in range(200)]
    )
)
test_df

在这里插入图片描述
编写算法

def bayes_avrage_rank(df: pd.DataFrame, base_time: str) -> pd.DataFrame:
    """
    贝叶斯平均法排名算法
    :param df:初始数据格式为 [词元,时间]
    :param base_time: 设置分割时间
    :return: 计算结果
    """
    columns = list(df.columns)
    conditions = df[columns[1]] > base_time

    # 在截止时间前后获取历史词元和当前词元计算Apt和Bpt
    apt = pd.DataFrame(
        Counter(df[conditions][columns[0]]).most_common(), columns=["word", "Atp"]
    )
    bpt = pd.DataFrame(
        Counter(df[~conditions][columns[0]]).most_common(), columns=["word", "Btp"]
    )
    df_pt = pd.merge(bpt, apt, how="outer", on="word")
    df_pt = df_pt.fillna(0)

    # 计算得分R(w)
    df_pt["TpSum"] = df_pt["Atp"] + df_pt["Btp"]
    df_pt["R"] = df_pt["Atp"] / df_pt["TpSum"]
    df_pt = df_pt.fillna(0)

    # 计算 m 和 C
    tp_avg = df_pt["TpSum"].mean()
    r_avg = df_pt["R"].mean()

    # 贝叶斯平均公式
    wr = df_pt["Atp"] * df_pt["R"] / (df_pt["Atp"] + tp_avg) + tp_avg * r_avg / (
        df_pt["Atp"] + tp_avg
    )
    df_pt["wr"] = wr
    return df_pt


bayes_avrage_rank(test_df, "2024-01-20")

在这里插入图片描述
有兴趣可以自行替换牛顿冷却法。

  • 25
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
贝叶斯分类算法是一种基于贝叶斯定理的统计算法,常用于文本分类、垃圾邮件过滤和数据挖掘等任务中。在对wine数据集进行分类时,我们可以使用贝叶斯分类算法。 首先,我们需要了解wine数据集的特征和标签。根据数据集的描述,wine数据集包含了一些葡萄酒的化学分析结果作为特征,以及该葡萄酒所属的类别作为标签。这些特征可以包括酒精含量、苹果酸含量、灰分含量等。 贝叶斯分类算法的核心思想是基于训练集计算每个类别的先验概率和条件概率,然后使用贝叶斯定理来计算给定特征时,每个类别的后验概率,最终选择后验概率最大的类别作为预测结果。 为了使用贝叶斯分类算法对wine数据集进行分类,我们需要进行以下步骤: 1. 数据预处理:对原始数据进行清洗和处理,包括去除缺失值、标准化特征等。 2. 特征选择:根据具体问题的要求,选择合适的特征来训练模型,可以使用相关性分析等方进行特征选择。 3. 训练模型:将数据集分成训练集和测试集,使用训练集来计算每个类别的先验概率和条件概率。 4. 预测分类:对测试集中的每个样本,根据贝叶斯定理计算该样本属于每个类别的后验概率,选择后验概率最大的类别作为预测结果。 5. 模型评估:使用测试集评估模型的性能,可以使用准确率、精确率、召回率等指标来评估模型的好坏。 贝叶斯分类算法的优点是简单、直观,能够处理多分类问题和高维数据。然而,贝叶斯分类算法也有一些限制,例如对特征之间的关联性要求较高,对输入的先验概率分布有一定假设等。 在应用贝叶斯分类算法对wine数据集进行分类时,我们需要根据具体情况选择适合的特征和合适的先验分布,对模型进行调优,以获得更好的分类结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值