按点赞数排序且数据不重复

1.背景

在移动端,评论列表要按点赞数倒序排序进行分页,如果点赞数相同按创建时间倒序排序。(倒序:值从大到小)

2.问题

以往列表需要按时间戳倒序排序,因为13位时间戳的唯一性强,不容易重复,可以取列表最后一个item的时间戳进行 < lastTime limit 20查询。防止因有新数据产生,而拉到上一页拉过的数据。

但是点赞数会出现相同的情况,比如有10个相等点赞数为5的数据,刚好分页到中间第五个,如何下一次分页的时候拉取剩下五个点赞数为5的和小于5的数据,避免拉到已经拉过的前五个数据呢?

3.解决方式

模仿时间戳分页。取最后一个item的点赞数(agreeCount)和创建时间戳(lastTime)。

数据排序规则为:先按点赞数倒序排序,如果点赞数相同按创建时间倒序排序。

伪sql:order by agreeCount desc,createTime desc.

第一页:不进行任何条件查询,直接按该顺序查出指定的条数比如前20条:limit 20。(如何判断是否为第一页,可跟移动端约定如:第一页agreeCount传-1,通过agreeCount == -1判断是否为第一页,切记不可以传0进行标识,因为点赞数会有为0的情况)。

第二页:分两步查询,(取问题2的例子)

  • 先拉取剩余相同点赞数的数据,因为当点赞数相同是按时间戳倒序排序的,所以可以通过 agreeCount = 5 and createTime < lastTime limit 20。然后判断数据是否满足页大小20,如果没有,进行第二步查询拉取小于5的点赞数数据进行填充。
  • 第二步,拉取小于5的点赞数数据,agreeCount < 5 limit (剩余个数) 。最后将两个list数据进行addAll即可,注意顺序不要乱了,点赞数相同的数据在前面,即点赞数相同list.addAll(小于当前点赞数list)。

最后附上完整的伪代码:

int pageSize = 20;
List<Ideas> list = new ArrayList();
if (agreeCount == -1){
//第一页
   list = (select * from t_ideas order by agreeCount desc,createTime desc limit pageSize);
} else {
//下一页
   //拉取等于当前点赞数数据
   List<Ideas> sameList = (
                      select * from t_ideas 
                     where agreeCount = 5 and createTime < lastTime 
                     order by agreeCount desc, createTime desc limit pageSize);
   list.addAll(sameList);

   if (sameList.size() < pageSize){
       //拉取少于当前点赞数数据
       int surplus = pageSize-sameList.size();
       List<Ideas> surPlusList = (
                     select * from t_ideas 
                     where agreeCount < 5 
                     order by agreeCount desc, createTime desc limit surplus);
       list.addAll(surPlusList);
  }

}

return list;

 

好的,我会根据您的需求进行回答。以下是代码实现: ```python import pandas as pd import matplotlib.pyplot as plt # 读取数据 data = pd.read_csv('知乎评论数据.csv', encoding='utf-8') # 预处理数据 data['赞同数'] = data['赞同数'].str.replace('K', '000').astype(int) data['评论数'] = data['评论数'].str.replace('条评论', '').astype(int) data['性别'] = data['性别'].apply(lambda x: '男' if x == 'male' else '女') # 排序并取前十个用户 top_users = data[['用户名', '赞同数', '评论数', '性别']].sort_values('赞同数', ascending=False).head(10) # 绘制柱状图 fig, ax = plt.subplots(figsize=(10, 6)) ax.bar(top_users['用户名'], top_users['赞同数'], label='点赞数') ax.bar(top_users['用户名'], top_users['评论数'], label='评论数') ax.set(title='前十用户点赞数和评论数对比', xlabel='用户名', ylabel='数量') ax.legend() plt.xticks(rotation=45) plt.show() # 保存处理后的数据 top_users.to_csv('top_users.csv', index=False, encoding='utf-8-sig') ``` 在上述代码中,我们首先使用 pandas 库的 read_csv 函数读取知乎评论数据,并对数据进行预处理,包括将赞同数和评论数的字符串形式转化为整数型,将性别的英文形式处理为中文形式等。然后,我们按点赞数进行排序,并取前十个用户,用 matplot1ib 库绘制柱状图进行可视化。最后,我们将处理后的数据保存为 top_users.csv 文件。 希望能够帮助到您!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值