用Python挖一挖知乎上宅男们最喜欢的1000个妹子

640?wx_fmt=gif

导读:在文章开始前,先来一张图给大家热热身。这里是宅男们最喜欢的妹子中排名前200位的头像(实际193张图,部分不规则的图已被作者过滤)。排名不分先后哈!快来看看有没有你们熟悉的面孔。


640?wx_fmt=jpeg


找到眼熟的人了吗?说不定你也在里面哦!


相信大家最关心以下两点:


1. 除了照片外还有什么信息?

——那必须呀,肯定还有干货。


2. 这些漂亮美眉是怎样被找出来的呢?

——马上就给大家解答。


作者:二胖

来源:大数据前沿(ID:bigdataqianyan)



01 挖取策略


PS:不关心技术和流程的童鞋可以直接跳过这部分看后面的数据分析部分


首先给大家解释下,是怎么找到这些漂亮美眉的。


先用一张流程图介绍一下整个流程:[左边的方框代表操作,右边的椭圆代表数据]


640?wx_fmt=jpeg


第一步


人工选择的初始群体很关键,但是并不难。


可以从关注某些问题的相关用户中抓取目标人群,如问题:女生腿长是什么感觉?或者抓取这些问题下活跃男性用户关注或点赞的女性。


这里选择了部分问题和部分男性的关注动态和点赞动态,筛选出了第一批女性群体,也就是上图中的初始美眉群体(具体选择了哪些问题和男性用户就不在这里公布了)


她们由于某种特殊的关联或者用户行为被聚类在了一起,我们可以简称她们为相似性用户。这里找到了2553人作为初始群体,下图为读取的redis中的记录数。


640?wx_fmt=jpeg


第二步


下面需要抓取所有美眉的男性粉丝的关注关系。


请注意:这里为什么要抓取关注关系,而不是男性粉丝的集合呢?——因为我们要找到“最佳宅男”。


举个例子:假设初始美眉群体有三个用户:小美、中美和大美,关注关系如下所示:


640?wx_fmt=jpeg


男性粉丝的集合是:{1,2,3,4,5}


而关注关系指的是:有几条线就有几个关注关系,这里有9个关注关系。


这一步共抓取了219165条关注关系。


640?wx_fmt=jpeg


第三步


下面需要找出上一步中关注初始女性群体中人数最多的男性粉丝。


这里很容易理解,比如在大美中美小美那张图里,关注初始女性群体人数最多的男性分别是3>2>=4>1>=5,“最佳宅男”就是3啦。


对上一步中的数据进行排序后,共计男性粉丝人数105379人。


640?wx_fmt=jpeg


这里截取了前2106名男性作为“宅男”群体。


悄悄给大家看看排行前10的“宅男们”,“宅男”第一名关注了2000多位初始女性美眉中的858人,快一半了,我只想说,老司机带带我。


当然,这里肯定不能公布他们的信息啦。(下图中打码的部分是他们的url_token,即唯一身份标识;后面的数字是他们所关注的初始美眉群体中的美眉数量)


我只能说,排第一的哥们儿,你吓到我了,赔钱。


640?wx_fmt=jpeg


第四步


有了这2000多个“宅男”就好办了,接下来的步骤和上面类似。抓取这些“宅男”关注的女性用户,同样按关注关系排序,得到前2000名最受欢迎的美眉:


其中女性关注关系有:344849条。


女性用户集合中有:66869人。


640?wx_fmt=jpeg


同样,悄悄给大家看看排行前十的美眉被多少宅男关注了,悄悄地看一下这些美眉们的主页,确实很漂亮,她们的回答中也有特别多的照片

阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭