车票？工作？对象？且看Python如何优雅解决年关三大难题！

最新推荐文章于 2024-05-02 01:27:51 发布

weixin_44747961

最新推荐文章于 2024-05-02 01:27:51 发布

阅读量149

点赞数

最近，很多旁友都已经连续多日沉浸在即将（已经）放假的快感之中，化身渔夫，兢兢业业地摸鱼。

但是！你真的准备好过年了嘛！你真的知道为什么过年叫年关吗？

让小Z来给你讲个故事，从前，有一只年兽，一到春节就....

Sorry！走错片场了，都2020年了，过年之所以叫年关，还不是因为东西南北漂的年轻人回家过年，总有三个绕不开的难题：

合适的票买到了吗？
你专业/工作到底是干啥的？工资多少？
你对象呢？

合适的票，靠单身多年的手速，百折不挠的抢票毅力，还有那审时度势，在几百年不说话的好友群发个助力链接就跑的局势洞察力，抢到大概率是没问题的。

解决了票，脑海中已经出现，亲戚面带微笑的看向后两个问题的画面。

幸好，我们从小都知道，遇事不决想名言！

“站在前人的肩膀上看问题，身高上，我就能够比他高出一大截儿”这句名言（小Z胡说的），给了我无尽的灵感。

说到前人的肩膀，知乎不就是个绝佳的参考系吗？所以，我们用Python爬取了知乎上相关的热门问题：

看一看多少人有类似的困惑，更重要的是，有什么可以拿来即用的秘籍。

知乎的部分爬取代码如下，完整代码和数据附在文末，跳过丝毫不影响阅读。

import pandas as pd
import numpy as np
import os
import json
import requests

def parse_page(url,headers):
    html  = requests.get(url,headers = headers)
    bs = json.loads(html.text)
    result = pd.DataFrame()
    for i in bs['data']:
        headline = i['author']['headline'] #签名
        gender = i['author']['gender']  #性别
        user_type =  i['author']['user_type']
        user_id =  i['author']['id']
        user_token = i['author']['url_token']
        follwer_count = i['author']['follower_count'] #关注人数
        name = i['author']['name']   #用户昵称
        vote_up = i['voteup_count']  #点赞数
        updated_time = i['updated_time']    #更新时间
        title = i['question']['title']   #问题
        created_time = i['created_time'] #创建时间
        comment_count = i['comment_count'] #评论数
        can_comment = i['can_comment']['status']   #是否可以评论
        content = i['content']  #内容，还需要再清洗
        cache = pd.DataFrame({'用户ID':[user_id],'用户名':[name],'性别':[gender],'token':[user_token],'用户类型':[user_type],'签名':[headline],
                              '被关注人数':[follwer_count],'创建时间':[created_time],'更新时间':[updated_time],'评论数':[comment_count],
                              '点赞数':[vote_up],'是否可以评论':[can_comment],'内容':[content],'问题':[title]})
        result = pd.concat([result,cache])
    return result