爬取微博头条的数据并将数据保存到Mysql和mongodb的数据库中

最新推荐文章于 2021-02-05 18:30:17 发布

wg5foc08

最新推荐文章于 2021-02-05 18:30:17 发布

阅读量789

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/wg5foc08/article/details/100112738

版权

该博客讲述了如何分析微博头条的AJAX接口，动态加载页面的链接，以及如何从二级页面抓取数据。内容涵盖数据抓取技术和如何将抓取的数据存储到Mysql和MongoDB数据库中。

摘要由CSDN通过智能技术生成

分析微博中属于头条的那一栏数据为ajax数据，分析接口获取动态加载页面的链接，分析json数据从而拿到每条数据的子链接，进入二级爬取页面获取待爬取的数据。

import requests
import json
import re
from wenben import SaveMysqlModule,mongoSaveModule
#wenben是一个py文件，我自己写的sql和mondb保存的模块就放在这个文件中
from lxml import etree
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}
class WeiBo(object):
    def __init__(self,fname = None):
        self.fname = fname
        self.url = 'https://weibo.com/a/aj/transform/loadingmoreunlogin?ajwvr=6&category=1760&page=%d&lefnav=0&cursor=&__rnd=1566899070160'#ajax数据的url
    def startspider(self):
        for page in range(40):
            url = self.url % page#各个页面ajax数据的url
            self.parseurl(url)
    def parseurl(self,url):
        response = requests.get(url,headers = headers).content.decode()