今日头条组图下载本地，并存入MongoDB_将下载图片,存入mongodb-CSDN博客

本文链接：https://blog.csdn.net/yuxiangdeming/article/details/101692285

我是跟着崔大神的视频进行学习的，这是他的一个案例，一步一步敲，代码肯定是没有问题的，肯定能学到一点东西，注释不想加了，下面自己一步一步完成的。（代码注释的部分，是为了测试，时常打印一下信息，看有没有问题）

流程框架：

爬取索引页内容：利用requests请求目标站点，得到索引网页HTML代码，返回结果
抓取详情页内容：解析返回结果，得到详情页的链接，并进一步抓取详情页的信息
下载图片并保存数据库
开启循环及多线程：对多网页内容遍历，开启多线程提高抓取速度

1、在网址www.toutiao.com，在搜索框输入“街拍”，打开开发者选项，发现返回的没有我们想要的数据，判断该网页是通过Ajax加载，JS渲染

2、点击XHR，点击第一个URL，看返回的json格式的数据，由于看的不方便，将它复制粘贴到json格式化阅读器中，可以看到title与头条里的title是一样的，说明数据是正确的

滚轮一直向下滑动，一次加载20个，发现offset在变化，count一直是20

3、点击第一个内容，进行跳转，在开发者选项里能不能找到图片的url，结果发现在Doc中的gallery中，有图片的地址。可以自己尝试，点击图片右键，查看图片的地址，进行对应。数了一下是11个图片的地址，不过这些需要正则匹配一下。

4、至此已经分析完页面，打开pycharm，创建一个项目，首先测试打印json返回的数据，发现能打印出来，一定要加headers，不然是打印不出东西来的。后面就需要我们进行解析

import requests
from urllib.parse import urlencode

def get_page_index(offset):
    headers = {
        'referer': 'https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D',
        'cookie': 'tt_webid=6741580036883301901; WEATHER_CITY=%E5%8C%97%E4%BA%AC; __tasessionId=uthwjgcvi1569646429442; tt_webid=6741580036883301901; csrftoken=22882f942604650099034bfe8636766a; s_v_web_id=3fa020c7425a1ebabcf947ef5b12327e',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
        'x-requested-with': 'XMLHttpRequest'
    }
    params = {
        'aid': '24',
        'app_name': 'web_search',
        'offset': offset,
        'format': 'json',
        'keyword': '街拍',
        'autoload': 'true',
        'count': '20',
        'en_qc': '1',
        'cur_tab': '1',
        'from': 'search_tab',
        'pd': 'synthesis',
    }
    url = 'https://www.toutiao.com/api/search/content/?' + urlencode(params)
    print(url)
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
    except requests.ConnectionError:
        return None

def main():
    html = get_page_index(0)
    print(html)

if __name__ == '__main__':
    main()