python爬取中国新闻网滚动新闻栏的所有新闻（未完整实现）

最新推荐文章于 2024-08-03 15:58:00 发布

empty_town

最新推荐文章于 2024-08-03 15:58:00 发布

阅读量992

点赞数 1

文章标签： python 爬虫爬取中国新闻网

本文链接：https://blog.csdn.net/weixin_44530636/article/details/95112165

版权

这篇博客展示了如何利用Python进行网络爬虫，目标是抓取中国新闻网上的滚动新闻。虽然代码不完整，但提供了初步的实现思路。

摘要由CSDN通过智能技术生成

python code

"""
简单爬取中国新闻网中的滚动新闻
代码的url样式如下所示，
通过改变中间的时间就能获取到所有时间的新闻，
通过循环实现，我在这里没有写 ，时间是最近10年的
其中由于时间的原因，具体解析时的 css 代码 肯定是不同的
需要那个时间就去获取那个时间的就行，如果是要全部爬取，需要做好冗余操作
这个代码还有一个问题就是 最近时间的 乱码问题还未解决

"""
"""
http://www.chinanews.com/scroll-news/2019/0613/news.shtml
http://www.chinanews.com/scroll-news/2019/0702/news.shtml
http://www.chinanews.com/scroll-news/2012/0711/news.shtml
http://www.chinanews.com/scroll-news/2008/0801/news.shtml
"""

import json
import requests
from pyquery import PyQuery as pq
import csv


headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}
# 获取首页数据
def first_page():

    url = "http://www.chinanews.com/scroll-news/2008/0801/news.shtml"
    response = requests.get(url,headers=headers)
    response.encoding