python爬取中国新闻网滚动新闻栏的所有新闻(未完整实现)

python code

"""
简单爬取中国新闻网中的滚动新闻
代码的url样式如下所示,
通过改变中间的时间就能获取到所有时间的新闻,
通过循环实现,我在这里没有写 ,时间是最近10年的
其中由于时间的原因,具体解析时的 css 代码 肯定是不同的
需要那个时间就去获取那个时间的就行,如果是要全部爬取,需要做好冗余操作
这个代码还有一个问题就是 最近时间的 乱码问题还未解决

"""
"""
http://www.chinanews.com/scroll-news/2019/0613/news.shtml
http://www.chinanews.com/scroll-news/2019/0702/news.shtml
http://www.chinanews.com/scroll-news/2012/0711/news.shtml
http://www.chinanews.com/scroll-news/2008/0801/news.shtml
"""

import json
import requests
from pyquery import PyQuery as pq
import csv


headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}
# 获取首页数据
def first_page():

    url = "http://www.chinanews.com/scroll-news/2008/0801/news.shtml"
    response = requests.get(url,headers=headers)
    response.encoding
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值