python code
"""
简单爬取中国新闻网中的滚动新闻
代码的url样式如下所示,
通过改变中间的时间就能获取到所有时间的新闻,
通过循环实现,我在这里没有写 ,时间是最近10年的
其中由于时间的原因,具体解析时的 css 代码 肯定是不同的
需要那个时间就去获取那个时间的就行,如果是要全部爬取,需要做好冗余操作
这个代码还有一个问题就是 最近时间的 乱码问题还未解决
"""
"""
http://www.chinanews.com/scroll-news/2019/0613/news.shtml
http://www.chinanews.com/scroll-news/2019/0702/news.shtml
http://www.chinanews.com/scroll-news/2012/0711/news.shtml
http://www.chinanews.com/scroll-news/2008/0801/news.shtml
"""
import json
import requests
from pyquery import PyQuery as pq
import csv
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}
# 获取首页数据
def first_page():
url = "http://www.chinanews.com/scroll-news/2008/0801/news.shtml"
response = requests.get(url,headers=headers)
response.encoding