最近爬取的一个新闻网站的标题和新闻页的链接还有发布时间。用到了BS4和re,在对要进行爬取的网页url处理时,我选择的是放入Quene中,调用。其实放入set()或者存为txt都可以。
正则用的不是太66,所以正则部分显得有点牵强。
数据存储选择为Excel,可以存为MySQL的,代码还没写,稍后会添加进来。代码还有不足之处,在做修改。
# coding:utf-8
import requests
import random
import re
from Queue import Queue
from bs4 import BeautifulSoup
from xlwt import *
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
class spider_web_news():
def __init__(self):
# 请求头
user_agent = [
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.101 Safari/537.36',
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36",
"Mozi