python-代码实战-爬取新闻标题

乌漆帅黑

已于 2022-10-25 23:16:07 修改

阅读量5k

点赞数 5

分类专栏： Python_实战项目文章标签： python 爬虫科技

于 2022-02-23 05:49:15 首次发布

本文链接：https://blog.csdn.net/weixin_44494624/article/details/123081474

版权

Python_实战项目专栏收录该内容

8 篇文章 2 订阅

订阅专栏

近期开始学习python，目前以爬虫方向为主，打算在这个过程中通过代码的实践来记录学习过程，顺带当成笔记。

我的第一个完全由自己编写的爬虫代码产生啦！

主要是抓取新闻标题、时间等

本次写代码代码用到的库：

import requests
import csv
from bs4 import BeautifulSoup

首先设置url等基本信息：

news_list = []
head = ['新闻标题','时间','主要内容']
url = '这里输入url'
headers = {'User-Agent':'这里输入自己电脑的请求头headers'}

使用request.get请求网页：

res = requests.get(url,headers=headers)
#本来demo这一段是没有的，但是常规解码跑出来是乱码，这里用了暴力解码
demo = res.text.encode("iso-8859-1").decode("GBK")
bs = BeautifulSoup(demo,'html.parser')

开始抓取：（由于对html结构还不太熟悉，所以把小头条新闻和其他新闻依次分开了抓取，后续会继续改进代码！）

#首先爬取这个板块的两个头条
#为了方便查看，设置了爬取计数变量a和b
a = 1
econ = bs.find('div',class_='layout Finance cf pdao1').find_all('div',class_='Repeat Repeat1 cf section-common-share-wrap')
for info in econ :
    print('正在爬取第{}条新闻'.format(a))
    news_title = info.find('div',class_='news2 cf').find('h3').find('a').text
    news_url = info.find('div',class_='news2 cf').find('h3').find('a')['href']

    res2 = requests.get(news_url,headers=headers)
    #这里也用了暴力解码
    demo = res2.text.encode("iso-8859-1").decode("GBK")
    bs2 = BeautifulSoup(demo,'html.parser')

    data = bs2.find('div',class_='col-1-1 fl').text
    paper = bs2.find('div',class_='rm_txt_con cf').find_all('p')[1].text

    dict_news = {'新闻标题':news_title,'时间':data,'主要内容':paper}
    news_list.append(dict_news)
    a += 1

#再爬取头条旁白的新闻
b = 3
econ2 = bs.find('div',class_='layout Finance cf pdao1').find_all('ul',class_='list6 cf')
for info2 in econ2 :
    econ3 = info2.find_all('li')
    for info3 in econ3 :
        print('正在爬取第{}条新闻'.format(b))
        news_title = info3.find('a').text
        news_url = info3.find('a')['href']

        res3 = requests.get(news_url, headers=headers)
        #暴力解码+3
        demo = res3.text.encode("iso-8859-1").decode("GBK")
        bs3 = BeautifulSoup(demo, 'html.parser')

        data = bs3.find('div', class_='col-1-1').text
        paper = bs3.find('div', class_='rm_txt_con cf').find_all('p')[1].text

        dict_news = {'新闻标题': news_title, '时间': data, '主要内容': paper}
        news_list.append(dict_news)
        b += 1

最后使用csv库写入抓取的内容：

with open('News.csv','w',encoding='utf-8-sig',newline='') as f :
    list_write = csv.DictWriter(f,fieldnames=head)
    list_write.writeheader()
    list_write.writerows(news_list)

爬取成功！在根目录下查看News.csv文件就可以看到爬取结果啦！

本次代码编写用了1.5个小时，包括解决过程中遇到的所有问题，没有用暴力解码的时候抓出来的信息除了链接那一列，其他都是乱码的/(ㄒoㄒ)/~~还有一些零零碎碎的问题，放到最后一起记录。

过程中遇到的一些问题：

1.乱码（使用暴力解码后解决）