Python 爬虫实战：爬取 BBC 英文新闻（含 NLP 文本分类）

本文链接：https://blog.csdn.net/yansideyucsdn/article/details/148095615

一、引言

在信息爆炸的时代，新闻数据的高效获取与智能分析变得至关重要。BBC 作为全球知名的新闻媒体，拥有丰富多样的新闻资源。通过 Python 爬虫技术，我们可以批量获取 BBC 英文新闻数据，并结合 NLP（自然语言处理）技术进行文本分类，实现新闻内容的结构化整理与智能化分析。这一过程不仅帮助我们快速了解全球热点动态，还能为新闻研究、舆情分析以及内容推荐系统提供有力支持。

二、目标网站选定与新闻数据解析

本次实战选取 BBC 英文新闻网站作为数据源。BBC 新闻网站提供了丰富多样的新闻内容，涵盖政治、经济、科技、文化等多个领域。通过对 BBC 新闻页面的 HTML 结构进行分析，我们发现新闻文章通常以列表形式展示，每篇文章包含标题、发布日期、简介以及文章链接等关键信息。此外，BBC 网站部分页面采用动态加载技术，需要在爬虫设计中引入适当的处理策略。

1. 发送请求与解析 HTML

利用 requests 库构造 HTTP 请求，模拟浏览器行为获取网页内容。精心设置请求头（headers），模拟真实的浏览器访问，提高请求的成功率。通过分析目标网站的 HTML 结构，利用 BeautifulSoup 对获取的网页内容进行解析，提取新闻标题、链接、发布时间等关键信息。

import requests
from bs4 import BeautifulSoup

def fetch_news_data(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    }
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        else:
            print(f"请求失败，状态码：{response.status_code}")
            return None
    except requests.exceptions.RequestException as e:
        print(f"请求过程中出现异常：{e}")
        return None

def parse_news_data(html):
    soup = BeautifulSoup(html, 'html.parser')
    news_data = []
    # 假设新闻列表的 HTML 结构为 <div class="news-list"> 包含多个 <div class="news-item"> 元素
    news_list = soup.find('div', class_='news-list')
    if news_list:
        for news_item in news_list.find_all('div', class_='news-item'):
            # 提取新闻标题，假设格式为 <h3 class="news-title"><a href="/news/123">新闻标题</a></h3>
            title_elem = news_item.find('h3', class_='news-title').find('a')
            title = title_elem.get_text(strip=True) if title_elem else '未知标题'
            news_link = title_elem['href'] if title_elem else '#'
            if news_link.startswith('/'):
                news_link = 'https://www.bbc.com' + news_link
            
            # 提取发布日期，假设格式为 <span class="publish-date">2024-10-12</span>
            date_elem = news_item.find('span', class_='publish-date')
            publish_date = date_elem.get_text(strip=True) if date_elem else '未知日期'
            
            # 提取新闻简介，假设格式为 <p class="news-summary">新闻简介内容</p>
            summary_elem = news_item.find('p', class_='news-summary')
            summary = summary_elem.get_text(strip=True) if summary_elem else '无简介'
            
            news_data.append({
                'title': title,
                'link': news_link,
                'publish_date': publish_date,
                'summary': summary
            })
    return news_data

2. 数据存储

将爬取到的新闻数据存储到 Pandas DataFrame 中，便于后续的数据处理与分析。对数据进行清洗操作，去除重复记录、处理缺失值，并统一时间格式。

import pandas as pd

def save_and_clean_news_data(news_data, filename):
    df = pd.DataFrame(news_data)
    # 去除重复数据
    df.drop_duplicates(subset=["title"], inplace=True)
    # 保存到 CSV 文件
    df.to_csv(filename, index=False, encoding="utf_8_sig")
    return df

三、NLP 文本分类

1. 文本预处理

对新闻文本进行清洗操作，去除多余空格、换行符等噪声数据，并进行分词处理，为后续的文本分析和知识挖掘做好准备。

import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

nltk.download('punkt')
nltk.download('stopwords')

def preprocess_text(text):
    # 去除特殊字符和数字
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    # 转换为小写
    text = text.lower()
    # 分词
    tokens = word_tokenize(text)
    # 去除停用词
    stop_words = set(stopwords.words('english'))
    filtered_tokens = [word for word in tokens if word not in stop_words]
    return ' '.join(filtered_tokens)

2. 特征提取与模型训练

利用 TF-IDF 算法将预处理后的文本转换为数值特征，以便机器学习模型可以处理。选择朴素贝叶斯分类器作为文本分类模型，训练模型并进行预测。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report

def train_text_classifier(df, category_col, text_col):
    # 提取文本数据和标签
    texts = df[text_col].tolist()
    labels = df[category_col].tolist()
    
    # 文本预处理
    processed_texts = [preprocess_text(text) for text in texts]
    
    # 特征提取
    vectorizer = TfidfVectorizer(max_features=5000)
    X = vectorizer.fit_transform(processed_texts)
    y = labels
    
    # 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 训练朴素贝叶斯分类器
    classifier = MultinomialNB()
    classifier.fit(X_train, y_train)
    
    # 预测
    y_pred = classifier.predict(X_test)
    
    # 输出分类报告
    print(classification_report(y_test, y_pred))
    
    return classifier, vectorizer

3. 主函数与爬虫运行逻辑

构建主函数，统筹整个新闻爬取与分类流程。通过循环调用请求函数，实现对多页新闻数据的批量拉取。在每批次数据处理完成后，及时进行数据存储与分类操作，确保新闻内容的及时获取与智能化分析。

def main():
    base_url = 'https://www.bbc.com/news'  # BBC 新闻基础 URL
    pages_to_scrape = 5  # 爬取页数
    all_news_data = []
    
    for page_num in range(1, pages_to_scrape + 1):
        url = f"{base_url}/page/{page_num}"
        html = fetch_news_data(url)
        if html:
            news_data = parse_news_data(html)
            if news_data:
                all_news_data.extend(news_data)
            else:
                print(f"第 {page_num} 页未解析到有效新闻数据")
        else:
            print(f"第 {page_num} 页请求失败")
    
    if all_news_data:
        df = save_and_clean_news_data(all_news_data, "bbc_news_data.csv")
        # 假设数据中有一个 'category' 列用于分类标签
        classifier, vectorizer = train_text_classifier(df, 'category', 'summary')
    else:
        print("未获取到任何新闻数据")

if __name__ == '__main__':
    main()

四、爬虫运行与测试

在完成爬虫代码的编写之后，进入到运行与测试环节。首先，在小规模数据集上进行试运行，观察程序的运行状态与输出日志。重点关注请求是否成功、数据解析是否准确、文本分类是否合理等问题。根据试运行结果，对代码中存在的逻辑漏洞、参数配置错误等进行针对性修复。随后，逐步扩大测试规模，模拟高并发、大数据量的爬取场景，验证爬虫程序的稳定性和性能表现，确保其能够在长时间、高强度的运行条件下保持高效、稳定的数据采集与分析能力。