数据采集与预处理-CSDN博客

本文链接：https://blog.csdn.net/weixin_71943927/article/details/140065493

一、大数据的处理加工处理过程

数据采集、数据存储、数据清洗、数据集成、数据转换、数据脱敏、数据处理和分析、数据存取和管理、数据可视化和展示、数据安全和隐私保护

二、数据采集的作用、格式、任务、数据结构

作用：数据收集、数据融合、数据质量、实时性

格式：结构化数据、半结构化数据、非结构化数据

任务：数据来源识别、数据采集方法选择、数据传输、数据初步清洗、数据监控和审计

数据结构：平面文件（文本文件）、关系型数据库（mysql）、NoSQL数据库（MongoDB）、大数据存储系统（HDFS）、数据流系统（Kafka）

三、数据的概念

数据是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符合的组合，这些符号是可识别的、抽象的。

四、数据的组织形式

主要有两种：文件和数据库

五、数据清洗的作用

提高数据质量、提升分析准确性、增强数据一致性、减少存储和处理成本、改善用户体验、符合法规隐私要求

数据清洗的内容：主要对缺失值、重复值、异常值和数据类型有误的数据进行处理

六、数据脱敏的作用

保护隐私敏感信息、符合法规要求、安全的数据共享、降低数据泄露的风险、提高数据安全管理效率

七、HTML网页的结构

HTML（HyperText Markup Language）是构建网页的标准标记语言。一个典型的HTML网页的结构包括以下主要部分：
文档类型声明 (`<!DOCTYPE html>`)：指定文档类型为HTML5。
HTML根元素(`<html lang="en">`)：包含整个HTML文档，`lang`属性指定文档的语言。
头部 (`<head>`)：包含元数据、标题、外部资源链接（如CSS和JavaScript）。
主体 (`<body>`)：包含网页的可见内容。
头部部分 (`<header>`)：通常包含网站的标志、导航栏等。
主内容部分 (`<main>`)：包含网页的主要内容区域，使用多个`<section>`标签分隔不同的内容块。
页脚部分** (`<footer>`)：包含版权信息或其他底部信息。

八、BeautifulSoup的作用

主要功能是解析和提取HTML/XML数据

九、BeautifulSoup的四大对象

Tag对象、NavigableString对象、BeautifulSoup对象、Comment对象

十、使用BeautifulSoup遍历元素

十一、CSS选择器用法

通过标签名查找

通过类名查找

通过id名查找

组合查找

属性查找

十二、使用BeautifulSoup获取标签的文本

import requests
from bs4 import BeautifulSoup

#读取网页，获得HTML代码
url = "E:\数据采集与预处理\homework\index.html"
response = open(url,"r",encoding='utf-8')
html = response.read()
soup =BeautifulSoup(html,"lxml")

#根据标签名搜索子节点,输出所有p标签的文本
for elem in soup.find_all("p"):
    print(elem.get_text())

十三、使用BeautifulSoup获取属性的值

import requests
from bs4 import BeautifulSoup

#读取网页，获得HTML代码
url = "E:\数据采集与预处理\homework\index.html"
response = open(url,"r",encoding='utf-8')
html = response.read()
soup =BeautifulSoup(html,"lxml")

#根据标签名搜索子节点,显示所有a标签
for elem in soup.find_all("a"):
    print(elem.get('href'))

import requests
from bs4 import BeautifulSoup

#读取网页，获得HTML代码
url = "E:\数据采集与预处理\homework\index4.html"
response = open(url,"r",encoding='utf-8')
html = response.read()
soup =BeautifulSoup(html,"lxml")

#根据列表搜索子节点,显示所有a、div、img标签
#每行显示一个
for elem in soup.find_all("div",class_="text"):
    title = elem.find('h3').get_text()
    data = elem.find('p').get_text()
    print(f"{title}   {data}")

import requests
from bs4 import BeautifulSoup

#读取网页，获得HTML代码
url = "E:\数据采集与预处理\homework\index4.html"
response = open(url,"r",encoding='utf-8')
html = response.read()
soup =BeautifulSoup(html,"lxml")

#根据列表搜索子节点,显示所有a、div、img标签
#每行显示一个
for elem in soup.find_all("a",class_="item"):
    title = elem.find('div',class_='text').find('h3').get_text()
    url = elem['href']
    print(f"{title}   {url}")