数据采集与预处理

一、大数据的处理加工处理过程

数据采集、数据存储、数据清洗数据集成数据转换数据脱敏、数据处理和分析、数据存取和管理、数据可视化和展示、数据安全和隐私保护

二、数据采集的作用、格式、任务、数据结构

作用:数据收集、数据融合、数据质量、实时性

格式:结构化数据、半结构化数据、非结构化数据

任务:数据来源识别、数据采集方法选择、数据传输、数据初步清洗、数据监控和审计

数据结构:平面文件(文本文件)、关系型数据库(mysql)、NoSQL数据库(MongoDB)、大数据存储系统(HDFS)、数据流系统(Kafka)

三、数据的概念

数据是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符合的组合,这些符号是可识别的、抽象的。

四、数据的组织形式

主要有两种:文件和数据库

五、数据清洗的作用

提高数据质量、提升分析准确性、增强数据一致性、减少存储和处理成本、改善用户体验、符合法规隐私要求

数据清洗的内容:主要对缺失值、重复值、异常值和数据类型有误的数据进行处理

六、数据脱敏的作用

保护隐私敏感信息、符合法规要求、安全的数据共享、降低数据泄露的风险、提高数据安全管理效率

七、HTML网页的结构

HTML(HyperText Markup Language)是构建网页的标准标记语言。一个典型的HTML网页的结构包括以下主要部分:
文档类型声明 (`<!DOCTYPE html>`):指定文档类型为HTML5。
HTML根元素(`<html lang="en">`):包含整个HTML文档,`lang`属性指定文档的语言。
头部 (`<head>`):包含元数据、标题、外部资源链接(如CSS和JavaScript)。
主体 (`<body>`):包含网页的可见内容。
头部部分 (`<header>`):通常包含网站的标志、导航栏等。
主内容部分 (`<main>`):包含网页的主要内容区域,使用多个`<section>`标签分隔不同的内容块。
页脚部分** (`<footer>`):包含版权信息或其他底部信息。

八、BeautifulSoup的作用

主要功能是解析和提取HTML/XML数据

九、BeautifulSoup的四大对象

Tag对象、NavigableString对象、BeautifulSoup对象、Comment对象

十、使用BeautifulSoup遍历元素

十一、CSS选择器用法

通过标签名查找

通过类名查找

通过id名查找

组合查找

属性查找

十二、使用BeautifulSoup获取标签的文本

import requests
from bs4 import BeautifulSoup

#读取网页,获得HTML代码
url = "E:\数据采集与预处理\homework\index.html"
response = open(url,"r",encoding='utf-8')
html = response.read()
soup =BeautifulSoup(html,"lxml")

#根据标签名搜索子节点,输出所有p标签的文本
for elem in soup.find_all("p"):
    print(elem.get_text())

十三、使用BeautifulSoup获取属性的值

import requests
from bs4 import BeautifulSoup

#读取网页,获得HTML代码
url = "E:\数据采集与预处理\homework\index.html"
response = open(url,"r",encoding='utf-8')
html = response.read()
soup =BeautifulSoup(html,"lxml")

#根据标签名搜索子节点,显示所有a标签
for elem in soup.find_all("a"):
    print(elem.get('href'))

import requests
from bs4 import BeautifulSoup

#读取网页,获得HTML代码
url = "E:\数据采集与预处理\homework\index4.html"
response = open(url,"r",encoding='utf-8')
html = response.read()
soup =BeautifulSoup(html,"lxml")

#根据列表搜索子节点,显示所有a、div、img标签
#每行显示一个
for elem in soup.find_all("div",class_="text"):
    title = elem.find('h3').get_text()
    data = elem.find('p').get_text()
    print(f"{title}   {data}")
import requests
from bs4 import BeautifulSoup

#读取网页,获得HTML代码
url = "E:\数据采集与预处理\homework\index4.html"
response = open(url,"r",encoding='utf-8')
html = response.read()
soup =BeautifulSoup(html,"lxml")

#根据列表搜索子节点,显示所有a、div、img标签
#每行显示一个
for elem in soup.find_all("a",class_="item"):
    title = elem.find('div',class_='text').find('h3').get_text()
    url = elem['href']
    print(f"{title}   {url}")

  • 7
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值