web数据管理 期末

网页预处理: !!!
一种是将文档看作字符流 正则表达式
一种是将文档看作树结构 基于DOM

统计语言模型是序列中单词的概率分布 (中文分词)

Content-based Image Retrieval CBIR 基于内容的图像检索
基于内容检索的一种(CBR)
核心:
图片特征提取: 低级特征-颜色、纹理、形状
特征匹配: 相似度计算

web爬虫判重
哈希表判重,在一台下载服务器上建立和维护一张哈希表并不是难事,
分布式,多台服务器一起下载网页,就会出现问题:
问题1、哈希表太大,一台下载服务器存不下。
问题2、每台下载服务器在开始下载前和完成下载后都要维护这表哈希表,这个存储哈希表的通信就成为爬虫系统的瓶颈。

web数据抽取 !!!
定义: 给定页面集合 W={wi},它通过页面模板 T 生成,包含数据 D={di},即 W={wi|wi = T(di) },Web 数 据抽取问题则可以定义为通过一定的技术手段,从 W 中逆向推导出 T,还原数据 D.
Web 数据抽取的目的是获得页面中的数据,需要借助一个或多个页面逆向推导出页面模板 T

HMM !!!
隐马尔可夫模型(Hidden Markov Model HMM)
马尔可夫过程指数学中具有马尔可夫性质的离散事件随机过程
用来描述一个含有隐含未知参数的马尔可夫过程

布尔检索模型
布尔模型: 一种简单的检索模型,可以用来处理布尔表达形式的查询(and,or,not)
理论基础:集合论
基本规则:每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为 0 或 1.
实现方式:非线性的扫描方式 (一种方法是事先给文档建立索引)

HOG !!!
HOG 特征
方向梯度直方图,一种在计算机视觉和图像处理中用来进行物体检测的特征描述子.
主要思想: 一副图像中,局部目标的表象和形状能够被梯度或边缘的方向密度分布很好的描述. 本质是梯度的统计信息,梯度主要存在于边缘的地方

图像特征包括低级特征和语义特征
形状特征位于语义和低层之间,属于对象级

Tamura纹理特征
对比度(contrast)、粗糙度(coarseness)、方向性(directionality)对于图像检索尤为重要。

LBP 特征
局部二值模式;结合了纹理图像结构和像素统计关系的纹理特征描述方法;一种有效的纹理描述算子(提取局部纹理信息、记录像素点与周围点的差异)
优点: 对光照具有不变性; 具有旋转不变性; 灰度不变性

SIFT 特征
尺度不变特征转换
SIFT 是一种检测局部特征的算法,每个 feature 要用 128 维的向量来描述.(计算量相对很大)
优点: 不只具有尺度不变性,即使改变旋转角度、图像亮度或拍摄视角,仍能有好的检测效果.
缺点: 实时性不够高; 有时特征点较少; 对边缘光滑的目标无法准确提取特征点

链码
用一串数字表示图像中目标的边界
优点:可以有效描述轮廓形状,大大减少边界所需要的数据量
缺点:对起始点要求很高; 不具有旋转不变性; 对噪声和边界线段缺陷很敏感

简述反爬虫与爬虫的博弈 !!!
1.Robot 协议:网站通过 robots 协议告诉搜索引擎哪些页面可以抓取,哪些不能
网站: 分析用户的 User-agent,根据大全过滤未知的或者指定的
爬虫: 篡改自己的 User-agent,伪装浏览器
2.IP 屏蔽
网站: 同一 IP 频繁访问,封
爬虫对策: 连接代理服务器、多 IP 并行、增大爬取时间间隔
3.访问限制
网站: 交互登陆 (提交用户名、口令、cookie)
JavaScript 渲染、AJAX
动态网页(数据在后台数据库,通过 GET(POST)参数后台 PHP 程序生成的网页)
爬虫应对:模拟浏览器工作 (HTP 分析工具分析 HTTP 传递的口令)
4.验证码、图片滑动验证码
Python+Selenium+PIL+Tesseract 识别验证码

csv 文件
csv 是以逗号间隔的文本文件, 看起来像是表格的压缩版
优点:
1.被 Excel 和很多的应用程序支持
2.用来做数据存储容量小
3.很多数据集采用格式
JSON 文件
JavaScript 对象表示法(JavaScript Object Notation)
JSON 是轻量级的文本数据交换格式,JSON 是存储和交换文本信息的语法;类似 XML,比 XML 更快、更小、更易解析.
在 JSON 中有两种结构:对象和数组. 最常用的格式是对象的键值对.
XML 文件
可扩展标记语言
用来存储、携带、交换数据; 半结构化集成数据

bs4
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。
它是一个工具箱,通过解析文档为用户提供需要抓取的数据,
简单,不需要多少代码就可以写出一个完整的应用程序。

scrapy
快速、高层次的屏幕抓取和web抓取框架,
用于抓取web站点并从页面中提取结构化的数据。
Scrapy吸引人的地方在于它是一个框架
所谓“框架”,便是整个或部分系统的可重用设计。
在python中也可以说,一个框架就是一个可复用的“巨大模块”。
任何人都可以根据需求方便的修改。
借助Scrapy框架这个爬虫利器,只需根据自己的需要,编写几个专属的模块就可以轻松地实现一个爬虫项目

向量空间模型: !!!
每篇文档表示成一个基于 tf-idf 权重的实值向量∈ R| V | (V 是词项集合,|V| 表示词项个数)
|V|维实向量空间:每一维对应一个词项
文档是空间中的点或者向量.
特点:
维度非常高 (互联网搜索引擎,可能千万维)
向量空间非常稀疏 (每个向量大部分是 0)

经典信息检索模型:
布尔模型
向量空间模型
经典概率模型

图像检索算法
图像检索领域: 将局部特征表示成全剧特征的编码
编码本的训练: BOF,VLAD(局部聚合向量),FV

BOF(Bag of Features)
图像可以视为一种文档对象
图像中不同的局部区域或其特征可看作构成图像的词汇
使用聚类算法将局部特征进行聚类,每个聚类中心看作是词典中的一个视觉词汇,相当于文本检索中的词.

Fisher Vector
混合高斯模型、聚类
FV 考虑了特征点到每个聚类中心到距离.

VLAD 特征
FV 的简化版本
VLAD 保存了每个特征点到离他最近到聚类中心到距离.统计的是落入最近单词里与该单词 的累计残差

颜色特征:
颜色直方图
颜色相关图
颜色自相关图
颜色矩

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值