【读书笔记】数学之美_在互联网上如果一个网页被很多其他网页所链接说明它受到普遍的认可和信赖那么-CSDN博客

本文链接：https://blog.csdn.net/weixin_44526168/article/details/124885817

数学之美

00 计算复杂度

算法之父：高德纳

算法好坏的的度量不再和问题大小有关

算法复杂度

多项式复杂度函数：P问题（Polynomial）
非多项式函数：NP问题（Non-polynomial）（现实中的绝大多数问题，如围棋最佳走法）
NPC问题(NP-Complete)
NP-Hard问题

01 文字和语言vs数字和信息

信息

语言的产生
- 随着要表达的信息越来越多，语言就此产生

文字和数字

文字
- 文字的起源
  - 人仅靠大脑记不住语言发展的词汇
- 文字在概念上聚类（原理上与自然语言处理或机器学习很像）
  - 聚类后根据上下文消除多义字的歧义（Disambiguation）
- 文字只是信息的载体，而非信息本身
  - 不同文字系统在记录信息上的能力是等价的（翻译的基础）
- 古埃及罗塞塔石碑（用三种语言写）
  - 信息冗余是信息安全的保障
  - 语言的数据（语料），尤其对照语料对翻译至关重要
数字
- 基本采用十进制（十个指头）
  - 除了雅玛文明：二十进制（2012世界末日）
- 解码
  - 中国：乘法
  - 罗马：加减法
    - 小数字出现在大数字左边为减，右边为加 IV =4
- 阿拉伯数字（印度）
  - 标志着数字和文字的分离

文字和语言背后的数学

从象形文字到拼音是个飞跃
- 形象到抽象，采用了对信息的编码
古代语言
- 信道压缩：口语白话文 -> 文言文
- 解压缩：文言文-> 白话文
编解码
- 词的编码规则：字母-> 构词法
- 语言的编解码规则：语法

02 自然语言处理

机器智能

70年代前：编写文法规则（鸟飞派）
- 数量庞大不切实际，计算量大上下文有关法 O(N^6)
70年代后：基于数学模型和统计
- 上下文无关法 O（N^2）

从规则到统计

IBM华生实验室贾里尼克
核心模型
- 早期核心模型：通信系统、隐含马尔可夫模型
- 88年：基于统计（但当时数据不够）

03 统计语言模型（数学模型）

用数学的方法描述语言规律

原理：一个句子是否合理，就看它的可能性大小如何，可能性用概率来衡量
马尔科夫假设：任意一个词W（状态）i出现的概率只同它前面的词Wi-1（状态）有关
N元模型
- 假设一个词由前面N-1个词决定
  - 二元模型
  - 三元模型（实际应用最多）

04 谈谈分词

语言模型建立在词的基础之上：词是表达语义的最小单位

中文分词方法的演变

查字典
- 把句子扫描一遍，遇到字典里有的词就标识出来
  - 复杂问题无能为力
最少词数分词
- 有二义性
统计语言模型
- 保证分完词后这个句子出现的概率最大

词的颗粒度和层次

根据应用划分颗粒度
- 机器翻译：颗粒度大翻译效果好
- 网页搜索：小的颗粒度好
分词器
- 让一个分词器同时支持不同层次的词划分
  - 基本词表L1（小颗粒度）
    - 偶尔增加新词
  - 复合词表L2（大颗粒度）
    - 持续做数据挖掘，不断完善L2词典（近年来方向）
- 由不同应用自行决定划分的颗粒度

05 隐含马尔可夫模型

通信模型

通信的本质就是一个编码和解码的过程
- 语音识别：根据声学信号来推测说话者的意思
- 几乎所有的自然语言处理问题都可以等价为通信的解码问题

隐含马尔可夫模型

概率论从（相对静态的）随机变量发展到对随机变量序列，即随机过程（动态的）
马尔科夫链
- 边上的权值为转移概率
隐含马尔可夫模型
- 任一时刻t的状态St是不可见的（无法通过状态序列推测转移概率）
  - 但会在每个时刻输出一个符合Ot，且Ot仅跟St相关（独立输出假设）
应用：最初应用于通信领域，继而推广到语音识别、机器翻译、拼写纠错、手写体识别、图像处理、股票预测等
- 同时也是一个机器学习工具
  - 训练算法（鲍姆-韦尔奇算法）
  - 解码算法（维特比算法）

06 信息的度量和应用

信息熵

1948年香农提出--解决了信息的度量问题，并且量化了信息的作用
物理含义：对一个信息系统不确定性的度量
- 是整个信息论的基础
信息量等于不确定性的多少
- 用“比特”（Bit）来度量信息量
  - 对数函数log
- 变量X的不确定性越大，熵H也就越大（bit）
冗余度
- 不同语言冗余度差别很大，汉语冗余度相对小

信息的作用

信息是消除不确定性（降低熵）的唯一方法
几乎所有的自然语言处理、信息与信号处理的应用都是一个消除不确定性的过程（寻找大量信息）
二元模型的不确定性小于一元模型（高阶到低阶）

互信息

概念：两个随机事件“相关性”的量化度量
- -> 了解其中一个Y的前提下，对另消除另一个X不确定性所提供的信息量
- H(X|Y）为条件熵 X和Y完全相关时取值为H(X), H(X)=H(Y); X和Y完全无关时，取值为0；
应用：消除词义的二义性

相对熵

用来衡量两个取值为正数的函数的相似性
应用
- 最早用在信号处理上，后来也来衡信息的相似度
- 词频率（TF-IDF）

小结

信息熵能够直接用于衡量语言模型的好坏
有了上下文条件，所以对高阶语言模型应该用条件熵
引入相对熵，训练语料和真实文本的概率函数有偏差
语言模型复杂度：在给定上下文条件下句子中每个位置平均可以选择的单词数量，其可以直接衡量语言模型好坏

07 布尔代数和搜索引擎

搜索引擎

自动下载尽可能多的网页（爬虫）
建立快速有效的索引
根据相关性对网页进行公平准确的排序（PageRank）

布尔代数

二进制：印度学者-->莱布尼茨完善
1938年香农用布尔代数实现开关电路
- 布尔代数成为数字电路基础
将逻辑和数学合二为一，开创了数字化时代
对于用于输入的关键词，搜索引擎要判断每篇文章是否有这个关键词
- 有为1，无为0

索引

数据库SQL语言背后的基本原理基于布尔运算
计算机做布尔运算非常快
常见的搜索引擎会对爬取到网页的所有词进行索引
- 索引存在服务器内存中
- 根据网页序号将索引分成多份存储在不同服务器中
- 每次查询分到各个服务器中，同时并行处理后将结构送到主服务器进行合并后返回用户
- 根据网页重要性、质量和访问频率建立不同级别索引

08 图论和网络爬虫

图论

图由一些节点和连接这些节点的弧组成
定理：如果一个图能够从一个顶点出发，每条边不重复地遍历回到这个顶点，那么每一个顶点的度（顶点相连边的数量）必须为偶数
- 每个顶点相连的边的数量成对出现（进：出= 1：1）
遍历算法
- 广度（Breadth）优先搜索BFS
- 深度 (Depth) 优先搜索DFS

网络爬虫

互联网
- 节点：网页
- 弧：超链接
网络爬虫
- 根据超链接用图遍历算法自动访问网页并保存，后提取网页中的URL加入到下载队列中
- 散列表（Hash Table 哈希表）：记录哪些网页下载过了，避免重复
  - 根据URL生成的信息指纹
构建网络爬虫工程要点
- BFS
  - 先爬取哪个网页，后爬取哪个网页的调度，原理基本BFS
  - 爬虫很小：爬取网站首页
  - 爬虫大一些：爬取从首页直连的网页
- DFS
  - 实际爬虫为分布式系统，对某个网站由特定服务器下载
  - 考虑到网络的通信成本（HTTP三次握手）

09 PageRank

PageRank算法原理

核心思想：在互联网上，如果一个网页被很多其他网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高。
- 把整个互联网当作一个整体对待（系统论）
初始权值如何度量？
- 先假定所有网页的排名是相同的，并根据这个初始值算出各个网页第一次迭代排名，后一直迭代（迭代10次后基本收敛）
  - 网页排名计算主要是矩阵相乘（适合并行处理）
    - 用稀疏矩阵解决计算量大
    - 并行计算工具MapReduce

10 如何确定网页和查询相关性

影响搜索引擎因素

完备的索引
对网页质量的度量，如PageRank
用户偏好
确定网页和查询相关性

搜索关键词权重的科学度量TF-IDF

TF: 单文本词频（Term Frequency）
- 含义：各个关键词占某个网页上词频之和
- 停止词（Stop Word）权重为零，如 “的”、“是”
IDF: 逆文本频率指数（Inverse Document Frequency）
- 一个词预测主题的能力越强权重越大，反之越小
- 出现在五亿个网页中，权重为log(2)=1
- 相关性：词频的加权求和
- IDF就是一个特定条件下关键词的概率分布的交叉熵
一个词的信息量越多，TD-IDF值越大
TD-IDF是对搜索关键词重要性的度量

11 有限状态机和动态规划

有限状态机和动态规划的应用非常广泛，远不止识别地址、导航等地图服务相关领域。它们在语音识别、拼写和语法纠错、拼音输入法、工业控制和生物的序列分析都有应用。

地址分析和有限状态机

有限状态机是一个特殊的有向图
- 包括一个开始状态、一个终止状态和若干中间状态
如果一条地址能从状态机的开始状态经过状态机的若干中间状态，走到终止状态，则这条地址有效，否则无效
- 如“上海市辽宁省马家庄”则无效（无法从市到省）
有限状态机早期应用：程序语言编译器 (程序在语法上无错，不需要模糊匹配)
- -> 基于概率的有限状态机：现应用于自然语言处理上，需要模糊匹配
  - ->Google Now
延申：加权的有限状态传感器（WFST）
- 有限状态传感器：有限状态机中的每一个状态由输入和输出符合定义

全球导航和动态规划

寻找北京到广州的最短路径：先在横切线上列出北京到广州必经城市之一（如郑州、西安）的最短路径，一直将横切线从北京向广州推移

12 余弦定理和新闻分类

利用余弦定理分类准确性很好，适用于被分类文本集合在百万数量级。如果达到亿级适合下章矩阵运算（快速但更粗糙）。

新闻的特征向量

对于一篇新闻中的所有实词，计算它们的TD-IDF值。把这些值按照对应的实词在词汇表的位置依次排列，就得到一个特称向量（Feature Vector）
- - 此例中为64000维的向量，向量中每一个维度大小代表每个词对这篇新闻主题的贡献

向量距离的度量

如果两篇新闻属于同一类，则它们的特征向量在某几个维度的值都比较大
- 但因文章长度不同，故单纯比较各维度大小意义不大
向量方向有很大意义：如果两个向量方向一致，则相应新闻用词比例基本一致
余弦定理->计算向量方向
- 夹角越大，余弦越小，两条新闻越不相关
- 夹角越小，余弦越大，两条新闻越相关
- 两向量正交时（90度），余弦为零，两新闻毫不相关
问题：事先没有新闻类别的特征向量
- 计算所有新闻之间两两余弦相似性，把相似性大于一个阈值的新闻合并成一个小类
- 把每个小类中所有新闻作为一个整体，计算小类的特征向量，再计算小类之间两两的余弦相似性，然后合并成大一点的小类
- 一直迭代第二步，当某类太大时停止
计算向量余弦的技巧
- 分母部分（向量的长度）不需要重复计算
- 只需考虑向量中的非零元素
- 删除虚词
  - 虚词的权重是一种噪音，干扰分类
- 对标题和重要位置（开头结尾）的词进行额外加权

13 矩阵运算和文本处理

余弦定理需要迭代，故计算量大奇异值分解中整个矩阵要存在内存中，而余弦定理的聚类不用

文本和词汇的矩阵

一个大矩阵中，每一行对应一篇文章，每一列对应一个词
奇异值分解SVD
- 把上面的大矩阵分解成三个小矩阵
  - 矩阵X是对词进行分类的一个结果
  - 矩阵Y表示对文本的分类结果
  - 矩阵B表示词的分类和文章的类之间的相关性

14 信息指纹及其应用

信息指纹

产生过程
- 将一个字符串看成是一个特殊的，很长的整数
  - 存储量减小
  - 整数查找比字符串查找快几十倍
- 伪随机数产生器算法PRNG (冯诺依曼提出)
  - ->基于加密的伪随机数产生器CSPRNG)
    - MD5
    - SHA-1
特征：不可逆性，即无法根据信息指纹推出原有信息
- cookie
  - cookie用来识别不同用户，此cookie就是一个信息指纹，但在HTTP协议中cookie本身不加密
  - HTTPS协议中对cookie本身也进行加密

信息指纹的用途

集合相同的判定
- 计算两个集合的指纹（每个元素指纹相加）然后直接比较
  - 对于64位指纹，重复的可能性依然很低
判定集合基本相同
- 判断网页重复：对每个网页挑出几个IDF最大的词构成网页的特征词集合，然后计算和比较这些特征集合的信息指纹即可
  - 为了允许容错：相似哈希
    - 扩展
    - 收缩
YouTube反盗版
- 视频匹配
  - 关键帧提取
    - 用信息指纹表示这些关键帧
  - 特征提取
- 盗版视频的广告收益全部提供给原创视频

15 密码学的数学原理

密码学的自发时代

加密和解密是一对函数和反函数
- 明码是自变量；密码是函数值
  - 好的（加密）函数不应通过几个自变量的值就能推出函数（加密方法）

信息论时代的密码学

公开密钥算法
- 加密和解密算法完全不同
- 加解密算法在数学上相关联
- 即使加密者自己也无法解密
信息论创始人：香农
- 信息论实际上是情报学的直接产物（香农在二战时为美情报部门工作）
  - 冯诺依曼：发明现代电子计算机和提出博弈论

16 搜索引擎反作弊和搜索结果权威性

噪音存在于任何通信系统，而好的通信系统需要能够过滤掉噪音，还原真实的信号。搜索引擎是一个特殊的通信系统，免不了会有噪音，反作弊和确定权威性就是去噪音的过程。

搜索引擎反作弊

解决噪音干扰（作弊）问题
- 从信息源出发，加强通信（排序算法）的抗干扰能力
- 从传输来看，过滤掉噪音，还原信息
  - 针对商业相关搜索：采用抗干扰能力强的算法
  - 对信息类的搜索：采用“敏感”的算法
- 反作弊工具
  - 用余弦定理（卖链接网站出链数目可作为一个向量）
  - 图论，发现Clique(两两互相连接的节点)
Google反作弊和恢复网站原有排名的过程完全自动
作弊有成本，故作弊者基本只对市场份额最大的搜索引擎算法来作弊

搜索结果权威性

PageRank和其他关于网页质量的度量方式都很难衡量搜索结果的权威性
- 八卦娱乐占比高但没价值
计算权威度
- 对每一个网页中的每一句话进行句法分析，找出涉及主题的短语以及对信息源的描述
  - 主题短语如“吸烟的危害” 信息源如“世卫组织“、”联合国”等
- 利用互信息找到主题短语和信息源的相关性
- 对主题短语进行聚合，得到搜索主题
  - 如“吸烟的危害”、“吸烟致癌”等
- 对一个网页中的网站进行聚合，权威度的度量只能建立在子域或者子目录这一级
  - 其他目录可能与搜索主题不相关

17 数学模型的重要性

数学模型

一个正确的数学模型在形式上是简单的
- 托勒密的天体模型太复杂（用40多个大圆套小园）
一个正确的数学模型一开始可能不如一个精雕细琢过的错误模型准确，但大方向是对的就应该坚持
- 日心说一开始没有地心说准确
大量准确数据对研发很重要
正确的模型也可能受到噪音干扰而不准确，要找到噪音根源

18 最大熵模型

最大熵原理

保留全部的不确定性，将风险降到最低
- 鸡蛋不要放在同一个篮子里

最大熵模型

对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设
- 这时概率分布最均匀，预测的风险最小（此时概率分布的信息熵最大）
最大熵模型可以将各种信息整合到一个统一的模型中

19 拼音输入法的数学原理

输入法与编码

输入法输入汉字的快慢取决于汉字编码的平均长度
- ->按键次数 * 寻找这个键所需时间
汉字编码
- 对拼音的编码
- 消除歧义性的编码
输入法发展
- 双拼
  - 拆字的过程会使思维变慢
  - 双拼对读音的容错性不好
- 五笔
  - 五笔并不是编码方法更合理，只是更会做市场
  - 虽减少了每个汉字的按键次数，但忽视了找到每个键的时间
- 全拼
  - 不需要专门学习
  - 输入自然，不会中断思维
    - 对比五笔
  - 容错性好
    - 对比双拼

输入一个汉字要敲几个键

香农第一定理：对于一个信息，任何编码的长度都不小于它的信息熵
- 如果再以词为单位，汉字信息熵约为8bit，一个汉字只敲8/4.7=1.7次键
  - ->现在所有输入法都是基于词输入
理论上利用上下文只需1.3次键，但无法达到
- 要对汉字的词组根据其词频进行特殊编码，欲速不达
- 在PC上很难安装非常大的语言模型
  - 各输入法只能给用户提供一个压缩很厉害的语言模型
  - 未来各家输入法提升技术关键在于如何建立准确有效的语言模型
- 延申：可建立个性化的语言模型（用户词典）
  - 一个小规模的一元模型加上非常小量的元组（用户定义）
  - 将个性化模型和通用模型组合效果更好

拼音转汉字的算法

动态规划：寻找最短路径
输入法是一个将拼音串变到汉字串的转换器
- y串代表用户输入的拼音串 w串代表候选汉字
  - 要找到一条从起点到终点的最短路径

20 布隆过滤器

布隆过滤器原理

问题：计算机中的集合用散列表存储，快速准确但耗费存储空间（存储效率50%）
解决：布隆过滤器只需散列表1/8到1/4大小
一般用作鉴别是否在垃圾邮件发送的黑名单
- 对每个邮件地址，用8个不同的随机数产生器F1-F8产生8个信息指纹f1-f8
- 再用一个随机数产生器G把这8个信息指纹映射到1-16亿中的8个自然数g1-g8
- 并把这8个比特位全部置1
数学原理：两个完全随机的数字相冲突的概率很小
- 为防止误识别，可再建立白名单

21 贝叶斯网络

贝叶斯网络

贝叶斯网络是一个加权（可信度）的有向图
- 每个节点的概率都可以用贝叶斯公式来计算
贝叶斯网络的拓扑结构比马尔科夫链灵活，不受马尔科夫链的链状结构约束，可以更准备地描述事物之间的相关性

贝叶斯网络在词分类中的应用

- 概念：对词而不是文本的一个分类

贝叶斯网络的训练

结构训练
- 先确定结构
参数训练
- 后确定节点之间弧的权重

22 条件随机场和文法分析

文法分析

概念：根据文法对一个句子进行分析，建立这个句子的语法树
文法规则：让被分析的句子的语法树概率达到最大
括括号
- 先对句子进行分词
- 将这些词从左到右扫描一遍，用括号括起来形成词组
- 重复2括括号，直到整个句子被一个大括号覆盖

条件随机场

条件随机场是隐含马尔可夫模型的一种扩展，是一个特殊的概率图模型
- x为观测者序列，y为隐含的状态序列（xi只取决于yi，跟yi-1，yi+1都无关）
  - 把xi跟前后状态（yi-1，yi+1）都考虑进来
条件随机场非常灵活，是个适用于预测的统计模型
- 还可用于犯罪预测

23 维特比算法和CDMA

维特比算法

应用最广的动态规划算法
- 针对篱笆网络的有向图最短路径问题提出
算法
- - - 复杂度O(N*D^2) N为网的长度，D为网的宽度
语音识别、打字中输入都是按流（Stream）进行
- 无论输入多长都可以实时解码

CDMA-3G网基础

扩频传输
- 抗干扰能力极强
- 信号很难被截获
- 利用带宽更充分
移动通信技术
- 频分多址FDMA
  - 对频率进行切分，每一路通信使用一个不同的频率
- 时分多址TDMA
  - 将同一频带按时间分成很多份
    - 2G基础
- 码分多址CDMA
  - 每个发送者有不同密码，接收者过滤掉自己无法解码的信号
高通：维特比创办
- CDMA2000
- WCDMA

24 期望最大化EM算法

文本自收敛分类

随机挑出一些类别的中心然后来优化这些中心，使它们和真实的聚类中心尽可能一致（即收敛）
- 随机挑选K个点
- 计算所有点到这些聚类中心的距离，将这些点归类到最近的一类中
- 重新计算每一类的中心
- 重复2，3直到新旧中心偏移量非常小，即过程收敛

EM算法

E过程（Expectation）：期望值计算过程
M过程（Maximization）：重新计算模型参数，最大化期望值
只需有一些训练数据，定义一个最大化函数（凸函数能保证全局最优解），交给计算机进行若干次迭代即可

25 逻辑回归和搜索广告

搜索广告的发展

雅虎和百度的竞价排名
预测用户可能点击候选广告的概率

逻辑回归模型

将一个事件出现的概率逐渐适应到一条逻辑曲线(S形)上（值域[0,1]）
将逻辑回归函数和概率分布联系起来
β为回归参数（变量的权重）
- 将影响概率的不同因素结合在一起

26 分治算法和Google云计算

分治算法原理

将一个复杂的问题，分成若干个简单的子问题解决
对子问题的结果进行合并，得到原有问题的解

MapReduce

云计算关键：将一个非常大的计算问题自动分解到许多计算能力不是很强的计算机上共同完成
MapReduce
- Map
  - 将一个大任务拆分成小的子任务，并完成子任务的计算
- Reduce
  - 将中间结果合并成最终结果
归并排序：将数组分成几份分别排序再合并
矩阵分解
- - 链接分析和日志处理中

27 Google大脑和人工神经网络

人工神经网络

一种特殊的有向图
- 神经元：节点
- 神经：弧
特殊性
- 每一层节点可通过有向弧指向上一层节点
- 同一层节点之间没有弧相互连接
- 每一个节点不能越过一层连接到上上层的节点
每一条弧上有一个值，可计算节点的值
- 最下面一层为输入层（X）
- 最上面一层为输出层（Y）
- 其余为中间层（隐含层）（S）
- - S2是一个非线性函数，被称为神经元函数
    - 线性加权：计算输入值x序列的线性组合
    - 函数变换：计算Y的值y=f(G)，常用指数函数

训练人工神经网络

训练弧的权重，即模型参数w
有监督学习
- 训练数据既有输入数据x又有对应的输出值y
- 训练目标是找到一组参数（权重）w，使模型计算出的输出值与原输出值尽可能一致
  - C为成本函数表示输出值之间的差距
    - 用梯度下降法解决最优化问题
无监督学习
- 只有输入参数x，没有对应的输出参数y
- 定义新的成本函数，解决分类问题

人工神经网络和贝叶斯网络的关系

共同点
- 都是有向图，都遵从马尔科夫假设
- 训练方法相似
- 对很多模式分类效果相似
- 训练计算量大
不同点
- 标准化
  - 人工神经网络使完全标准化的
    - Google大脑用人工神经网络因为其标准化
  - 贝叶斯网络更灵活
- 计算机实现
  - 神经元函数中各变量只能现进行线性组合后对结果非线性变化，计算机实现起来简单
  - 贝叶斯网络中变量可以组合成任意函数，实现复杂
- 上下文相关性
  - 人工神经网络输出相对孤立，难以处理序列
  - 贝叶斯网络更容易考虑上下文相关性，解码序列容易

Google大脑

一种大规模并行处理的人工神经网络
云计算能力的提升
- 一半靠处理器性能的提升
- 一半靠多处理器并行工作体现
与MapReduce异同
- 同：都使用分治算法
  - Google大脑的分治算法更复杂
- 异：Google大脑每一块计算并不完全独立，要考虑上下左右很多块
减少计算量的改进
- 采用随机梯度下降法
  - 只需随机抽取少量数据来计算成本函数
- 减少训练的迭代次数
  - L-BFGS方法，根据最后目标距离调整每次迭代步长
数据存储在输入端的服务器（计算模块）本地模型参数由另一组服务器单独存储

28 大数据

数据的重要性

数据包括任何形式的信息
- 包括互联网上全部内容、档案资料、图纸、病例、影像等
日常很多感觉都与数据给出的结论相反
- 我们在估计未知的事件时偏差很大
- 人们在没有看到数据前总会放大事物的正面，忽视负面影响（股票）

数据的统计和信息技术

概率论：研究随机现象数量规律的数学分支
统计学：通过搜索、整理、分析数据等手段推测现象本质或预测现象未来
切比雪夫不等式：当样本数足够多时，一个随机变量和它的数学期望值之间的误差可以任意小
统计
- 数据量要大
- 数据要有代表性
搜索引擎需要的数据
- 网页本身的数据
  - 网页数据要完备，索引数据量要大
- 用户点击的数据
  - 训练点击模型
    - 微软通过IE浏览器收集用户使用Google搜索时的点击数据