网络信息体系结构内容-CSDN博客

本文链接：https://blog.csdn.net/yuanbohan/article/details/83740595

[b]1.背景知识要求[/b]
线性代数，概率论和数理统计
程序设计（ Java 或C/C++ ）

[b]Web Crawler 的结构[/b]（见博客[url]http://hanyuanbo.iteye.com/admin/blogs/779350[/url]）

[b]2.基本的，也是最简单的抓取网站的爬虫的算法：[/b]
[align=center]
[img]http://dl.iteye.com/upload/attachment/341139/e4c269aa-9600-3acf-8645-ca374f4b2fc5.jpg[/img]
[/align]
[b]网络爬虫设计时需要注意的一些问题[/b]
见附件

[b]3. Web的深入理解：[/b]
[b]Web 有多大？[/b]
选择6个流行的 search engine, 假设它们索引页面之间的 independency
Sampling：通过575个查询对这些SE采样，分析它们之间的overlap
用overlap来估计各个SE所覆盖的 indexable Web的大小
利用已知某个SE的页面数，来估计整个Web的大小
[align=center]
[img]http://dl.iteye.com/upload/attachment/341158/df15961a-9809-38e5-a153-9d7d84aad18b.jpg[/img]
[/align]
[b]Web的连通性如何？[/b]
[b]Web上节点的分布如何？[/b]
[b]Web上节点距离有多远？[/b]
[b]Web上节点重要度如何度量？[/b]
如图：
[align=center]
[img]http://dl.iteye.com/upload/attachment/341184/394c768b-923f-392b-a3f9-f49fc9713a9c.jpg[/img]
[/align]
G=(1-β)LT+ β/N(1N) 被称为Google Matrix

[b]4.Introduction of Information Retrieval[/b]
索引技术：Index Techniques
排序：Scoring and Ranking
性能评测：Evaluation

[b]5.[/b]

[b]6.[/b]

[b]7.[/b]

[b]8.[/b]

[b]9.[/b]

[b]10.[/b]