网络信息体系结构 内容

[b]1.背景知识要求[/b]
线性代数,概率论和数理统计
程序设计( Java 或C/C++ )

[b]Web Crawler 的结构[/b](见博客[url]http://hanyuanbo.iteye.com/admin/blogs/779350[/url])

[b]2.基本的,也是最简单的抓取网站的爬虫的算法:[/b]
[align=center]
[img]http://dl.iteye.com/upload/attachment/341139/e4c269aa-9600-3acf-8645-ca374f4b2fc5.jpg[/img]
[/align]
[b]网络爬虫设计时需要注意的一些问题[/b]
见附件

[b]3. Web的深入理解:[/b]
[b]Web 有多大?[/b]
选择6个流行的 search engine, 假设它们索引页面之间的 independency
Sampling: 通过575个查询对这些SE采样,分析它们之间的overlap
用overlap来估计各个SE所覆盖的 indexable Web的大小
利用已知某个SE的页面数,来估计整个Web的大小
[align=center]
[img]http://dl.iteye.com/upload/attachment/341158/df15961a-9809-38e5-a153-9d7d84aad18b.jpg[/img]
[/align]
[b]Web的连通性如何?[/b]
[b]Web上节点的分布如何?[/b]
[b]Web上节点距离有多远?[/b]
[b]Web上节点重要度如何度量?[/b]
如图:
[align=center]
[img]http://dl.iteye.com/upload/attachment/341184/394c768b-923f-392b-a3f9-f49fc9713a9c.jpg[/img]
[/align]
G=(1-β)LT+ β/N(1N) 被称为Google Matrix

[b]4.Introduction of Information Retrieval[/b]
索引技术:Index Techniques
排序:Scoring and Ranking
性能评测:Evaluation


[b]5.[/b]

[b]6.[/b]

[b]7.[/b]

[b]8.[/b]

[b]9.[/b]

[b]10.[/b]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值