Hacks #1?7
Hack 1. A Crash Course in Spidering and Scraping
Hack 2. Best Practices for You and Your Spider
Hack 3. Anatomy of an HTML Page
Hack 4. Registering Your Spider
Hack 5. Preempting Discovery
Hack 6. Keeping Your Spider Out of Sticky Situations
Hack 7. Finding the Patterns of Identifiers
URL /spiderhks?CHP?1
Hacks #8?32
爬取网站背后的想法往往是纯粹的,立即的 ,或者疯狂的欲望: 这是深夜, 你忘记了你儿子的足球比赛,你发誓永远不会让它再发生。
当然,你可以再浏览器工具栏中放置一个书签到学校的日历,但你想要更阴险的东西,你不可能忘记或习惯于
看到。
晚一点,你已经有一个Perl 脚本, 自动发送邮件给你 每天每一小时,当游戏被放入几乎任务。
你这是让你的生活不那么健忘,你的电脑更有用,你的儿子更可爱。 这就是爬虫在爬取, 当你痒了,最好能被划伤通过让你的电脑参与
如果有一种编程语言,可以快速刮伤痒比任何其他,这是Perl。
Perl是著名的“使容易的事情更容易和困难的事情成为可能,“赢得了声誉
“瑞士军刀”,“互联网的管道胶带ÿ