web小知识

Http Erro Code分类

  • 2XX:表示状态成功。
  • 4XX:客户端错误。
  • 5XX:服务器端错误。

简单的识别爬虫

 User-Agent:用户代理,其实我们的浏览器就是一个用户代理,当我使用浏览器发送请求时,我们的请求头里都会有 User-Agent (用户代理)这个提示信息。我们可以通过这个可以简单的识别"Http请求"是浏览器发送的还是其他程序发送的,但这仅仅是针对哪些一点都不会"Http请求"伪装的小白。

站在巨人的肩膀上学习,不要在想着再发明轮子。

 当我们面临一个问题的时候应该多思考上网搜索,网上肯定已经有人解决了而且别人的代码很简洁规范技术先进。可能大家觉得百度的浏览器搜素的答案也不怎么样,推荐:Stack Overflow,这是一个IT人员的论坛,可以免费的提问而且答案的技术新颖、靠谱。

Java爬虫:

 浏览器可以做的事情,其他程序肯定也是可以的。因为大家都是代码写成的。 如:发送http请求、下载文件…等。

爬虫步骤:

 Step one: 发送http请求。
 Step two:解析响应的数据。
  知识补充:HTML是高度结构化树形结构语言。 如:先有head再有body再有div,div还可以嵌套div就像一颗树一样。
  注意:
   1. 写爬虫肯定会遇到很多新东西,我们不能看别人的文章做事。得看官方文档保证技术新颖没有被淘汰。
   2. 网页搜索信息时,要简洁精炼准确。
如:搜索Fira Code 字体下载, 直接搜索Fira Code github。 搜索某个Maven仓库 XXXXX(依赖包名) Maven。

上面如有错误还望各位网友指出改正谢谢观看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值