Java爬虫项目问题

本周问题 2020-08-16

爬虫项目:
一.遇到需要登录显示价格的网站或存在源页面没有需要的爬去的数据。
首先说一下爬取商品网站时需要登录后显示价格的问题:一般按f12后登录界面,我们可以看到cookie,然后需要我们仔细的查找有user等开头的,一般这种对应的就是登陆的用户名,有人会问并没有找到我输入的用户名和密码啊。这是因为可能网站对用户的用户名及密码进行了加密操作,不用担心,只需要一一对应的写到一个map集合中然后发送get或post就是得到解决。
然后再说说第二个问题,刚开始爬取的时候还蛮顺利,网站源码都能根据请求地址的变化而变化,但是当爬取多了以后,就会出现document中根据id、class、tage筛选得不到结果,检查发现我并没有写错啊,但是为什么会出现这样的问题呢?这是因为网站会有对应的加密过程,就是为了对应的反爬。那么该怎么解决呢?
下面说一下我在发现之后是怎么解决的,一般出现这种情况无非就是对应的内容随着ajax的变化变化,或者是在js渲染后展示给我们的。打开浏览器的f12, 这里的话推荐用谷歌的浏览器,确实是开发用着比较舒服,然后找到networ这个地方,然后我们刷新一下页面,会发现有很多很多的响应,有css、js、html等等吧,首先要判断是ajax还是js,我们找到XHR这个地方,这个的意思是选出ajax,
在这里插入图片描述
然后以我下面截取的图片为例,找到是get还是post方法,再去响应里面找一下有没有我们想要获取的数据,有的话就是这条,然后在点请求,找到他的url,这就是它真正的请求地址,然后呢就像以前以后,只不过这种情况就需要把请求头响应头啊什么的写全了,都写到map中,一一对应,这样在发送get、post就可以得到想要的数据了。

二.当idea运行有main方法的程序时出现找不到主类或方法错误时
可能是因为缓存问题,这时候需要点击file
在这里插入图片描述
找到invalidate caches/restart
在这里插入图片描述
点击invalidate and restart就会重新加载项目,问题解决。

三.Maven的使用
在实际开发中,讲一下常用的maven命令。在安装好maven后,安装maven的过程看一下下面的链接。
链接: maven的安装及在idea中配置.

配置好maven后点击会出现如下的窗口,spaider是你所写项目的名字,lifecycle是maven的生命周期,clean是清楚所编译以及打包的内容,清空。compile的作用是编译项目。package的作用呢,是将项目打包,分为jar包和war包。jar包是将Java项目打成包,而war包是将web项目打成包,基本就是传服务器啊或者怎么样。install的作用是将项目打包并发送到本地仓库中,也就是maven的本地仓库。有空的时候我在写一下maven仓库和web项目这些内容。
在这里插入图片描述
四.公司服务器
之前在学习的时候,使用的是虚拟机,自己搭建Linux,类似于模拟服务器。但是现在上班,那天写完的代码要放到服务器上跑,我是一脸的懵逼。真的是说啥都不知道贼尴尬 哈哈哈哈。闹了不少笑话。我们公司用的是阿里的云服务器,使用xshell进行连接。写好的代码不是打包然后放到服务器上用java -jar 进行运行,而是使用jenkins打包上传服务器自动运行的。我刚去没用过傻乎乎的真的是啥也不知道。大家的话可以了解一下,下面的链接就是介绍。
jenkins介绍.

其实还有很多问题,就是平时没时间顾不上写,只能抽空写写。忘掉的我下周再补上,我也会坚持写下去的,记录自己的工作。

2020.8.16

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值