![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
http
文章平均质量分 66
yzhSWJ
一个爱小猪的程序员
展开
-
SpringBoot配置Https (ssl证书)
生成证书配置文件springboot的http80端口重定向至https443端口@Configurationpublic HttpConfig { @Bean public TomcatServletWebServerFactory servletContainer() { //springboot2 新变化 TomcatServletWebServerFactory tomcat = new TomcatServletWebServerFactory() { .原创 2021-01-31 12:51:48 · 572 阅读 · 0 评论 -
网络安全
https://blog.csdn.net/weixin_43252204/article/details/105338224原创 2021-01-28 21:39:22 · 100 阅读 · 0 评论 -
爬虫HttpClient 一
1.hello world环境准备JDK1.8IntelliJ IDEADEA自带的Maven1.1 导入 pom.xml<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient --> <!-- HttpClient --> <dependency>原创 2021-01-13 13:45:04 · 235 阅读 · 0 评论 -
Java爬虫系列(五) - 爬虫补充内容+ElasticSearch展示数据
Java爬虫内容补充和ElasticSearch网页去重之前我们对下载的url地址进行了去重操作,避免同样的url下载多次。其实不光url需要去重,我们对下载的内容也需要去重。在网上我们可以找到许多内容相似的文章。但是实际我们只需要其中一个即可,同样的内容没有必要下载多次,那么如何进行去重就需要进行处理了去重方案介绍指纹码对比最常见的去重方案是生成文档的指纹门。例如对一篇文章进行MD5加密生成一个字符串,我们可以认为这是文章的指纹码,再和其他的文章指纹码对比,一致则说明文章重复。但是这种方式是原创 2021-01-14 11:30:21 · 414 阅读 · 0 评论 -
java爬虫系列(四) - WebMagic案例
知识补充但是在这里有个问题:在解析页面的时候,很可能会解析出相同的url地址(例如商品标题和商品图片超链接,而且url一样),如果不进行处理,同样的url会解析处理多次,浪费资源。所以我们需要有一个url去重的功能1. Scheduler组件WebMagic提供了Scheduler可以帮助我们解决以上问题。Scheduler是WebMagic中进行URL管理的组件。一般来说,Scheduler包括两个作用:对待抓取的URL队列进行管理。对已抓取的URL进行去重。WebM原创 2021-01-13 22:42:27 · 665 阅读 · 1 评论 -
java爬虫系列(三) - WebMagic
WebMagic入门1. WebMagic简介核心部分是一个精简的, 模块化的爬虫实现, 而扩展部分则包括一些遍历的, 使用性的功能设计目标是尽量的模块化, 并体现爬虫的功能特点, 这部分提供非常简单, 灵活的API, 在基本不改变开发模式的情况下, 编写一个爬虫扩展部分提供一些便捷的功能, 例如注解模式编写爬虫等, 同时内置了一些常用的组件, 便于爬虫开发架构WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spid原创 2021-01-13 17:35:14 · 269 阅读 · 1 评论 -
httpClint 爬虫案例二
抓取部分京东手机信息案例1. 环境搭建导入数据库// 创建crawler数据库, 再创建表CREATE TABLE `jd_item` ( `id` bigint(10) NOT NULL AUTO_INCREMENT COMMENT '主键id', `spu` bigint(15) DEFAULT NULL COMMENT '商品集合id', `sku` bigint(15) DEFAULT NULL COMMENT '商品最小品类单元id', `title` varchar(10原创 2021-01-13 15:12:31 · 257 阅读 · 1 评论 -
org.springframework.http
1.org.springframework.http.MediaType 浏览器媒介原创 2020-12-04 13:57:12 · 1845 阅读 · 0 评论 -
http协议
Content-Type查看对应编码 中文开源注意:只有字符需要编码,charset=utf-8图片不需要编码原创 2020-11-03 10:30:56 · 194 阅读 · 0 评论