you4580
码龄11年
关注
提问 私信
  • 博客:137,651
    社区:12
    问答:1,039
    138,702
    总访问量
  • 156
    原创
  • 16,372
    排名
  • 391
    粉丝
  • 3
    铁粉

个人简介:越努力越幸运

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2014-04-28
博客简介:

you4580的专栏

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    332
    当月
    28
个人成就
  • 获得524次点赞
  • 内容获得26次评论
  • 获得708次收藏
  • 代码片获得671次分享
创作历程
  • 7篇
    2025年
  • 19篇
    2024年
  • 71篇
    2023年
  • 32篇
    2022年
  • 8篇
    2021年
  • 5篇
    2020年
  • 4篇
    2019年
  • 1篇
    2018年
  • 1篇
    2016年
  • 18篇
    2015年
成就勋章
兴趣领域 设置
  • Java
    javajava-eespring bootspring cloud
  • 移动开发
    android studio
  • 软件工程
    性能优化
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

CentOS 7的下载与安装

磁盘大小默认即可,初期学习够用立即分配所有空间为选择性勾选,看自己存储为单文件会提高一些性能。
原创
发布博客 2025.03.07 ·
1713 阅读 ·
17 点赞 ·
0 评论 ·
14 收藏

Docker

在计算机中,虚拟化(英语:Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部份是不受现有资源的架设方式,地域或物理组态所限制。一般所指的虚拟化资源包括计算能力和资料存储。
原创
发布博客 2025.03.05 ·
1133 阅读 ·
22 点赞 ·
0 评论 ·
30 收藏

day03-网络爬虫

指纹码对比最常见的去重方案是生成文档的指纹门。例如对一篇文章进行MD5加密生成一个字符串,我们可以认为这是文章的指纹码,再和其他的文章指纹码对比,一致则说明文章重复。但是这种方式是完全一致则是重复的,如果文章只是多了几个标点符号,那仍旧被认为是重复的,这种方式并不合理。这种方式就是我们之前对url进行去重的方式,使用在这里的话,也是对文章进行计算得到一个数,再进行对比,缺点和方法1是一样的,如果只有一点点不一样,也会认为不重复,这种方式不合理。KMP算法KMP算法是一种改进的字符串匹配算法。
原创
发布博客 2025.02.27 ·
931 阅读 ·
17 点赞 ·
0 评论 ·
9 收藏

使用WebMagic爬取51job上的招聘信息

可以看到,Pipeline其实就是将PageProcessor抽取的结果,继续进行了处理的,其实在Pipeline中完成的功能,你基本上也可以直接在PageProcessor实现,那么为什么会有Pipeline?在WebMagic中,Pileline是抽取结束后,进行处理的部分,它主要用于抽取结果的保存,也可以定制Pileline可以实现一些通用的功能。在解析页面的时候,很可能会解析出相同的url地址(例如商品标题和商品图片超链接,而且url一样),如果不进行处理,同样的url会解析处理多次,浪费资源。
原创
发布博客 2025.02.11 ·
727 阅读 ·
29 点赞 ·
0 评论 ·
13 收藏

WebMagic

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy,但是实现方式更Java化一些。而Spider则将这几个组件组织起来,让它们可以互相交互,流程化的执行,可以认为Spider是一个大的容器,它也是WebMagic逻辑的核心。
原创
发布博客 2025.02.05 ·
1253 阅读 ·
16 点赞 ·
0 评论 ·
17 收藏

Jsoup

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下:1.从一个URL,文件或字符串中解析HTML;2.使用DOM或CSS选择器来查找、取出数据;3.可操作HTML元素、属性、文本;--Jsoup-->--测试-->--工具-->tagname: 通过标签查找元素,比如:span。
原创
发布博客 2025.02.05 ·
964 阅读 ·
25 点赞 ·
0 评论 ·
30 收藏

Java网络爬虫

网络(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本创建Maven工程itcast-crawler-first并给pom.加入依赖加入log4j.properties网络爬虫就是用程序帮助我们访问网络上的资源,我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用同样的HTTP协议访问网页。这里我们使用Java的HTTP协议客户端 HttpClient这个技术,来实现抓取网页数据。
原创
发布博客 2025.02.05 ·
1707 阅读 ·
25 点赞 ·
0 评论 ·
20 收藏

无法获取 org.hibernate.persister.entity.SingleTableEntityPersister 的构造函数

无法获取 org.hibernate.persister.entity.SingleTableEntityPersister 的构造函数。从jdk10升级到jdk11的时候遇到这个错误。
原创
发布博客 2024.12.25 ·
117 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

SpringBoot 实战

你会发现日志中只有这些打印信息,SpringMVC 的日志信息都没有,因为 SpringMVC 记录的 log 级别是 debug,SpringBoot 默认是显示 info 以上,我们需要修改日志级别。只要静态资源放在这些目录中任何一个,SpringMVC都会帮我们处理,我们习惯会把静态资源放在 classpath:/static/ 目录下。现在,我们的项目是一个 jar 工程,那么就没有 webapp,我们的静态资源该放哪里呢?我们在引入 web 的启动器时,就已经引入事务相关的依赖及默认配置了。
原创
发布博客 2024.12.24 ·
893 阅读 ·
22 点赞 ·
0 评论 ·
29 收藏

SpringBoot 入门

SpringBoot 被称为搭建程序的 “脚手架”。其最主要作用就是帮我们快速的构建庞大的 Spring 项目,并且尽可能的减少一切 xml 配置,让我们关注于业务而非配置文件。前面说到了 SpringBoot 主要解决了以下两点问题,现在再来看看 SpringBoot 是怎样解决两点问题的:复杂的配置SpringBoot 采用默认配置,我们也可以在 application.properties 文件来覆盖这些默认属性,这样虽然使用的还是默认配置,但是配置中的值改成了我们自定义的。混乱的依赖管理。
原创
发布博客 2024.12.12 ·
808 阅读 ·
12 点赞 ·
0 评论 ·
19 收藏

Spring占地备用三

Spring占地备用三。
原创
发布博客 2024.12.12 ·
97 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Spring占地备用二

Spring占地备用二。
原创
发布博客 2024.12.12 ·
101 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Spring占地备用一

Spring占地备用一。
原创
发布博客 2024.12.12 ·
97 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

SpringDataJPA(三):多表操作,复杂查询

在实际开发中,我们数据库的表难免会有相互的关联关系,在操作表的时候就有可能会涉及到多张表的操作。有时我们在查询某个实体的时候,给定的条件是不固定的,这时就需要动态构建相应的查询语句,在Spring Data JPA中可以通过JpaSpecificationExecutor接口查询。多对多关系中:用中间表(第三章表)来描述这种关系,中间表中至少应该由两个字段组成,这两个字段作为外键指向两张表的主键,且这两个字段又组成了联合主键。在一对多关系中,我们习惯把一的一方称之为主表,把多的一方称之为从表。
原创
发布博客 2024.07.29 ·
2976 阅读 ·
18 点赞 ·
0 评论 ·
23 收藏

SpringDataJPA(二):SpringDataJPA的运行原理以及基本操作

Spring Data JPA 是 Spring 基于 ORM 框架、JPA 规范的基础上封装的一套JPA应用框架,可使开发者用极简的代码即可实现对数据库的访问和操作。它提供了包括增删改查等在内的常用功能,且易于扩展!学习并使用 Spring Data JPA 可以极大提高开发效率!
原创
发布博客 2024.07.29 ·
992 阅读 ·
19 点赞 ·
0 评论 ·
10 收藏

SpringDataJPA(一):ORM思想和hibernate以及JPA的概述和基本操作

ORM(Object-Relational Mapping) 表示对象关系映射。在面向对象的软件开发中,通过ORM就可以把对象映射到关系型数据库中。只要有一套程序能够做到建立对象与数据库的关联,操作对象就可以直接操作数据库数据,就可以说这套程序实现了ORM对象关系映射。简单的说:ORM就是建立实体类和数据库表之间的关系,从而达到操作实体类就相当于操作数据库表的目的。
原创
发布博客 2024.07.29 ·
1000 阅读 ·
28 点赞 ·
0 评论 ·
27 收藏

ElasticSearch第二天

在进行关键字搜索时,搜索出的内容中的关键字会显示不同的颜色,称之为高亮百度搜索关键字"传智播客"[外链图片转存失败(img-B0FtGppk-1562473884413)(image/14.png)]京东商城搜索"笔记本"Spring Data是一个用于简化数据库访问,并支持云服务的开源框架。其主要目标是使得对数据的访问变得方便快捷,并支持map-reduce框架和云计算数据服务。Spring Data可以极大的简化JPA的写法,可以在几乎不用写实现的情况下,实现对数据的访问和操作。
原创
发布博客 2024.07.10 ·
818 阅读 ·
12 点赞 ·
0 评论 ·
23 收藏

ElasticSearch第一天

Elasticsearch,简称为es, es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。es也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。Elasticsearch是面向文档(document oriented)的,这意味着它可以存储整个对象或文档(document)。
原创
发布博客 2024.07.08 ·
1093 阅读 ·
8 点赞 ·
0 评论 ·
14 收藏

全文检索功能(Lucene)

Lucene是一个基于java开发全文检索工具包,提供了查询引擎和索引引擎如何实现全文检索:可以使用Lucene实现全文检索。Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能。
原创
发布博客 2024.07.04 ·
2015 阅读 ·
17 点赞 ·
0 评论 ·
14 收藏

Redis

NoSQL,泛指非关系型的数据库,NoSQL即Not-Only SQL,它可以作为关系型数据库的良好补充。随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,例如:(1)High performance - 对数据库高并发读写的需求。
原创
发布博客 2024.03.22 ·
1328 阅读 ·
17 点赞 ·
0 评论 ·
16 收藏
加载更多