自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 boss爬虫连淦6小时-webmagic+selenium实现

说一下自己的需求,该找工作了,那么就要做好充足的准备,先把市面上能找到的工作都收集好,看看那个适合自己把.爬了很多坑,首先webmagic框架的爬虫监控不是特别友好,如果想实时监管,需要改源码之类的,这种扩展太麻烦了,毕竟不是爬虫工程师…其次,动态页面的数据,解密起来挺费劲,需要使用postman来查找api,想想还是太麻烦,我们还是先实现在优化把1.最好用maven的springboot来搞,因为他自带sljf,是这么叫吗?我自己单独配了半天它的依赖还是看不了状态,放到springboot上一跑,果

2020-12-29 23:34:37 802

原创 宝塔部署java项目建站最全爬坑博客-为啥叫最全,因为我爬的坑最多

1.首先你要有阿里云+域名,然后在阿里云上解析A类你的域名,这就不多说了2.进入宝塔面板后,你要先安装环境,最好是编译安装,因为求稳,急速安装不稳定,但是像tomcat这类app程序没有编译安装哦环境如果都安装好了,那么我们就开始配置项目了首先,要看我们需要运行的项目是什么,我装配的是ssm项目,这个只是看个人兴趣爱好,对springboot的thymelf不太感冒,还是用jsp用的习惯,当然springboot部署起来比ssm简单多了,java -jar 你的jar包.jar (如果有分离打包

2020-12-28 17:00:52 317

原创 MyBatis初识

MyBatis概述:Mybatis是持久层框架,支持sql,储存过程以及高级映射避免了大部分jdbc代码,和手动设置参数以及获取结果集可以使用简单的xml或者注解来配置映射,接口和java的实体类Mybatis有两种方法,一个是注解,一个是xml注解:使用注解方便一些,不需要xml配置文件,看上去好看,但是sql语句和代码在一起,很混乱,简单代码可以放,但是很长的代码放进去很难维护Xml:把slq放在xml文件中,java代码中会感觉干净一些,并且使用xml的形式,写一些复杂的sql数据会方便

2020-12-28 15:29:37 70

原创 Hbase初识

Hbase总结是什么产生原因:主观原因 :Hadoop的mapreduce/hdfs/hive等适合做批量数据处理,且只能以顺序方式访问数据.客观原因:现实开发场景中,经常需要海量数据场景的实时数据随机访问的需求,Hadoop作为大数据的承载和计算平台应该满足Hbase概述Hadoop database的简称Hbase是一个数据模型,属于hadoop生态系统的一部分,提供对海量数据的随机实时访问,读写构建在hadoop的hdfs纸上,分布式面向列的数据库参考谷歌的bigtable数据库设

2020-12-28 10:49:36 58

原创 伪分布式Ubuntu系统搭建Hadoop-hive 2.7.4

系统环境Ubuntu 16.04Hadoop 2.7.4Java 1.8.0_111hadoop集群master:192.168.19.128MySQL安装在master机器上,hive服务器也安装在master上hive版本: https://mirrors.cnnic.cn/apache/hive/hive-2.3.0/apache-hive-2.3.0-bin.tar.gz2.mysql安装本文使用MySQL作为远程元数据库,部署在master节点上2.1安装mysql安装m.

2020-12-28 00:29:17 210

原创 kafka初识

Kafka总结是什么由java和scala语言编写的,基于hadoop架构,一种高吞吐量,分布式,支持partition分区,多副本replica,基于zookeeper协调的发布订阅消息系统(Message Queue)特点稳定性高:通过o(1)的磁盘数据结构提供消息的持久化,这种结果对于即时数以TB的消息储存也能够保持长时间的稳定性能高吞吐量,低延迟即时是非常普通的硬件kafka也可以支持每秒数百万的消息延迟最低只有几毫秒高并发支持数千个客户端同时读写容错性高消息的负载

2020-12-26 12:51:11 113 1

原创 永远年轻,永远热泪盈眶

2020年一整年,经历了人生最黑暗的时光,好在爬了出来.疫情过去,大学毕业.从6月13号来到石家庄到22号上课经历了一轮又一轮的事情,嗯,也扛过来了.生活刚刚步入正轨一个月,很突然的被通知要做手术.生活的节奏又被打乱了,哎.下了手术台满嘴是血,不知道是怎么走到病床上的.疼的厉害,想抱抱我妈,我妈却跟其他床的人在一起聊天,我就只能一个人默默在床上吐血.等她走过来问我怎么样了,我一把把她推开了,我能看到我妈的眼睛里充满了难过和不解.自己还是不懂事,不知道不善交流的父母不会拒绝他人.自己的儿子躺在床上,哪里还有心

2020-12-26 10:37:15 269 1

原创 Springboot基本概念和CDN概念

springboot是什么: 微服务,将spring服务封装到框架中,默认大于配置,众多配置用户不必手动设置,即为默认.面对中小型项目可迅速提高开发效率spring的应用场景:数据交互:将后端的数据展示给前端的一个链接属性后端框架springBoot常用注解以及含义: springbootApplication:spring入口启动类,控制spring的底层容器Application componentScan:标注启动类控制的目标目录,也就是服务启动时,初始化那些class的bean co

2020-12-24 09:28:42 574

原创 线程安全详解

概念:什么是线程间的可见性?一个线程对共享变量值的修改,能够及时的被其他线程看到什么是共享变量?如果一个变量在多个线程的工作内存中都存在副本,那么这几个副本就是这几个线程的共享变量什么是Java内存模型(Java Memory Model)jmm描述了java程序中各种变量(线程共享变量)的访问规则,以及在巨魔中将变量储存到内存和从内存中读取出变量这样的底层细节规则1:所有变量都储存在主内存中每个线程都有自己的独立的工作内存,里面保存该线程使用到的变量的副本(主内存中该变量的的一份拷贝)

2020-12-22 20:21:10 107

原创 JAVA单例模式_通俗易懂详解

1.懒汉模式私有化属性,类外不可访问,静态属性,类外直接访问,类内直接访问静态成员class A{private A(){}private static A a=null;public static A getInsatance(){if(a==null){a=new A();}return a}}2.恶汉模式class A{private A(){}private static A a= new A();public static A getInstance(){retu

2020-12-22 16:24:14 137

原创 约瑟夫问题Java标准实现

import java.util.ArrayList;import java.util.Collections;import java.util.List;import java.util.Random;public class Test {public static void main(String[] args) { long startTime = System.currentTimeMillis(); // 数据准备 List<Integer> nums =.

2020-12-21 13:08:46 163

原创 HashMap&HashSet底层实现原理探究

1.1HashMap底层实现HashMap底层是数组加链表的形式实现,根据K的hashcode找到数组的下标,然后将元素添加到链表中,在这里需要注意一点,hashmap底层数组的长度永远是2的次幂,Hash值的取值范围是-2147483648-2147483647,只要保证足够松散,那么就会降低哈希冲突,那么,40亿的取值范围太大,内存放不下的,需要做单独的优化,那么这个算法是什么,就是对数组长度%求模,取余数获得数组下标,但是计算机的求模效率很低,&的效率是最高的,那么这个公式就是这样:has

2020-12-21 12:25:58 351

原创 HIVE中ORC和RC两种文件格式的大小比较

首先,ORC和RC基本一致,是使用行列式存储有数据结构的数据因为每列按照字段属性存储,那么按列储存时存在相同内容的概率是是在正态分布中趋于最大值,而按照行存储,每行出现相同内容的概率是趋于离散的那么按行压缩,就会极大提高效率,口说无凭,来看实例INFO : OK±---------------------------------------------------+| createtab_stmt |±---------

2020-12-21 12:22:31 845

原创 UBANTU修改休眠模式

设置不休眠这里需要一个组合刍,Ctrl – Alt – T 组合键用来打开终端;然后运行下面的命令打开 logind.conf 文件,你的所有修改都在这个文件内。sudo gedit /etc/systemd/logind.conf打开文件后修改下面这行:#HandleLidSwitch=suspend改成这样:HandleLidSwitch=ignore保存文件,重启 Login Manager 服务:sudo restart systemd-logindUbuntu系统不睡眠设置完成,配置文

2020-12-21 12:05:11 209

原创 Linux遇到一些难以解决的问题的时候的解决方式

command & : 后台运行,你关掉终端会停止运行nohup command & : 后台运行,你关掉终端也会继续运行ps -ef | grep procedure_name | grep -v grep | awk ‘{print $2}’ | xargs kill -9kill -9杀进程nodpad++解决换行符’\r’不识别问题当你用shell写hive的脚本的时候,千万别用nodpad++,哪怕它自带shell模式,但是他还是有各种不可知错误,比如字符模式复制过去后v

2020-12-21 12:02:52 128

原创 GitHub&GitLab常用命令总结

git add 提交本间到缓存区git commit -m “备注”提交文件到本地库git status 查看版本库状态git diff 查看工作区与暂存区的区别,也就是当前未提交的改动和缓存区之间的区别git diff --catched 查看缓存区与版本库区别git diff HEAD 查看工作区改动与版本库(本地仓库)中的区别和改动git diff 版本号 版本号 比较两个版本之间的差异git log 查看全部日志git reflog 查看抽象日志,提供简洁版本号git

2020-12-21 11:58:57 270

原创 Hive数据分析常用命令总结

用chmod 755命令解决./运行shell脚本问题show partitions weibo_origin;alter table weibo_origin drop partition(day_seq=‘20120103’);删除分区,展示分区,创建分区,create表数据构成元数据:metadata,描述数据的数,表结构.实体数据:entity dataHive内表和外表的区别和联系联系:元数据归Hive管理区别:内标的实体数据也归hive管理,只要删除表,则实体数据跟随一起删除

2020-12-09 10:11:12 197

原创 OLAP常用命令总结

分析函数、窗口函数、Over从句分析函数:ntile() :数据分片,100条数据,切成10片,自动平均配平序列数量row_number: 先查询排列在前的进行排序,依次进行,列相同比较下一位,可以用作分页,数据有规律rank():排序1,2,2,4,4,6dense_rank():1,2,3,3,4窗口函数lag(col,n,default):第一个参数是列名,第二个参数是往上第几行,默认为1,第三个参数为默认值,往上第n行为null时,取默认值,不指定,为nulllead(col,n,

2020-12-09 10:10:32 174

原创 Linux常用命令总结

cd 移动mkdir 创建文件夹rm -r 删除指定/递归删除,不带/是相对定位touch 创建文件echo “xxx” >>xxxx 插入文件find 当前目录下找文件cp 复制 cp xxx /xxx/xx/xmv 移动 mv xxx.text /sad/adcat 查看文件 cat sss.textvim 编辑文件 wq退出head 查看文件从头开始第几行tail 查看文件从尾开始第几行cp 本地传输scp 远程传输scp 文件名[] 机器名:

2020-12-08 12:34:06 75

原创 Ajax排错常见思路与总结

1.ajaxpost请求只对应servlet中的dopost方法,即使request.getparemeter2.排错思路-看结果,定位到哪一行代码,哪一个方法3.确定错误发生在哪里后,创建一个非常简单的demo进行测试4.与ajax排错相关的就是状态码,如果方法调用前没有问题,但是执行之后返回的结果有问题,那么需要看参数在传递过程中发生了什么.-network查看状态码404-url错误405-方法错误,服务器内部不允许此方法500-服务器servlet内部逻辑错误 response.set

2020-12-05 11:14:01 176

原创 Java学习习惯总结与建议分享

学习系统前言-昨天复习了一下java的知识,发现之前学的比如短路与,和与,短路或和或的区别,自己之前并不知道.本以为自己知识掌握的还可以,但是却发现其实差的很多,这一点半点的差距并不能只靠报错和不熟悉的知识点复习来解决,而是系统性的调整着手1.复习首先学习最重要的是复习每天最少需要2个小时的完整时间复习之前的基础知识半个小时复习以前不熟悉的知识点另外一个小时系统性复习之前讲过的知识最后半个小时复习当天讲的和昨天讲的知识效果还没有确定,但是先进行一周的尝试,看看效果如何2.态度其次是自己决

2020-12-05 11:13:28 196 2

原创 生干六个小时 TVT 微博舆情ETL数据分析详解,手把手教你HSQL分析数据

接上一篇ETL流程化处理数据,本篇基于ETL生成的数据进行清洗和分析…清洗不太会,没有洗衣粉,将就看HSQL吧,主要是开窗函数和优先级之间的关系,剩下的就是语法,就是干…MD数据格式请看上一篇两个表 一个是use用户信息表,一个是content评论表,两个维度表Table格式在这里这个是Content表,words字段是评论区的内容,大部分都是以@分割的评论或转发内容,lotime字段是时间,其他字段不重要,city和location一个是评论数一个是转发数,这里是谁不重要,只是映射关键是技术的掌

2020-12-05 00:44:26 537

原创 菜鸟初探ETL全流程-Jar源码+shell自动化脚本实现Hadoop分布式自动化部署到Hive中

ETL流程ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。数据源:微博评论数据数据格式Contont数据格式颈椎肩周保健操 http://t.cn/a96LQZ (分享自 @56网)2012-4-5 21:53:5430颈椎保健操完整演示 http://t.cn/hbDyeB (分享自 @56网)2012-4-5 21:51:5131htt

2020-12-03 15:11:51 730

原创 Servlet初学常见错误总结

webapps是根目录webapps只能存放根目录文件夹,不能存放单个文件namesapce是别名…forward:一次转跳,request,response都在一次生命周期中,页面内容不转挑如果是相对路径, 怎么写都不影响.绝对定位定位到当前项目名redirect:声明周期在request域中,请求一次就结束,重新定向时,request调用两次,数据不能传递拦截器只负责拦截交警查酒驾只查你是否酒驾不管你是谁,谁在开车车多少钱常见错误 4041.xml映射错误,不能找到java包名2

2020-12-02 01:13:04 156

原创 Servlet生命周期对int的理解

init的有参和无参底层设计模式:容器创建了Servlet实例后,它将调用实例的init(ServletConfig)方法初始化Servlet。该方法的参数ServletConfig对象包含了在Web应用程序的部署描述文件中指定的初始化参数。在init(ServletConfig)方法调用后,容器将调用无参数的init()方法,之后Servlet就被初始化了。重复初始化一个对象是没有意义的,因此在Servlet生命周期中init()方法仅被调用一次。有时,可以在容器启动时不对Servlet初始化,而是当

2020-12-02 01:10:45 231

原创 Java反射常用知识点总结

1.如何获得运行时类 1 把类载入到内存中 // 通过类全名的字符串获取 Class class1 = Class.forName("java.lang.Integer"); // 2 class是每个类都有的属性 // 通过class属性获取 Class class2 = Integer.class; // 3 getClass()是Object中的方法,所以每个对象都有 // 通过getClass()方法获取 Integer i1 = new Integer(11); Clas

2020-12-02 01:09:15 100

原创 类与类之间的关系

类与类之间的关系继承:单继承实现:多实现依赖:一个类的局部变量是另一个类的引用关联:一个类的成员变量是另外一个类对象的引用聚合:由很多零件组成的类,拆散之后不能运行组合:很多子类聚合成一个类,拆散后各自可以正常运行互补依赖...

2020-12-02 01:07:21 52

原创 SpringBoot整合mybatise-看着篇就对了,其他的都是骗人的!初学爬坑指南

步骤1.导入依赖<!-- mysql --> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> </dependency> <dependency> <groupId>org.springframework.bo

2020-12-02 01:06:12 100

原创 Lazy-Init懒加载总结

1.servelt的 init 持加载: 无参构造:在容器启动的时候对servlet进行初始化,调用init方法,且只调用一次有参构造:在容器启动的时候不对servlet进行初始化,对该servlet第一次请求的时候才进行初始化init方法调用2.spring 的bean xml解析迟加载:Spring默认会在容器初始化的过程中,解析xml或者注解,创建配置为单例模式的bean,并保存到一个map中面对大量bean对象创建的时候,使用懒加载机制,就是说规定bean不在启动的时候立即创建,而是在第一

2020-12-02 01:02:51 646

原创 编程思维-菜鸟对九个主要设计模式的总结

设计模式1.工厂模式目的:将用户与产品内部分离,不再直接创建实例对象,而是调用方法创建对象.同时,不关注创建过程而关注结果.这样,如果需要扩展功能的时候,只需要修改对象的实现类中的构造方法,和factory工厂中return的对象类型,就能改变整个项目中的对象属性.面对复杂性高的对象时更加方便,而简单对象没有必要使用这种模式高内聚性2抽象工厂模式首先创建接口,并且面对接口实现多个类目的分析:面对接口编程,可以对以后的扩展更友善,而不是写死的硬代码为两个拥有实现类的接口创建抽象

2020-12-02 00:56:39 211

原创 Java从入门到放弃-第一章:Java是什么

如何阅读本书本书希望适合所有人阅读学习,所以每个章节分为三个部分:入门,熟练,精进.因为本人学习的时候发现每次在学一遍Java都感觉之前没学过一样的感觉,所以希望通过这种方式,来适应各个阶段的程序猿~Java是什么入门1.1Java是如何诞生的首先相信就算是零基础的入门者,也大概知道电脑,计算机,程序大概是个什么东西了.那么我们来聊聊Java是什么.20世纪90年代,硬件领域出现了单片式计算机系统,这种价格低廉的系统一出现就立即引起了自动控制领域人员的注意,因为使用它可以大幅度提升消费类电子产

2020-12-02 00:36:08 227

原创 Java从入门到放弃-序言

Java从入门到放弃前言本人希望由浅及深的探讨java的底层原理,和编程思想,与大家一起学习提升对程序语言的认知.由于自己是理工科出身,所以对底层原理往往非常感兴趣.那么就跟我一起学习Java吧.我会将JavaSE拆分成每个章节进行讲解,让初学者入门,让入门者’’精尽’’.那么我们的从入门到放弃就正式开始了.Java概述那么我们要学习一个自己陌生的东西的时候,首先要对其有一个客观认识,否则会很难接受晦涩难懂的信息.自从冷战结束,人类进入信息时代以来,计算机是用来服务于人类的,那么CPU的底层原理大

2020-12-02 00:30:08 273

._SUCCESS.crc

一个6w用户的一个小样本的

2021-05-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除