- 博客(206)
- 资源 (6)
- 收藏
- 关注
原创 Tomcat
1、Tomcat是什么Tomcat是一个应用服务器,比方说,我有个web项目是想让他运行,就可以在运行在tomcat平台上,如果开启就可以运行访问,如果停掉tomcat服务,那么无法访问了2、Tomcat的默认端口是多少,怎么修改?8080修改方式:(1)找到Tomcat目录下的conf文件夹(2)进入conf文件夹里面找到server.xml文件(3)打开...
2020-01-28 12:18:58
497
转载 人工智能十年回顾
在过去的十年中AI快速增长的两个主要原因是:1)数据 -借助Internet和IoT设备,生成的数据量呈指数增长。2)计算 -解决了我们在过去几十年中遇到的数据处理障碍,这反过来又增强了人工智能的能力。许多公司已经开始为训练深度学习模型创建专门的硬件。2010年ImageNet竞赛ImageNet大规模视觉识别挑战(ILSVRC)评估应用于大规模对象检测和图像分类的算法。这是迄...
2020-01-01 19:46:01
832
转载 Shell脚本结合Hive自动分析日志信息
Nginx的日志信息很多都是用时间进行区分的,比如下面的日志信息可以按照这样的数据建立分区表:二级分区表建立数据库创建数据表create table load_dynamic_table (id string,url string,referer string,keyword string,type string,guid string...
2019-12-23 19:22:03
326
1
原创 银行数据架构体系
数据架构层面通过数据分类、分层部署等手段,从非功能性视角将数据合理布局。通过整体架构管控和设计,支持业务操作类和管理分析类应用(系统),满足业务发展及IT转型对数据的需求,架构的扩展性和适应性能够提升数据分析应用的及时性、灵活性和准确性。那实际情况下各个银行的数据架构体系会有所不同,根据各行的业务发展、客户数据量、交易数据量、功能需求等会有不同的演变路径以及发展方向。一般国有银行、股份制银行等...
2019-12-22 11:43:48
3913
转载 Apache Spark和Apache Flink的区别
Apache Spark和Apache Flink的区别Apache Spark是Apache软件基金会开发的开源集群计算框架。Apache Spark非常快,可以用于大规模数据处理。它是大数据技术领域现有大型数据处理工具的替代。Apache Flink是一个开源框架,用于数据流应用程序的流处理,在分布式应用程序中具有高可用性、高性能、稳定性和准确性。Apache Flink在流引擎...
2019-12-21 13:28:45
464
原创 “黑客”常用的工具软件
一、Web方向1.Chrome 和 FireFox 浏览器插件这几本算得上是每个人电脑的标配了,无需单独安装,配合其强大的插件功能及F12调试功能,玩好了也是很666的,当然,如果你说你只用IE,那么请忽略我的回答。2.BurpsuiteHTTP 抓包改包工具3.SqlmapSQL注入最厉害的工具,找到一个SQL注入漏洞后就用这个注数据。4.Nmap,最经典最强大的...
2019-12-21 13:27:51
12264
原创 Hive 和 Impala的比较
Hive 和 Impala的异同Hive是一个建立在APACHE HADOOP之上的数据仓库软件项目,由Jeff在Facebook的团队开发,目前已经发布了2.3.0的稳定版本。它被用于总结大数据,使查询和分析变得容易。Apache Hive是SQL-in Hadoop的有效标准。Impala是一个运行在Apache Hadoop上的并行处理SQL查询引擎,用于处理存储在HBase (Hado...
2019-12-21 12:00:36
6125
1
原创 Docker 基础
什么是DockerDocker 使用 Google 公司推出的 Go 语言 进行开发实现,基于 Linux 内核的 cgroup,namespace,以及 AUFS 类的 Union FS 等技术,对进程进行封装隔离,属于 操作系统层面的虚拟化技术。由于隔离的进程独立于宿主和其它的隔离的进程,因此也称其为容器。Docker 在容器的基础上,进行了进一步的封装,从文件系统、网络互联到进程隔离...
2019-12-21 11:59:28
200
转载 sqoop的使用之导入到hive和mysql
先登录hive在hive中操作,创建数据库:create database frommysql;创建表创建表create table importhive_info(num int,name string)row format delimited fields terminated by "\t";数据也有了执行语...
2019-12-21 11:57:51
220
原创 Zookeeper的介绍
高并发分布式开发技术体系已然非常的庞大,从国内互联网企业使用情况,可发现RPC、Dubbo、ZK是最基础的技能要求。关于Zookeeper你是不是还停留在Dubbo注册中心的印象中呢?还有它的工作原理呢?经典应用场景呢?对前面三个问题,如若回答时没有自己的思路或者说并未了解,那么我觉得我可以帮助到你去入门,并深化这些知识,让你在面试中更好地去回答。话不多说进入正题1. 并发环境下面临的挑战...
2019-12-21 11:52:44
219
原创 Shell脚本按天分隔日志文件(nginx)
#!/bin/bash#Date:10:202019-12-20#Author:CreatedbyLynn#Email:202140177@qq.com#Description:Cuttingnginxlogfiles#Version:1.0#定义nginx日志路径Log_path="/usr/local/nginx/logs/"#定义时间为昨天Yesterday=`date-d"y...
2019-12-21 11:49:52
577
转载 nginx介绍
什么是反向代理与负载均衡什么是反向代理当我们有一个服务器集群,并且服务器集群中的每台服务器的内容一样的时候,同样我们要直接从个人电脑访问到服务器集群服务器的时候无法访问,必须通过第三方服务器才能访问集群这个时候,我们通过第三方服务器访问服务器集群的内容,但是我们并不知道是哪一台服务器提供的内容,此种代理方式称为反向代理什么是负载均衡公司会建立很多的服务器,这些服务器组成了服务器...
2019-12-17 14:56:00
103
原创 《深度学习,统计学习,数学基础》人工智能算法工程师手册
[ 导读 ]市面上很多人工智能相关的书籍。大部分的书,面向小白,内容深度不够;小部分教材书或者科研书,内容艰深,又过于复杂。那么有没有,面向算法工程师(程序员)人群的,面向有一定数学基础、算法基础,能够快速上手写代码的人群的人工智能手册呢?有的!而且免费开源,非常有程序员范!《AI算法工程师手册》你值得拥有!作者Github:https://github.com/huaxz1986手...
2019-12-14 19:16:51
345
原创 sed
sed 命令是什么sed 命令表示 Stream Editor(流编辑器),用来在 Linux 上执行基本的文本操作。它可以执行各种功能,如搜索、查找、修改、插入或删除文件。此外,它也可以执行复杂的正则表达式匹配。它可用于以下目的:查找和替换匹配给定的格式的内容。 在指定行查找和替换匹配给定的格式的内容。 在所有行查找和替换匹配给定的格式的内容。 搜索并同时替换两种不同的模式...
2019-12-08 17:03:35
263
原创 awk
awk的工作模式awk是一个文本处理工具,通常用于处理数据并生成结果报告语法格式第一种形式awk 'BEGIN{}pattern{commands}END{}' file_name语法格式解释BEGIN正式处理数据之前pattern匹配模式{commands}匹配命令,可能多行END处理完所有匹配数据后执行第二种形式standard ou...
2019-12-08 17:02:41
236
原创 Redis可视化管理客户端
在之前的文章中,我曾介绍过好几个Redis的可视化管理客户端,像国产的RedisView、WebRedisManager以及一个官方收费的RedisDesktopManager,这几个不管是从颜值还是功能可能都有些差强人意,就曾有朋友在留言去吐槽过。那么因此今天就介绍两个免费开源且跨平台的Redis客户端管理工具,其中一个也是国人开发的!RedisPlus码云:https://git...
2019-12-08 11:07:31
1293
原创 Kafka安装教程
Kafka集群部署概述之前的大数据集群主要是离线处理的方式对集群的数据进行开发处理。当前的集群数据量已经达到了PB级别了,离线数据获取主要是从数仓侧进行全量或者增量的方式导入大数据平台,部分是通过SFTP的方式解析进入大数据平台,少量数据是通过接口的方式准实时接入到大数据平台。随着业务的发展,对于实时数据的接入和应用显得越来越重要了,接下来的时间会一直更新整个时间数据接入和应用的分享。...
2019-12-08 11:01:59
516
原创 22道机器学习常见面试题目
来源:机器学习算法与自然语言处理本文为你带来22道机器学习常见的面试问题和回答。1、无监督和有监督算法的区别?有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)...
2019-12-07 21:43:42
1564
转载 使用MegaCLI管理PC服务器本地磁盘阵列
写这篇文章的原因是在部署Oracle Exadata x4-2的过程中有部分和MegaCli64命令相关的内容,之后在安装部署IBM X3850 X5的时候,发现它和Exadata中SUN服务器使用的是相同的阵列卡,HP,DELL的PC服务器等大都也使用LSI的阵列卡,该类型的阵列卡通过MegaCli工具可以在操作系统层面对磁盘阵列进行非常方便的管理。 从IBM X3850 X5来说,当R...
2019-12-02 14:02:18
534
原创 Linux下用dd命令测试硬盘的读写速度
一、测试写速度:time dd if=/dev/zero of=/tmp/test bs=8k count=1000000测试结果:565 MB/s二、测试读速度:time dd if=/tmp/test of=/dev/null bs=8k测试结果:4.7GB/s三、测试读写速度:time dd if=/tmp/test of=/var/test bs=...
2019-12-02 13:33:25
24133
1
原创 Hive性能优化
Hive性能优化 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成问题。 count(d...
2019-11-30 20:42:41
486
转载 sql注入经典案例重现,再带你了解黑客技术
经过了我们前段时间的sql注入学习,今天我们来深入学习一下sql注入之cookie注入首先我们打开靶场环境随便点开一篇文章尝试在结尾构造一下 and 1=1可见是使用了防注入的,但是目前我们是使用get方式提交的参数,我们将id=171包括后面的全部删除一下试试显示数据库出错这里存在cookie注入,首先我们恢复成原来的界面然后我们下载一个...
2019-11-30 20:35:39
689
转载 粉丝关系链,10亿数据,如何设计?
继续答星球水友提问,大数据量,高并发量,好友关系链、粉丝关系链要如何设计?什么是关系链业务?关系链主要分为两类,弱好友关系与强好友关系,两类都有典型的互联网产品应用。弱好友关系的建立,不需要双方彼此同意:用户A关注用户B,不需要用户B同意,此时用户A与用户B为弱好友关系,对A而言,暂且理解为“关注”; 用户B关注用户A,也不需要用户A同意,此时用户A与用户B也为弱好友关...
2019-11-30 20:33:32
743
原创 数据埋点
本文作者从工作实践出发,梳理总结了关于数据埋点的相关基本知识,与大家分享。产品汪每天都在和数据打交道,你知道数据来自哪里吗?移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。埋点类型根据埋点方式,可以区分为:手动埋点 半自动埋点 全自动...
2019-11-30 09:01:09
3398
转载 学会自己搭建网盘
有一天,镇上新开了个银行,说存100w有优惠,然后你去存了,接着过了很久,你想取出来,银行却说一天只能取一百,不然你就要办会员卡。于是乎笔者就推荐给大家一个自建网盘的文章。为什么要自建网盘呢?文章开头就是这样。正文如下。网盘源码:nextcloud运行环境:linux(windows不支持,除非docker)网盘简介nextcloud是一个很好用...
2019-11-24 17:21:42
5222
1
转载 万亿级消息背后: 小米消息队列的实践
目录业务背景 架构与关键问题 性能与资源优化 平台化效率 小米消息中间件的规划与愿景前文《消息队列价值思考》讲述了消息中间件在企业 IT 架构中的重要价值,本文将呈现这些价值在落地小米业务过程中的遇到的问题和实践经验;其主要内容是流式平台团队在 SACC 2019 (sacc.it168.com)大会上分享的主题,这里简单整理成文,供大家参考,其中一些重要问题的细节会在后续文章陆续展...
2019-11-24 17:14:17
200
原创 Kafka可靠性、幂等性和事务
可靠性如何保证消息不丢失Kafka只对“已提交”的消息(committed message)做有限度的持久化保证。已提交的消息当Kafka的若干个Broker成功地接收到一条消息并写入到日志文件后,它们会告诉生产者程序这条消息已成功提交。有限度的持久化保证假如一条消息保存在N个Kafka Broker上,那么至少这N个Broker至少有一个存活,才能保证消息不丢失。丢失...
2019-11-24 17:12:15
366
转载 kafka速度快的原因
我们都知道Kafka非常快,比绝大多数的市场上其他消息中间件都要快。这里来研究下那么为什么Kafka那么快(当然不会是因为它用了Scala)。Kafka的消息是保存或缓存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的,因为寻址会比较消耗时间。但是实际上,Kafka其中一个特性却是高吞吐率,即使是普通的服务器,Kafka也能轻松支持每秒百万级的写入请求,超过了大部分的消息中间件。这种特性...
2019-11-24 17:09:40
486
原创 超全AI速查表|神经网络、机器学习、深度学习
【导读】过去的几个月中,我都在收集AI速查表。我时不时的分享给同学和朋友,他们经常问我要。所以我决定整理一下,发出来。为了让这件事情更加有趣,我对每个主题加了点描述。这个应该是史上最全的了,希望你喜欢...神经网络神经网络图机器学习概述机器学习: Scikit-learn算法这个速查表可以帮助你为你的任务找到合适的estimator,...
2019-11-24 17:07:49
269
转载 高效时间管理的18个技巧
文旅夜读 【高效时间管理的18个技巧】95后每月最高六成工资超前支出 每天都忙得筋疲力尽,总觉得时间不够?缺乏计划,做事没头绪;安排很多事,消耗注意力;做事拖延,不能马上开始…时间是公平的,无法阻止时间的流逝,你只能管理你自己。这里有18条时间管理建建议,从今天开始改变吧~...
2019-11-24 12:47:09
166
转载 什么是机器学习?看完就明白了
说到人工智能必然要了解机器学习,从信息化软件,到电子商务,然后到高速发展互联网时代,到至今的云计算、大数据等,渗透到我们的生活、工作之中,在互联网的驱动下,人们更清晰的认识和使用数据,不仅仅是数据统计、分析,我们还强调数据挖掘、预测。一、什么是机器学习1. 机器学习概念机器学习就是对计算机一部分数据进行学习,然后对另外一些数据进行预测与判断。机器学习的核心是“使用算法...
2019-11-24 12:45:01
6839
转载 集成各大数据集,连接GitHub就能用
搞机器学习的小伙伴们,免不了要在各种数据集上,给AI模型跑分。现在,Papers with Code (那个以论文搜代码的神器) 团队,推出了自动跑分服务,名叫sotabench,以跑遍所有开源模型为己任。有了它,不用上传代码,只要连接GitHub项目,就有云端GPU帮你跑分;每次提交了新的commit,系统又会自动更新跑分。还有世界排行榜,可以观察各路强手的成绩。除了支持各...
2019-11-24 12:41:57
1073
转载 用PyTorch实现的李沐《动手学深度学习》
李沐老师的《动手学深度学习》是一本入门深度学习的优秀教材,也是各大在线书店的计算机类畅销书。作为MXNet的作者之一,李沐老师的教材自然也是使用MXNet框架写成的。但是很多入坑机器学习的萌新们使用的却是PyTorch。最近,来自印度理工学院的数据科学小组,把《动手学深度学习》这本书从MXNet“翻译”成了PyTorch,经过3个月的努力,这个项目已经基本完成,并登上了Gi...
2019-11-24 12:40:38
2408
转载 PyTorch目标检测库Detectron2
PyTorch目标检测库Detectron2诞生了,Facebook出品。站在初代的肩膀上,它训练比从前更快,功能比从前更全,支持的模型也比从前更丰盛。开源5天,已在GitHub收获3100星,还成了趋势榜第一:除此之外,团队把大规模姿态估计算法DensePose,做出了基于Detectron2的新版本。Facebook说,像DenseP...
2019-11-24 12:38:42
2118
1
转载 notepad++功能简介
Notepad++一些好用的特性2014年03月22日 10:11:16 -柚子皮- 阅读数:3230【notepad++简介】Notepad++是旨在替代Windows默认的notepad而生,比notepad的功能强大很多很多。(1)Notepad++的版本:ANSI和Unic...
2019-11-12 13:36:23
7107
原创 人生格局
做人,赢在格局,输在计较。一个人的格局,不是天生的,是后天慢慢修炼出来的。我们常说,格局决定结局。当一个人的格局越来越大,他的路就会越走越宽,越走越顺。反之,当一个人的格局越来越小,他的路将会越来越不好走。做人,要有大的格局,不要为一些小事斤斤计较,不要和烂人烂事纠缠不清。一个人,如果有这三种迹象,说明他格局越来越大!第一个迹象:懂得了与其抱怨,不如改变自己我想,这个世界,每个...
2019-11-10 16:30:51
408
原创 保证分布式系统数据一致性的6种方案
问题的起源在电商等业务中,系统一般由多个独立的服务组成,如何解决分布式调用时候数据的一致性?具体业务场景如下,比如一个业务操作,如果同时调用服务 A、B、C,需要满足要么同时成功;要么同时失败。A、B、C 可能是多个不同部门开发、部署在不同服务器上的远程服务。在分布式系统来说,如果不想牺牲一致性,CAP 理论告诉我们只能放弃可用性,这显然不能接受。为了便于讨论问题,先简单介绍下数据一致...
2019-11-10 16:26:53
271
原创 Kafka消息队列
一、再谈消息队列的应用场景异步处理:例如短信通知、终端状态推送、App推送、用户注册等 数据同步:业务数据推送同步 重试补偿:记账失败重试 系统解耦:通讯上下行、终端异常监控、分布式事件中心 流量消峰:秒杀场景下的下单处理 发布订阅:HSF的服务状态变化通知、分布式事件中心 高并发缓冲:日志服务、监控上报但是,我们对消息队列的底层技术和原理还是不了解,那么我们马上开始吧…二、...
2019-11-10 16:25:28
534
转载 Linux编辑器介绍
vi与vimvi编辑器是所有Unix及Linux系统下标准的编辑器,他就相当于windows系统中的记事本一样,它的强大不逊色于任何最新的文本编辑器。他是我们使用Linux系统不能缺少的工具。由于对Unix及Linux系统的任何版本,vi编辑器是完全相同的,学会它后,您将在Linux的世界里畅行无阻。vim 具有程序编辑的能力,可以以字体颜色辨别语法的正确性,方便程序设计;因为程序简单,编辑...
2019-11-05 09:22:13
969
原创 impala客户端连接
想要使用plsql连接oracle一样,使用类似工具连接impala的方法:ClouderaImpalaODBC32.msi下载地址:http://www.cloudera.com/downloads/connectors/impala/odbc/2-5-36.html--注意:不能使用64位的,否则后面使用SqlDbx.exe连接odbs时候会报错!(未验证)1、Win7双击安装:Clo...
2019-11-05 09:19:16
2967
phxsql-0.8.5.tar.gz
2020-06-24
MegaCli64.exe
2019-12-02
hadoop全部笔记.zip
2019-11-30
SSM学生成绩信息管理系统
2018-12-23
医院分诊挂号管理系统
2018-11-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅