- 博客(206)
- 资源 (6)
- 收藏
- 关注
转载 个性推荐算法
互联网给用户带来了大量的信息,满足了用户在信息时代对信息的需求,也使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,而通常解决这个问题最常规的办法是推荐系统,推荐系统能有效帮助用户快速发现感兴趣和高质量的信息,提升用户体验,增加用户使用产品时间,并有效减少用户浏览到重复或者厌恶的信息带来的不利影响。通常推荐系统越精准,用户体验就越好,用户停留时间也会越长,也越容易留住用户。 1月20日,新生代移动互联网企业今日头条在北京国家会议中心举办了“算数·年度数据发布会
2020-09-14 19:06:09 1141
原创 mysql 对取当前日期周一和周日语句
select subdate(curdate(),date_format(curdate(),'%w')-1)//获取当前日期在本周的周一 select subdate(curdate(),date_format(curdate(),'%w')-7)//获取当前日期在本周的周日 这两句语句是mysql用来取当前日期的周一或周日的一个方法,那么这句如何运作的呢? %w 是以数字的形式来表示周中的天数( 0 = Sunday, 1=Monday, . . ., 6=Saturday),0为周日...
2020-06-24 09:42:22 698
转载 如何定位消耗CPU最多的线程
linux系统下,请按照如下步骤排查: top -c,显示系统运行的进程信息,输入大写P,进程便按照使用率排序,可以看到第一列即为进程Id,如图中最耗CPU的进程Id为5986: top -Hp 5986,显示该进程的线程运行信息列表,继续输入大写P使其按照CPU使用率排序,可以看到第一行,进程5986内最耗CPU的线程Id是6021: 接下来看你的应用程序是做什么的,如果是java应用程序,想获得更多的线程相关信息,可以将上面的进程Id转换成16进制的,因为在java堆栈里,存储
2020-06-07 10:29:01 809 2
转载 mysql binlog基本原理
基于binlog的主从复制Mysql 5.0以后,支持通过binary log(二进制日志)以支持主从复制。复制允许将来自一个MySQL数据库服务器(master) 的数据复制到一个或多个其他MySQL数据库服务器(slave),以实现灾难恢复、水平扩展、统计分析、远程数据分发等功能。二进制日志中存储的内容称之为事件,每一个数据库更新操作(Insert、Update、Delete,不包括Select)等都对应一个事件。下面以mysql主从复制为例,讲解一个从库是如何从主库拉取binlog,并回放
2020-05-29 17:28:35 1149
转载 hive细节补充
https://blog.csdn.net/iamlistening/article/details/93184700#comments
2020-05-29 17:21:16 207
转载 azkaban3安装教程
https://blog.csdn.net/weixin_42179685/article/details/90716366
2020-05-29 16:06:54 527
转载 MYSQL 双主互备
MYSQL 双主互备环境CentOS Linux release 7.2.1511 (Core) MYSQL (5.7.29-log)前提预设 mysql 已经安装完毕 预设 mysql 服务器 A 的IP地址 192.168.1.88 预设 mysql 服务器 B 的IP地址 192.168.1.99 预设 mysql 服务 A 和 B 用户名 和 密码 都为 root操作 A 服务器的操作 在配置文件 /etc/my.cnf 中 [mysqld] 配置的最后添加如...
2020-05-29 15:41:55 660
转载 转发 微博 Qzone 微信 Linux 常用运维脚本
https://www.toutiao.com/a6830935261363307016/
2020-05-28 18:23:03 240
原创 github搜索技巧
查考github官网搜索说明:https://help.github.com/en/github/searching-for-information-on-github/searching-for-repositories举例:in:readme spring boot stars:>3000(下载数) forks:>1000in:description 微服务 language:java pushed:>2020-03-01in:name example 名字中有“.
2020-05-18 09:30:24 478
转载 Centos7安装Xrdp远程桌面服务
系统环境服务端:Centos7.7 Minimal 客户端:Windows10安装桌面环境本实验中安装的系统没有安装桌面环境,我们需要自己安装,如果已经安装桌面了清跳过这一步。Centos7提供了"Cinnamon Desktop","MATE Desktop","GNOME Desktop","KDE Plasma Workspaces","LXQt Desktop","Xfce"让...
2020-04-22 16:46:16 1149
转载 mysql sql语句大全
1、说明:创建数据库CREATE DATABASE database-name2、说明:删除数据库drop database dbname3、说明:备份sql server--- 创建 备份数据的 deviceUSE masterEXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssql7backup\MyNwind_1.dat...
2020-04-21 19:25:46 368
转载 数据建模方法及步骤
何为建模?数据几乎总是用于两种目的:操作型记录的保存和分析型决策的制定。简单来说,操作型系统保存数据,分型型系统使用数据。前者一般仅反映数据的最新状态,按单条记录事务性来处理;其优化的核心是更快地处理事务。后者往往是反映数据一段时间的状态变化,按大批量方式处理数据;其核心是高性能、多维度处理数据。通常我们将操作型系统简称为OLTP(On-Line Transaction Processing)...
2020-04-21 19:22:23 7253
转载 知乎高赞 20 款网页神器
1、ProcessOn:完全免费的在线作图工具画流程图必备的工具之一,免去繁琐的下载安装过程,一键登录即可作图导出,功能一应俱全。网址:https://www.processon.com/2、PPT Boss:免费在线制作PPT提供10万+优质PPT模版供在线编辑套用,风格多样、全面。支持多种格式下载,可导出PPT和PDF文件。网址:https://www.pptbos...
2020-04-20 23:15:43 1827
转载 MapReduce Shuffle 和 Spark Shuffle 区别
Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前,具体可以分为map端和reduce端前后两个部分。在shuffle之前,也就是在m...
2020-04-15 19:25:54 1085
原创 Docker概念
容器 什么是Docker? Docker思想、特点 Docker容器主要解决什么问题 容器 VS 虚拟机 Docker基本概念: 镜像(Image),容器(Container),仓库(Repository)Docker 是世界领先的软件容器平台,所以想要搞懂Docker的概念我们必须先从容器开始说起。一 先从认识容器开始1.1 什么是容器?先来看看容器较为官方的解释...
2020-04-13 15:18:01 258
转载 Linux有趣命令
Linux命令是一种很有趣且有用的东西,但在你不知道会带来什么后果的时候,它又会显得非常危险。所以,在输入某些命令前,请多多检查再敲回车。rm –rfrm –rf是删除文件夹和里面附带内容的一种最快捷的方法,但是细微的错误或者语法认知不到位,就可能对系统造成不可恢复的破坏,下面给出一些案例: rm 删除linux下的文件 rm -r 递归删除文件夹,包括空文件夹 ...
2020-04-13 13:43:14 370
转载 linux下 oracle怎么导入dmp文件
先创建数据库用户:create user XXX identified by xxx default tablespace XXXXX;grant connect,resource,dba to XXX ;数据库:用户名:XXXX密码:XXXX服务器连接地址和SID:10.XX.XX.XXX:1521/orcl1、给dmp文件加权限chmod 777 /home/userct/...
2020-04-02 16:36:03 3128
转载 oracle--SYSTEM表空间不足问题
杂症二、SYSTEM表空间不足报错一、杂症:PLSQL登录,报错:ORA-00604: 递归 SQL 层出现错误ORA-01653: 表.无法通过(在表空间中)扩展ORA-02002: 写入审记线索时出错二、病理:1、表空间不足2、数据库的审计功能已经开启引起(SYS.AUD$表)三、病因定位:先连接上数据库:# su oracle# sqlpl...
2020-04-02 13:53:17 733
原创 通俗易懂的Kafka入门
什么是ZooKeeper? 什么是消息队列?众所周知,消息队列的产品有好几种,这里我选择学习Kafka的原因,无他,公司在用。我司使用的是Kafka和自研的消息队列(Kafka和RocketMQ)改版,于是我就想学学Kafka这款消息队列啦。本篇文章对Kafka入门,希望对大家有所帮助。本文知识点提前预览:一、什么是Kafka?首先我们得去官网看看是怎么介绍Kaf...
2020-04-02 13:17:18 219
原创 分库分表
一、数据库瓶颈1、IO瓶颈2、CPU瓶颈二、分库分表1、水平分库2、水平分表3、垂直分库4、垂直分表三、分库分表工具四、分库分表步骤五、分库分表问题1、非partition key的查询问题(水平分库分表,拆分策略为常用的hash法)2、非partition key跨库跨表分页查询问题(水平分库分表,拆分策略为常用的hash法)3、扩容问题(水平分库分表,拆分策略为常用的hash法)六、分库分表总...
2020-03-31 08:57:54 196
转载 从mysql主从复制到微信开源的phxsql
严格的来说,微信开源的phxsql不是数据库,而是一个数据库的插件;传统的互联网数据库结构一般是这样的:服务访问数据库是通过分片来的:除了这种基于hash的分片,还有一种基于range的分片方式通常,基于range的分片场景下会引入一个新的服务来保存range分片的元信息,列如etcd:数据库连接是这样进行的: 第1步, 先监控etcd服务上的...
2020-03-30 14:24:07 189
原创 CDATA-从Oracle导出数据并导入到Hive
1、配置源和目标的数据连接源(oracle):目标(Hive 2.1.1),需要事先将hive的驱动程序导入HHDI的lib目录中。Hive2.1.1需要的jar包如下:可根据自身情况更换hadoop和hive的jar包。hadoop-common-2.6.0.jarhive-common-2.1.0.jarhive-jdbc-2.1.0.jarhive-met...
2020-03-28 16:02:39 417
原创 60款顶级大数据开源工具
一、Hadoop相关工具1. HadoopApache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。支持的操作系统:Windows、Linux和OS X。相关链接:http://hadoop.apache.org2. Ambari作为Hadoop生态系统的一部分,这个Apache项目提供了基于We...
2020-03-28 15:02:50 2407
原创 大数据数据仓库建设方案
大数据数据仓库建设方案互联网行业,除了数据量大之外,业务时效性要求也很高,甚至很多是要求实时的,另外,互联网行业的业务变化非常快,不可能像传统行业一样,可以使用自顶向下的方法建立数据仓库,一劳永逸,它要求新的业务很快能融入数据仓库中来,老的下线的业务,能很方便的从现有的数据仓库中下线。整体架构:数据仓库的逻辑分层架构:1.数据源数据源,顾名思义就是数据的来源,互联网公司的数据来源...
2020-03-28 08:48:01 3295
原创 强制用户在下次登录Linux时更改密码
这个非常简单,有2个命令可以实现,一个是chage,一个是passwd,下面我简单介绍一下:这里为了方便演示过程,新创建一个Jack用户用于测试,命令“useradd Jack”,如下,密码可以任意设置:chage1.这是一个密码实效管理命令,专门用来修改账号和密码的有效期限,这里我们可以先用命令“chage -l Jack”来查看一下Jack用户当前密码的有效期,如下,可以看出,...
2020-03-28 08:40:38 5399
原创 centos 7 扩容根分区 --lvm模式
背景:根分区磁盘空间不足,需要扩容root磁盘空间1、查看现有磁盘信息,可以看出根分区有26G[root@localhost ~]# df -h2、查看新增加的磁盘信息(改虚拟机已经添加好了,不在细说)[root@localhost ~]# fdisk -l3、根据以上信息,对新增加的磁盘进行分区(此处为虚拟机,默认格式为xfs,若需换...
2020-03-02 20:51:13 1485 1
原创 Intellij IDEA常用技巧
Intellij IDEA是一个非常好用的IDE,但是刚刚从Eclipse等IDE切换过来的同学可能对IDEA很不习惯,进而产生IDEA没有Eclipse好用的感觉。其实在IDEA中有很多小技巧,熟悉它们可以让我们在开发的时候获得极大的方便。所以本文向大家介绍一些常用的技巧, 希望对大家有所帮助。当然因为Jetbrains系IDE都是互通的, 所以这里的一些技巧完全可以应用到PyC...
2020-02-28 20:54:33 458
原创 JVM参数详解
# 一、JVM参数## 1.1 标准参数-version -help -server -cp ## 1.2 -X参数非标准参数,也就是在JDK各个版本中可能会变动-Xint 解释执行 -Xcomp 第一次使用就编译成本地代码 -Xmixed 混合模式,JVM自己来决定 ## 1.3 -XX参数使用得最多的参数类型,非标准化参...
2020-02-28 09:19:05 986
转载 《深度学习,统计学习,数学基础》人工智能算法工程师手册
[ 导读 ]市面上很多人工智能相关的书籍。大部分的书,面向小白,内容深度不够;小部分教材书或者科研书,内容艰深,又过于复杂。那么有没有,面向算法工程师(程序员)人群的,面向有一定数学基础、算法基础,能够快速上手写代码的人群的人工智能手册呢?有的!而且免费开源,非常有程序员范!《AI算法工程师手册》你值得拥有!作者Github:https://github.com/huaxz1986手...
2020-02-27 14:58:58 598 1
原创 Linux find命令大全
以下是find命令大全#find . {-atime/-ctime/-mtime/-amin/-cmin/-mmin} [-/+]num#atime:访问时间(access time),指的是文件最后被读取的时间,可以使用touch命令更改为当前时间;#ctime:变更时间(change time),指的是文件本身最后被变更的时间,变更动作可以使chmod、chgrp、mv等等;#...
2020-02-27 14:54:03 530
转载 Linux 问题故障定位
1、背景有时候会遇到一些疑难杂症,并且监控插件并不能一眼立马发现问题的根源。这时候就需要登录服务器进一步深入分析问题的根源。那么分析问题需要有一定的技术经验积累,并且有些问题涉及到的领域非常广,才能定位到问题。所以,分析问题和踩坑是非常锻炼一个人的成长和提升自我能力。如果我们有一套好的分析工具,那将是事半功倍,能够帮助大家快速定位问题,节省大家很多时间做更深入的事情。2、说明本篇文章主...
2020-02-27 14:33:00 627
原创 元数据管理在银行业务中的应用
伴随着我国银行信息化建设的发展,银行形成了包括核心系统、数据仓库、风险管理、客户关系管理等在内的多种业务和管理系统。大数据给银行数据处理带来的大容量、快速处理和多样性,使得银行在数据标准建设、信息共享、信息挖掘利用等方面面临挑战,也越来越重视元数据的管理和体系的建设工作。本篇文章,笔者将为大家解读一下有关银行进行元数据管理的三个问题,明确在行业快速变化的大环境下,如何建设符合银行自身特色的元数...
2020-02-22 16:13:01 1000
原创 生产环境下shell脚本:Mysql数据库备份和Mysql主从同步监控
在企业的Liunx运维中,经常需要应用到各种shell脚本,比如Mysql数据库备份Shell脚本和Mysql主从同步监控Shell脚本等等常用企业运维shell脚本。。下面分享两例,希望对大家有帮助Mysql数据库备份脚本(完整备份+异地备份)Mysql数据库备份其实方法有很多,一般非超大量业务,可以使用 mysqldump 。Mysql数据库备份可以采用在MYSQL从库上执行全量备份+...
2020-02-06 18:28:32 746
原创 sed命令详解
sed命令应用广泛,使用简单,是快速文本处理的利器。它其实没多少技巧,背诵、使用是最合适的学习渠道,属于硬技能。但它又很复杂,因为高级功能太多。本篇不去关注sed的高级功能,仅对常用的一些操作,进行说明。随着使用,你会发现它和vim的一些理念是想通的,正则表达式的语法也基本上一样,并没有多少学习成本。从个人视野和工作效率上来看,sed命令都是程序员必须掌握的一个重要工具。那些说可以现场g...
2020-01-29 17:11:05 429
原创 Random Forest
随机森林是一种由决策树构成的集成算法,他在很多情况下都能有不错的表现。本文将介绍随机森林的基本概念、4 个构造步骤、4 种方式的对比评测、10 个优缺点和 4 个应用方向。什么是随机森林?随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法。如果用图来表示他们之间的关系如下:决策树 – Decision T...
2020-01-29 17:03:51 287
转载 「网易云音乐」歌单推荐算法
推荐算法可以通过APP表现进行反推,不会100%准确,但应该也八九不离十。推荐依据推荐算法不是无根之水,它必须借助用户的数据才可以进行推荐。即使是冷启动,也需要获得你的微博、微信(你的登录方式)或其他已注册用户的热门喜好。具体的数据包括:浏览记录 页面停留时间 歌曲播放次数 点击歌曲但未播放记录 点击歌曲且播放完成记录 歌曲、歌单、歌手的收藏记录 歌单播放...
2020-01-29 10:13:11 4719 2
原创 Centos7上配置nginx的负载均衡
一 重要的概念理解1 什么是nginx呢?Nginx是一个web服务器和反向代理服务器,用于HTTP、HTTPS、SMTP、POP3和IMAP协议.2 什么是反向代理呢?反向代理隐藏了真实的服务端,当我们请求 www.baidu.com 的时候,就像拨打10086一样,背后可能有成千上万台服务器为我们服务,但具体是哪一台,你不知道,也不需要知道,你只需要知道反向代理服务器是谁就好了...
2020-01-28 12:23:13 288
phxsql-0.8.5.tar.gz
2020-06-24
MegaCli64.exe
2019-12-02
hadoop全部笔记.zip
2019-11-30
SSM学生成绩信息管理系统
2018-12-23
医院分诊挂号管理系统
2018-11-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人