只会收藏他人资料的卑微嘎-CSDN博客

原创 Java安装流程

下载JavaJDK ：是java的开发运行环境JRE：如果不需要开发只需要运行java程序，安装JRE即可JDK中包含了JRE，JRE中包含了虚拟机JVMjdk下载网址: link.配置环境变量配置环境变量: link.

2022-05-21 17:35:26 208

1.MapReduce的整个的执行流程1.mapread：InputFormat读取待处理文本，然后进入到mapper中map：用户自定义的mapper方法collect：mapper方法输出到环形缓冲区，在进去缓冲区之前，先进行了分区，默认是hash分区，一般用户自定义分区，写到80%的时候，开启反向溢写，相当于又开了一个线程，原先的线程继续往缓冲区读，新的线程将缓冲区数据写到磁盘溢写：在写入磁盘之前进入了一次快速排序，保证分区内有序merge：所有的文件都溢写完之后，在磁盘上进行了一次归并

2022-02-24 09:17:15 401

原创数据研发面经——字节跳动

1.抽象类与接口接口的出现：有时候，必须从多个类中派生出一个类，但是java中的类是单继承的从几个类中抽取出一些共同的行为特征，但是他们之间没有is-a的关系，仅仅是具有相同的行为特征而已相同点都不能被实例化接口的实现类和抽象类的子类只有全部实现了接口或者抽象类中的方法后才可以被实例化不同点抽象类中可以有普通成员变量，接口中没有抽象类中有非抽象的普通方法，接口中只有抽象方法抽象类中的抽象方法的访问类型可以是public，protected，接口中的抽象方法只能是public的

2022-02-24 09:17:08 2124 1

原创数据研发面经——快手

1.数仓理论、建模理论了解多少? 星座模型知道吗？和星型模型有什么区别？1.1数仓分层1.2建模知识1.3维度表和事实表1.4数据仓库建模过程2.HDFS的常见数据类型3.列存储和行存储的异同点，列存储有哪些优点4.Hive都用过什么窗口函数？窗口函数如何取得当前行，如何取得前n行和后n行？4.1表table1(usr_id int,usr_dt string)，其中id字段数值相同，找出表中连续活跃的天数，如果不连续，则当前行连续活跃字段设为1，返回查询结果table2(窗口函数)4.2

2022-02-24 09:16:58 1318

原创 Hadoop

1.查看依赖包源码，出现以下错误解决方法链接: link.

2022-02-24 09:16:48 680

原创数据研发面经

面经解析2021.11.30 快手数据研发工程师一面数据仓库12.6 58同城面经2021.11.30 快手数据研发工程师一面自我介绍答：对数据结构有没有了解答：基本了解，本科学习过数据结构的课程。链表和数组的区别答：（1）链表是链式存储结构，数组是顺序存储结构；（2）链表通过指针连接元素与元素，在内存中不连续，而数组则是把所有元素按照顺序进行存储；（3）链表的插入和删除元素容易，不需要移动元素，且较为容易实现长度扩充，但是寻找某个元素较为困难，而数组寻找某个元素较为简单，但

2022-02-24 09:16:32 1905

原创 java相关问题——大数据开发

目录标题1.linux系统的常见命令2.线程的各种状态3.线程池重要的参数4.LinkedList和ArrayList的区别和联系5.详细讲讲Hashmap，是不是线程安全的，put方法是头插还是尾插6.用什么类代替hashmap并且保证线程安全7.mysql的联合索引8.如何查看在执行sql的过程中索引有没有命中（提到了explain）9.对Swing的看法，有什么优缺点10.什么是ssm11.使用mybatis的感受，mybatis有什么优缺点，你是怎么改进的12.spring的aop是怎么实现的13.

2022-02-24 09:16:07 567

原创 Java第十一章集合

集合大致分为四个体系：Set、List、Queue、MapSet：包括无序，不可重复的集合，主要包括HashSet实现类、TreeSet实现类、LinkedHashSet实现类List：有序可重复的集合，主要包括ArrayList、LinkedList实现类Map：代表有映射关系的集合，主要包括HashMap、TreeMap实现类Queue：一堆队列集合实现主要由两个接口Collection和Map实现collection接口（父接口）的方法，在子接口以及实现类中都可以使用1.add2

2022-02-24 09:15:52 179

原创 java面向对象

java面向对象1.java类及类的成员1.1属性、方法、对象和类1.2内存解析1.3类中属性的使用1.4 方法的声明1.5 对象数组的内存解析1.6匿名对象的使用1.7 方法的重载1.8可变个数的形参1.9方法参数的值传递机制1.10方法形参的传递机制：值传递2.面向对象的三大特征2.1封装性、继承性、多态性3.其他关键字面向过程和面向对象面向过程：强调的是功能行为，以函数为最小单位，考虑怎么做面向对象：强调的是具备功能的对象，以类|对象为最小单位，考虑谁来做人{ 打开(冰箱)

2022-02-24 09:14:45 633

原创数据开发——携程

目录1.hadoop组件2.mapreduce过程3.shuffle为什么要排序4.sparkshuffle5.数仓相关6.增量表全量表7.reducetask数量和分区数量关系8.hdfs写数据流程？9.10亿数取前1010.wordcount 用了哪些算子11.维度建模模型12.数据库三范式1.hadoop组件HDFS：分布式文件系统，存储海量数据、分布式存储、安全、副本策略、以块存储128mMapReduce：分布式离线计算框架，海量数据的计算，分布式计算分而治之，map对每个数据集进行逻辑

2021-12-27 20:24:53 428

原创数据仓库知识储备

数据仓库知识储备1.数据仓库定义2.数据库和数据仓库的区别3.数据库的三范式4.数据仓库的特点5.数据仓库的分层6.数据库事务及其特性1.数据仓库定义首先，用于支持决策，面向分析型数据处理，它不同于企业现有的操作型数据库其次，对多个异构的数据源有效集成，集成后按照主题进行重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合，用于支持管理决策数据仓库是为了便于多维分析和多角度展现而将数据按照特定的模式进行存储所建立起来的关

2021-12-09 21:59:27 1488

原创 Java知识点

关于thisthis详解

2021-11-25 19:59:25 495

原创数据分析牛客网SQL知识点

时间排序问题1.查找最晚入职员工看做时间列中找到最大的值select max(hire_date) from employees2.工作时间排名倒数第三名首先将时间倒叙排序用到order by desc先按照时间倒数排序，并选择出时间列注意：同一时间可能会有多人，所以要把时间distinct选择倒数第三名的那个时间LIMIT m,n : 表示从第m+1条开始，取n条数据；LIMIT n ：表示从第0条开始，取n条数据，是limit(0,n)的缩写3.给定两个表查找当前

2021-09-18 19:51:43 416

原创学习数据分析

加载数据使用的库：pandas使用的函数： pd.read_csv()、pd.read_excel、pd.read_table()tsv文件和csv文件1.TSV 是Tab-separated values的缩写，即制表符分隔值。相对来说CSV，Comma-separated values（逗号分隔值）更常见一些2.TSV是用制表符（Tab,’\t’）作为字段值的分隔符；CSV是用半角逗号（’,’）作为字段值的分隔符3.当delimiter=’\t’时，被处理文件就是TSV读取数据使用ch

2021-09-13 10:02:58 415

原创生存分析研究

生存分析生存分析基础知识生存分析生存数据生存函数生存分析方法生存分析统计方法非参数方法半参数方法参数方法生存分析机器学习模型研究思路生存分析基础知识生存分析定义：将事件结局的出现与否和达到终点所经历的时间结合起来的统计方法背景：对于癌症患者，更加关注“生存时间”，比如常常听到的：5年存活率、3年存活率……，且某种治疗方法的价值主要表现在延长患者的存活时间。比如在一项针对癌症患者的研究中，研究者更加关注的问题在观测时间点发生特定事件的概率，寻找个体协变量与个体生存状态之间的潜在关系（观测时间和观

2021-07-15 11:28:54 1882

原创 latex的下载与安装

首先，需要下载三个东西范小龙: LaTeX 安装 & 宏包升级 & 入门.知乎: Visual Studio Code (vscode)配置LaTeX.知乎: 使用VSCode编写LaTeX.

2021-07-15 11:25:36 192

原创极大似然估计

通俗解释：利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值。即极大似然估计提供了一种给定观察数据来评估模型参数“模型已定，参数未知”满足假设：所有的采样都是独立同分布的对于似然函数p(x∣θ)p(x|\theta)p(x∣θ)的理解：该函数的输入有两个：x表示某一个具体的数据；θ\thetaθ表示模型的参数如果θ\thetaθ是确定的，xxx是变量，这个函数叫做概率函数（probability function），它描述对于不同的样本点xxx，其出现概率是多少。如

2021-07-15 11:24:18 148

weixin_43708627的博客