浮汐-CSDN博客

原创【Scala】Scala语法中=＞、-＞、＜-与{}、()的使用

Scala常见符号的用处与含义

2022-08-07 00:47:42 812

原创【Spark】PySpark的RDD与DataFrame的转换与使用

RDD与DataFrameRDD1. SparkSession2. RDD2.1 创建RDD2.1.1 通过读取DataFrame二级目录三级目录RDD1. SparkSession使用Spark核心API的应用以SparkContext对象作为程序主入口，而Spark SQL应用则以SparkSession对象作为程序主入口，在Spark2.0发布之前，Spark SQL应用使用的专用主入口是SQLContext和HiveContext。SparkSession把它们封装为一个简洁而统一的入口。S

2021-04-09 21:10:03 2933

原创【Hadoop】常用命令

常用命令查看指定内容打开某个已存在文件将本地文件存储至hadoop将hadoop上某个文件down至本地已有目录下删除hadoop上指定文件删除hadoop上指定文件夹（包含子目录等）在hadoop指定目录内创建新目录在hadoop指定目录下新建一个空文件将hadoop上某个文件重命名将hadoop指定目录下所有内容保存为一个文件，同时down至本地查看指定内容hadoop fs -ls [目录地址]打开某个已存在文件hadoop fs -cat [目录地址]将本地文件存储至hadoophado

2021-04-08 21:47:32 266

原创【数据分析】A/B测试

AB测试的基本概念1.什么是AB测试2.AB测试的好处与限制3.AB测试步骤影响AB测试结果准确性的因素AB测试效果分析

2021-04-04 15:07:41 2126

原创 SQL执行顺序

SQL执行顺序fromjoinonwheregroup by(开始使用select中的别名，后面的语句中都可以使用)avg，sum等havingselectdistinctorder bylimit执行语句都是由from开始的，当前步骤会为下一步骤生成一个虚拟表，这个虚拟表作为下个执行步骤的输入。mysql的执行顺序1、select语句的定义一个select子句可以包含以下几个部分，顺序固定，例如group by子句不会位于where子句前面。<SELECT cla

2021-03-31 17:08:16 199

原创常见的聚类算法

常见聚类算法K-meansMean-ShiftDBSCAN基于高斯混合模型(GMM)的期望最大化（EM）聚类凝聚层次聚类K-meansK-means的假设是：将某一些数据分为不同的类别，在相同的类别中数据之间的距离应该都很近，也就是说离得越近的数据应该越相似，再进一步说明，数据之间的相似度与它们之间的欧式距离成反比。K-mean中有两个关键的参数：一个是每个数据所属的类别；一个是每个聚类的中心{。这两个未知的参数是相互依存的：如果知道每个数据的所属类别，那么类别的所有数据的平均值就是这个类别的中心；如

2021-03-30 11:18:33 770

原创 LR和SVM的比较

LR和SVM的比较联系区别两者的适用性联系1、LR和SVM都可以处理分类问题，且一般都用于处理线性二分类问题（在改进的情况下可以处理多分类问题）2、两个方法都可以增加不同的正则化项，如l1、l2等等。所以在很多实验中，两种算法的结果是很接近的。区别1、LR是参数模型，SVM是非参数模型。2、从目标函数来看，区别在于逻辑回归采用的是logistical loss，SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。3、S

2021-03-30 00:59:48 466

原创概率分布

概率分布是随机变量所有可能结果及其相应概率的列表。概率分布的目的：反向推演出某一个事态（随机变量）发生的概率，为决策提供依据，掌控事态变化的关键。下图是多种概率分布的联系其中共轭（conjugate）表示的是互为共轭的概率分布；Multi-Class 表示随机变量多于 2 个；N Times 表示我们还会考虑先验分布 P(X)。共轭的意思共轭分布(conjugate distribution)的概率中一共涉及到三个分布：先验、似然和后验，如果由先验分布和似然分布所确定的后验分布与该先验分布属

2021-03-30 00:31:45 1353

原创因子分解机 FM

目录背景FM因子分解机FM模型的核心作用可以概括为三个与其他模型对比FFM（场感知分解机,Field-aware Factorization Machine）背景DeepFMFM/FFM与其它模型对比背景在人工方式的特征工程，通常有两个问题：1、特征爆炸2、大量重要的特征组合都隐藏在数据中，无法被专家识别和设计针对上述两个问题，广度模型和深度模型提供了不同的解决思路。1、广度模型包括FM/FFM等大规模低秩(Low-Rank)模型，FM/FFM通过对特征的低秩展开，为每个特征构建隐式向量，并通过

2021-03-30 00:14:25 432

原创 Hive优化

HIVE优化(设置合理的map reduce的task数)这里写目录标题HIVE优化(设置合理的map reduce的task数)1 map阶段优化1.1 map参数1.2 map切分情况1.3 主要的解决方式2.reduce阶段优化2.1 Reduce的个数2.2 Hive自己如何确定reduce数2.3 调整reduce个数方法一2.4 调整reduce个数方法二2.5 reduce个数并不是越多越好2.6 什么情况下只有一个reduce3.小文件合并优化Hive优化之小文件问题及其解决方案：小文件

2020-12-22 21:29:37 236

原创 Python的线程与进程

这里写目录标题1. 线程与进程2. 线程与进程的区别3. ThreadPoolExecutor线程池简单使用as_completedmap1. 线程与进程进程是资源分配的最小单位，线程是CPU调度的最小单位。线程可以让应用程序并发的执行多个任务，线程之间方便共享资源，进程之间信息难以共享。2. 线程与进程的区别引用知乎大佬的比喻，进程=火车，线程=车厢：线程在进程下进行（单纯的车厢无法运行）一个进程可以包含多个线程（一辆火车可以有多个车厢）不同进程之间的资源不容易共享，而一个进程下不同线程之

2020-12-18 15:18:32 156

原创百度情感分析API批量调用

直接贴代码叭，只要申请了个人百度账号并且改代码内对应的参数就可以直接实现# -*- coding: utf-8 -*-import jsonimport requestsimport pandas as pdimport timepd.set_option('display.max_columns', None)pd.set_option('display.max_rows', None)def get_sentiment_result(text): """ 利用情感倾向

2020-11-26 17:02:02 1562 3

原创 SQL多种窗口函数行为分析用法

文章目录一、窗口函数：1.窗口函数的基本用法：2.窗口函数与普通聚合函数的区别：计算移动平均3.（面试考点）序号函数:row_number(),rank(),dense_rank()的区别4.分布函数:percent_rank(),cume_dist()5.前后函数:lag(expr,n),lead(expr,n)6.头尾函数：FIRST_VALUE(expr),LAST_VALUE(expr)二、面试题1.用户行为分析2.学生成绩分析一、窗口函数：窗口函数也称为OLAP函数，OLAP 是OnLine

2020-09-23 18:59:36 1032

原创 SQL入门实战 day4

一、目录题目链接：https://www.nowcoder.com/ta/sql二、题解31、获取select * from employees对应的执行计划题目描述获取select * from employees对应的执行计划代码EXPLAIN SELECT * FROM employees参考https://www.cnblogs.com/songwenjie/p/9409852.html32、将employees表的所有员工的last_name和first_na

2020-09-22 16:45:03 166

原创统计学习方法 - 朴素贝叶斯

引入问题：一机器在良好状态生产合格产品几率是 90%，在故障状态生产合格产品几率是 30%，机器良好的概率是 75%。若一日第一件产品是合格品，那么此日机器良好的概率是多少。贝叶斯模型生成模型与判别模型判别模型，即要判断这个东西到底是哪一类，也就是要求y，那就用给定的x去预测。生成模型，是要生成一个模型，那就是谁根据什么生成了模型，谁就是类别y，根据的内容就是x以上述例子，判断一个生产出来的零件是模块手还是模块脚，那么就是拿生产出零件去对照过去生产出的零件模块。生成模型是给了一个零件手，研究手的

2020-09-22 12:19:56 278

原创 SQL多表做差子查询虚表连接

一、目录题目链接：https://www.nowcoder.com/ta/sql21. 查找所有员工自入职以来的薪水涨幅情况题目描述查找所有员工自入职以来的薪水涨幅情况，给出员工编号emp_no以及其对应的薪水涨幅growth，并按照growth进行升序（注:可能有employees表和salaries表里存在记录的员工，有对应的员工编号和涨薪记录，但是已经离职了，离职的员工salaries表的最新的to_date!='9999-01-01'，这样的数据不显示在查找结果里面）CREATE

2020-09-21 18:28:35 603

原创 SQL面试统计函数、LIMIT OFFSET、left join

一、目录题目链接：https://www.nowcoder.com/ta/sql题目知识点11条件筛选和MAX()函数11. 获取所有员工当前的manager题目描述获取所有员工当前的(dept_manager.to_date='9999-01-01')manager，如果员工是manager的话不显示(也就是如果当前的manager是自己的话结果不显示)。输出结果第一列给出当前员工的emp_no,第二列给出其manager对应的emp_no。CREATE TAB

2020-09-13 23:36:29 340

原创 SQL面试条件筛选、DISTINCT、并列查询

一、目录题目链接：https://www.nowcoder.com/ta/sql题目知识点1条件筛选和MAX()函数2LIMIT 和 OFFSET 的用法3INNER JOIN4INNER JOIN5LEFT JOIN6INNER JOIN/并列查询 ORDER BY7COUNT()函数、GROUP BY 、HAVING8DISTINCT（GROUP BY去重的用法）9INNER JOIN/ 并列查询10L

2020-09-13 15:55:47 2067

原创新闻文本分类 - Task6 基于深度学习的文本分类3

基于深度学习的文本分类文本表示Part4Transformer原理Transformer是在"Attention is All You Need"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后，它们首先流过一个self-attention层，该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-a

2020-08-04 23:48:24 807

原创新闻文本分类 - Task5 基于深度学习的文本分类2

学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法 Part3词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本，我们选取一个上下文窗口和一个中心词，并基于这个中心词去预测窗口里其他词出现的概率。因此，word2vec模型可以方便地从新增语料中学习到新增词的向量表达，是一种高效的在线学习算法（online learning）

2020-08-02 11:52:37 274

原创新闻文本分类 - Task4 基于深度学习的文本分类1

学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2FastTextFastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。所以FastText是一个三层的神经网络，输入层、隐含层和输出层。下图是使用keras实现的FastText网络结构：FastText在文本分类任务上，是优于TF-IDF的：FastText用

2020-07-27 21:55:48 505

原创新闻文本分类 - Task3 基于机器学习的文本分类

学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类文本表示方法 Part1在机器学习算法的训练过程中，假设给定NNN个样本，每个样本有MMM个特征，这样组成了N×MN×MN×M的样本矩阵，然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征，每张图片看作hight×width×3的特征图，一个三维的矩阵来进入计算机进行计算。但是在自然语言领域，上述方法却不可行：文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入（Word

2020-07-25 21:02:25 394

原创新闻文本分类 - Task2 数据读取与数据分析

数据读取赛题数据虽然是文本数据，每个新闻是不定长的，但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=100)这里的read_csv由三部分构成：读取的文件路径，这里需要根据改成你本地的路径，可以使用相对路径或绝对路径；分隔符sep，为每列分割的字符，设置为\t即可；读取行数nrows，为此

2020-07-22 22:16:10 646

原创新闻文本分类 - Task1 赛题理解

赛题任务：赛题以自然语言处理为背景，要求选手对新闻文本进行分类，这是一个典型的字符识别问题。赛题数据赛题以匿名处理后的新闻数据为赛题数据，数据集报名后可见并可下载。赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。为了预防选手人工标注测试集的情况，我们将比赛数据的文本按照字符级别..

2020-07-21 20:38:17 308

空空如也

空空如也