自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(92)
  • 收藏
  • 关注

原创 【Scala】Scala语法中=>、->、<-与{}、()的使用

Scala常见符号的用处与含义

2022-08-07 00:47:42 681

原创 【Spark】PySpark的RDD与DataFrame的转换与使用

RDD与DataFrameRDD1. SparkSession2. RDD2.1 创建RDD2.1.1 通过读取DataFrame二级目录三级目录RDD1. SparkSession使用Spark核心API的应用以SparkContext对象作为程序主入口,而Spark SQL应用则以SparkSession对象作为程序主入口,在Spark2.0发布之前,Spark SQL应用使用的专用主入口是SQLContext和HiveContext。SparkSession把它们封装为一个简洁而统一的入口。S

2021-04-09 21:10:03 2725

原创 【Hadoop】常用命令

常用命令查看指定内容打开某个已存在文件将本地文件存储至hadoop将hadoop上某个文件down至本地已有目录下删除hadoop上指定文件删除hadoop上指定文件夹(包含子目录等)在hadoop指定目录内创建新目录在hadoop指定目录下新建一个空文件将hadoop上某个文件重命名将hadoop指定目录下所有内容保存为一个文件,同时down至本地查看指定内容hadoop fs -ls [目录地址]打开某个已存在文件hadoop fs -cat [目录地址]将本地文件存储至hadoophado

2021-04-08 21:47:32 206

原创 【数据分析】A/B测试

AB测试的基本概念1.什么是AB测试2.AB测试的好处与限制3.AB测试步骤影响AB测试结果准确性的因素AB测试效果分析

2021-04-04 15:07:41 1787

原创 SQL执行顺序

SQL执行顺序fromjoinonwheregroup by(开始使用select中的别名,后面的语句中都可以使用)avg,sum等havingselectdistinctorder bylimit执行语句都是由from开始的,当前步骤会为下一步骤生成一个虚拟表,这个虚拟表作为下个执行步骤的输入。mysql的执行顺序1、select语句的定义一个select子句可以包含以下几个部分,顺序固定,例如group by子句不会位于where子句前面。<SELECT cla

2021-03-31 17:08:16 159

原创 常见的聚类算法

常见聚类算法K-meansMean-ShiftDBSCAN基于高斯混合模型(GMM)的期望最大化(EM)聚类凝聚层次聚类K-meansK-means的假设是:将某一些数据分为不同的类别,在相同的类别中数据之间的距离应该都很近,也就是说离得越近的数据应该越相似,再进一步说明,数据之间的相似度与它们之间的欧式距离成反比。K-mean中有两个关键的参数:一个是每个数据所属的类别;一个是每个聚类的中心{。这两个未知的参数是相互依存的:如果知道每个数据的所属类别,那么类别的所有数据的平均值就是这个类别的中心;如

2021-03-30 11:18:33 663

原创 LR和SVM的比较

LR和SVM的比较联系区别两者的适用性联系1、LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题)2、两个方法都可以增加不同的正则化项,如l1、l2等等。所以在很多实验中,两种算法的结果是很接近的。区别1、LR是参数模型,SVM是非参数模型。2、从目标函数来看,区别在于逻辑回归采用的是logistical loss,SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。3、S

2021-03-30 00:59:48 394

原创 概率分布

概率分布是随机变量所有可能结果及其相应概率的列表。概率分布的目的:反向推演出某一个事态(随机变量)发生的概率,为决策提供依据,掌控事态变化的关键。下图是多种概率分布的联系其中共轭(conjugate)表示的是互为共轭的概率分布;Multi-Class 表示随机变量多于 2 个;N Times 表示我们还会考虑先验分布 P(X)。共轭的意思共轭分布(conjugate distribution)的概率中一共涉及到三个分布:先验、似然和后验,如果由先验分布和似然分布所确定的后验分布与该先验分布属

2021-03-30 00:31:45 1259

原创 因子分解机 FM

目录背景FM因子分解机FM模型的核心作用可以概括为三个与其他模型对比FFM(场感知分解机,Field-aware Factorization Machine)背景DeepFMFM/FFM与其它模型对比背景在人工方式的特征工程,通常有两个问题:1、特征爆炸2、大量重要的特征组合都隐藏在数据中,无法被专家识别和设计针对上述两个问题,广度模型和深度模型提供了不同的解决思路。1、广度模型包括FM/FFM等大规模低秩(Low-Rank)模型,FM/FFM通过对特征的低秩展开,为每个特征构建隐式向量,并通过

2021-03-30 00:14:25 367

原创 Hive优化

HIVE优化(设置合理的map reduce的task数)这里写目录标题HIVE优化(设置合理的map reduce的task数)1 map阶段优化1.1 map参数1.2 map切分情况1.3 主要的解决方式2.reduce阶段优化2.1 Reduce的个数2.2 Hive自己如何确定reduce数2.3 调整reduce个数方法一2.4 调整reduce个数方法二2.5 reduce个数并不是越多越好2.6 什么情况下只有一个reduce3.小文件合并优化Hive优化之小文件问题及其解决方案:小文件

2020-12-22 21:29:37 131

原创 Python的线程与进程

这里写目录标题1. 线程与进程2. 线程与进程的区别3. ThreadPoolExecutor线程池简单使用as_completedmap1. 线程与进程进程是资源分配的最小单位,线程是CPU调度的最小单位。线程可以让应用程序并发的执行多个任务,线程之间方便共享资源,进程之间信息难以共享。2. 线程与进程的区别引用知乎大佬的比喻,进程=火车,线程=车厢:线程在进程下进行(单纯的车厢无法运行)一个进程可以包含多个线程(一辆火车可以有多个车厢)不同进程之间的资源不容易共享,而一个进程下不同线程之

2020-12-18 15:18:32 113

原创 百度情感分析API批量调用

直接贴代码叭,只要申请了个人百度账号并且改代码内对应的参数就可以直接实现# -*- coding: utf-8 -*-import jsonimport requestsimport pandas as pdimport timepd.set_option('display.max_columns', None)pd.set_option('display.max_rows', None)def get_sentiment_result(text): """ 利用情感倾向

2020-11-26 17:02:02 1408 3

原创 SQL多种窗口函数行为分析用法

文章目录一、窗口函数:1.窗口函数的基本用法:2.窗口函数与普通聚合函数的区别:计算移动平均3.(面试考点)序号函数:row_number(),rank(),dense_rank()的区别4.分布函数:percent_rank(),cume_dist()5.前后函数:lag(expr,n),lead(expr,n)6.头尾函数:FIRST_VALUE(expr),LAST_VALUE(expr)二、面试题1.用户行为分析2.学生成绩分析一、窗口函数:窗口函数也称为OLAP函数,OLAP 是OnLine

2020-09-23 18:59:36 935

原创 SQL入门实战 day4

一、目录题目链接:https://www.nowcoder.com/ta/sql二、题解31、获取select * from employees对应的执行计划题目描述获取select * from employees对应的执行计划代码EXPLAIN SELECT * FROM employees参考https://www.cnblogs.com/songwenjie/p/9409852.html32、将employees表的所有员工的last_name和first_na

2020-09-22 16:45:03 110

原创 统计学习方法 - 朴素贝叶斯

引入问题:一机器在良好状态生产合格产品几率是 90%,在故障状态生产合格产品几率是 30%,机器良好的概率是 75%。若一日第一件产品是合格品,那么此日机器良好的概率是多少。贝叶斯模型生成模型与判别模型判别模型,即要判断这个东西到底是哪一类,也就是要求y,那就用给定的x去预测。生成模型,是要生成一个模型,那就是谁根据什么生成了模型,谁就是类别y,根据的内容就是x以上述例子,判断一个生产出来的零件是模块手还是模块脚,那么就是拿生产出零件去对照过去生产出的零件模块。生成模型是给了一个零件手,研究手的

2020-09-22 12:19:56 220

原创 SQL多表做差 子查询 虚表连接

一、目录题目链接:https://www.nowcoder.com/ta/sql21. 查找所有员工自入职以来的薪水涨幅情况题目描述查找所有员工自入职以来的薪水涨幅情况,给出员工编号emp_no以及其对应的薪水涨幅growth,并按照growth进行升序(注:可能有employees表和salaries表里存在记录的员工,有对应的员工编号和涨薪记录,但是已经离职了,离职的员工salaries表的最新的to_date!='9999-01-01',这样的数据不显示在查找结果里面)CREATE

2020-09-21 18:28:35 536

原创 SQL面试统计函数、LIMIT OFFSET、left join

一、目录题目链接:https://www.nowcoder.com/ta/sql题目知识点11条件筛选和MAX()函数11. 获取所有员工当前的manager题目描述获取所有员工当前的(dept_manager.to_date='9999-01-01')manager,如果员工是manager的话不显示(也就是如果当前的manager是自己的话结果不显示)。输出结果第一列给出当前员工的emp_no,第二列给出其manager对应的emp_no。CREATE TAB

2020-09-13 23:36:29 282

原创 SQL面试条件筛选、DISTINCT、并列查询

一、目录题目链接:https://www.nowcoder.com/ta/sql题目知识点1条件筛选和MAX()函数2LIMIT 和 OFFSET 的用法3INNER JOIN4INNER JOIN5LEFT JOIN6INNER JOIN/并列查询 ORDER BY7COUNT()函数、GROUP BY 、HAVING8DISTINCT(GROUP BY去重的用法)9INNER JOIN/ 并列查询10L

2020-09-13 15:55:47 1922

原创 新闻文本分类 - Task6 基于深度学习的文本分类3

基于深度学习的文本分类文本表示Part4Transformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个self-attention层,该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-a

2020-08-04 23:48:24 722

原创 新闻文本分类 - Task5 基于深度学习的文本分类2

学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法 Part3词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法(online learning)

2020-08-02 11:52:37 234

原创 新闻文本分类 - Task4 基于深度学习的文本分类1

学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。所以FastText是一个三层的神经网络,输入层、隐含层和输出层。下图是使用keras实现的FastText网络结构:FastText在文本分类任务上,是优于TF-IDF的:FastText用

2020-07-27 21:55:48 339

原创 新闻文本分类 - Task3 基于机器学习的文本分类

学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类文本表示方法 Part1在机器学习算法的训练过程中,假设给定NNN个样本,每个样本有MMM个特征,这样组成了N×MN×MN×M的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,一个三维的矩阵来进入计算机进行计算。但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word

2020-07-25 21:02:25 324

原创 新闻文本分类 - Task2 数据读取与数据分析

数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=100)这里的read_csv由三部分构成:读取的文件路径,这里需要根据改成你本地的路径,可以使用相对路径或绝对路径;分隔符sep,为每列分割的字符,设置为\t即可;读取行数nrows,为此

2020-07-22 22:16:10 577

原创 新闻文本分类 - Task1 赛题理解

赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别..

2020-07-21 20:38:17 242

原创 爬虫-爬取腾讯热点

要求1.了解ajax加载2.通过chrome的开发者工具,监控网络请求,并分析3.用selenium完成爬虫4.实现:用selenium爬取https://news.qq.com/ 的热点精选,热点精选至少爬50个出来,存储成 csv 每一行如下 标号(从1开始),标题,链接,…(前三个为必做,后面内容可以自己加)import timefrom selenium import web...

2020-04-27 15:55:28 277 1

原创 爬虫-IP地址、selenium

IP地址QA:1.为什么会出现IP被封网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问2.如何应对IP被封的问题有几种套路:修改请求头,模拟浏览器(而不是代码去直接访问)去访问采用代理IP并轮换设置访问时间间隔3.如何获取代理IP地址从该网站获取: https://www.xicidaili.com/...

2020-04-25 21:32:18 1258

原创 爬虫BT4,Xpath,正则练习

1.中国大学排名定向爬取爬取url:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html爬取思路:1.从网络上获取大学排名网页内容2.提取网页内容中信息到合适的数据结构(二维数组)-排名,学校名称,总分3.利用数据结构展示并输出结果# 导入库import requestsfrom bs4 import BeautifulSoup...

2020-04-24 00:36:10 295

原创 爬虫-task1

HTTPHTTP是一个客户端(用户)和服务器端(网站)之间进行请求和应答的标准。通过使用网页浏览器、网络爬虫或者其他工具,客户端可以向服务器上的指定端口(默认端口为80)发起一个HTTP请求。这个客户端成为客户代理(user agent)。应答服务器上存储着一些资源码,比如HTML文件和图像。这个应答服务器成为源服务器(origin server)。在用户代理和源服务器中间可能存在多个“中间层”...

2020-04-21 20:41:34 256

原创 天池数据挖掘 -- 模型融合

1 模型融合目标对于多种调参完成的模型进行模型融合。2 内容介绍模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting);综合:排序融合(Rank averaging),log融合。stacking/blending:构建多层模...

2020-04-04 22:44:20 321

原创 天池数据挖掘 -- 建模调参

内容介绍1.线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;2.模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;3.嵌入式特征选择:Lasso回归;Ridge回归;决策树;4.模型对比:常用线性模型;常用非线性模型;5.模型调参:贪心调参方法;网格调...

2020-04-01 17:52:57 476

原创 python - 字典及基本操作

字典也是 Python 提供的一种常用的数据结构,它用于存放具有映射关系的数据。比如有份成绩表数据,语文:79,数学:80,英语:92,这组数据看上去像两个列表,但这两个列表的元素之间有一定的关联关系。如果单纯使用两个列表来保存这组数据,则无法记录两组数据之间的关联关系。为了保存具有映射关系的数据,Python 提供了字典,字典相当于保存了两组数据,其中一组数据是关键数据,被称为 key;另一...

2020-03-29 23:07:51 218

原创 天池二手车价格预测 -- 特征工程

1. 学习内容异常处理特征归一化/标准化数据分桶缺失值处理特征构造特征筛选2. 导入相关模块和数据import pandas as pdimport numpy as npimport matplotlibimport matplotlib.pyplot as pltimport seaborn as sns train_df = pd.re...

2020-03-28 23:13:59 263

原创 pandas - qcut()和cut()区别

cut()定义:cut返回 x 中的每一个数据在bins中对应的范围。根据值本身来选择箱子均匀间隔,即每个箱子的间距都是相同的。语法:pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)参数:x : 必须是一维数据bins: 不同面元(不同范围)类...

2020-03-23 17:56:32 935

原创 20种经纬度特征工程

1 两个经度/纬度的相减使用相邻经度进行相减,相邻纬度相减,类似于经纬度的绝对变化特征def lat_diff(lat1, lat2): return lat1 - lat2def lat_absdiff(lat1, lat2): return abs(lat1 - lat2)def lng_diff(lng1, lng2): return lng1 - ln...

2020-03-22 17:19:06 2915

原创 数据结构-广度搜索BFS

给定一个包含了一些 0 和 1的非空二维数组 grid , 一个 岛屿 是由四个方向 (水平或垂直) 的 1 (代表土地) 构成的组合。你可以假设二维矩阵的四个边缘都被水包围着。找到给定的二维数组中最大的岛屿面积。(如果没有岛屿,则返回面积为0。)示例 1:[[0,0,1,0,0,0,0,1,0,0,0,0,0],[0,0,0,0,0,0,0,1,1,1,0,0,0],[0,1,1,0,...

2020-03-15 17:41:52 96

原创 五大常用算法—动态规划详解和经典题目(python)

一、基本概念   把多阶段过程转化为一系列单阶段问题,利用各阶段之间的关系,逐个求解。    动态规划过程:每次决策依赖于当前状态,又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的,所以,这种多阶段最优化决策解决问题的过程就称为动态规划。    假设问题是由交叠的子问题所构成,我们就能够用动态规划技术来解决它。一般来说,这种子问题出自对给定问题求解的递推关系中,这个递推关系包...

2020-03-13 16:25:39 3295

原创 数据结构-排序算法

#直接插入排序def insert(nums): for i in range(1,len(nums)): for j in range(i-1,-1,-1): if nums[j+1]<nums[j]: temp = nums[j] nums[j] = nums[j+1] ...

2020-03-11 10:37:40 83

原创 剑指Offer-字符串(字典)-第一个只出现一次的字符

50. 第一个只出现一次的字符在字符串 s 中找出第一个只出现一次的字符。如果没有,返回一个单空格。解题思路:用字典对每次出现的字符和出现次数进行存储输出对应次数的键代码实现:class Solution: def firstUniqChar(self, s: str) -> str: dic = {} for i in s: ...

2020-03-09 18:05:30 87

原创 剑指Offer-数组-滑动窗口的最大值

59 - I. 滑动窗口的最大值给定一个数组 nums 和滑动窗口的大小 k,请找出所有滑动窗口里的最大值。解题思路:暴力解法:定义两个指针,每次输出两个指针内的窗口最大值代码实现:class Solution(object): def maxSlidingWindow(self, nums, k): #首指针为index0,尾指针为index0+k-1 ...

2020-03-09 17:05:37 221

原创 剑指Offer-二叉树-二叉搜索树的第k大节点

54. 二叉搜索树的第k大节点给定一棵二叉搜索树,请找出其中第k大的节点。解题思路:搜索二叉树的性质:左子树<根<右子树。搜索二叉树的中序遍历是顺序列表。输出中序遍历后,返回第k个数字。代码实现:...

2020-03-07 00:42:57 126

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除