bigdata老司机
码龄5年
  • 653,150
    被访问
  • 91
    原创
  • 13,685
    排名
  • 28,011
    粉丝
关注
提问 私信

个人简介:在大数据的海洋,一条大汉在裸泳,游得飞快(∩_∩)

  • 毕业院校: 北京理工大学
  • 加入CSDN时间: 2017-06-28
博客简介:

大柳的博客

博客描述:
在数据海洋,一条大汉在用狗刨式裸泳…
查看详细资料
  • 7
    领奖
    总分 3,717 当月 156
个人成就
  • 获得849次点赞
  • 内容获得874次评论
  • 获得4,736次收藏
创作历程
  • 1篇
    2022年
  • 42篇
    2021年
  • 28篇
    2020年
  • 1篇
    2019年
  • 11篇
    2018年
  • 11篇
    2017年
成就勋章
TA的专栏
  • SQL
    1篇
  • 算法编程
    12篇
  • 笔试面试
    1篇
  • 笔记
  • R
    10篇
  • 计算机
    2篇
  • 方法论
    1篇
  • Python
    20篇
  • Spark
    11篇
  • 机器学习
    23篇
  • Linux
    6篇
  • Hadoop
    4篇
  • 数据产品
    2篇
  • 数据库
    8篇
  • 数据架构
    2篇
  • 推荐算法
    1篇
  • 数据挖掘案例
    4篇
  • 算法原理
    1篇
  • 数学之美
    2篇
兴趣领域 设置
  • 数据结构与算法
    数据结构
  • 人工智能
    数据挖掘机器学习人工智能深度学习聚类集成学习分类
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

SQL中使用JOIN时,过滤条件放在on和where中的区别

对于不同的JOIN类型,过滤语句放在子查询、on或者where中,有时候结果以及效率差别很大的,记录一下正确用法。
原创
发布博客 2022.02.15 ·
607 阅读 ·
1 点赞 ·
0 评论

Python中的变量、对象、引用及赋值(复制)、拷贝

首先明确几个概念变量所谓变量,是与常量相对的可以改变的量。简单来说,变量是到对象内存空间的一个指针,是一个系统表的元素,拥有指向对象的连接的空间。Python是弱类型的语言,不像其它强类型的变量(在强类型语言中,变量都是有具体的类型来限制的,规定一个类型的变量只能被赋值与该类型相同或兼容的值),Python中的变量只是个名字,它本身没有数据类型,所以不需要提前声明,也不需要指定类型,只需要在用的时候,给变量赋值即可(使用之前必须赋值),且可以被赋值给任何对象。在给变量赋值时,其实是将被赋值的对象地址存
原创
发布博客 2021.09.27 ·
190 阅读 ·
1 点赞 ·
0 评论

sql数据处理的长尾问题及优化

长尾问题是分布式计算里最常见的问题之一。主要原因是因为数据分布不均,导致各个节点的工作量不同,整个任务就需要等最慢的节点完成才能完成。Map长尾主要原因是某些Map Instance读取的数据量相对于其他的Instance多很多。优化方法:使用统计好的中间层汇总表,减少大数据量读取;行裁剪:检查代码读取的数据量是不是比自己的需求多,尽可能限制分区或者使用where条件过滤掉不需要的数据;列裁剪:限制select的字段数据,尽量不用select *,列的利用率低。比如原表有100个字段,如果只用
原创
发布博客 2021.09.23 ·
339 阅读 ·
1 点赞 ·
0 评论

一文了解社区发现算法

最近在调研社区发现图聚类在区域划分中的应用,将一些编辑汇总的信息记录如下。社团划分了解社区是什么在社交网络中,用户相当于每一个点,用户之间通过互相的关注关系构成了整个网络的结构。在这样的网络中,有的用户之间的连接较为紧密,有的用户之间的连接关系较为稀疏。其中连接较为紧密的部分可以被看成一个社区,其内部的节点之间有较为紧密的连接,而在两个社区间则相对连接较为稀疏。整个整体的结构被称为社团结构。如下图,圆点和方点呈现出社区的结构,用圆点和方点对其进行标注,整个网络被划分成了两个部分,其中,这两个部分的
原创
发布博客 2021.09.18 ·
267 阅读 ·
0 点赞 ·
0 评论

Lateral View(行转列)

通过Lateral View与UDTF(表生成函数)结合,将单行数据拆成多行数据,即行转列。命令格式lateralView: lateral view [outer] <udtf_name>(<expression>) <table_alias> as <columnAlias> (',' <columnAlias>) fromClause: from <baseTable> (lateralView) [(lateralV
原创
发布博客 2021.07.07 ·
203 阅读 ·
1 点赞 ·
0 评论

报错解决:PermissionError

在linux环境中安装jupyter notebook的时候遇到的错误,记录一下。PermissionError: [Errno 13] Permission denied: '/run/user/1002/jupyter'解决办法:chmod 777 -R /run/user/1002
原创
发布博客 2021.03.22 ·
430 阅读 ·
0 点赞 ·
0 评论

最近面试的几个大厂算法面试题汇总

最近接受了一波社会毒打,每个大厂都经历好几轮技术面试,面试形式有电话、语音、视频、现场面,内容主要集中在以往工作经历及项目经验、算法知识及理论、算法编程及工程能力、场景案例及分析,本文章仅记录一些算法知识及理论的面试题,靠回忆,有遗漏。某程:都用过哪些算法?应用最熟悉的是那个?特征工程如何做?介绍一下RF吧?LR相比树模型对数据有什么要求?为什么有些算法需要剔除共线性?距离算法了解哪些?余弦相似性相比K-means有什么区别?K-means的K如何选择的?聚类的效果如何评估?为什么距离算
原创
发布博客 2021.03.12 ·
1338 阅读 ·
5 点赞 ·
1 评论

算法编程12:单调递增的数字

描述给定一个非负整数 N,找出小于或等于 N 的最大的整数,同时这个整数需要满足其各个位数上的数字是单调递增。(当且仅当每个相邻位数上的数字 x 和 y 满足 x <= y 时,我们称这个整数是单调递增的。)示例示例 1————————————————————输入: N = 10输出: 9————————————————————示例 2————————————————————输入: N = 1234输出: 1234————————————————————示例 3—————
原创
发布博客 2021.03.11 ·
187 阅读 ·
0 点赞 ·
0 评论

算法编程11:二分法求平方根

描述计算并返回 x 的平方根,其中 x 是非负整数。由于返回类型是整数,结果只保留整数的部分,小数部分将被舍去。示例示例 1——————————————————————————————————输入: 4输出: 2——————————————————————————————————示例 2——————————————————————————————————输入: 8输出: 2——————————————————————————————————说明: 8 的平方根是 2.82842…
原创
发布博客 2021.03.11 ·
487 阅读 ·
0 点赞 ·
0 评论

算法编程10:岛屿的最大面积

描述给定一个包含了一些 0 和1的非空二维数组grid,一个岛屿是由四个方向 (水平或垂直) 的1(代表土地) 构成的组合。你可以假设二维矩阵的四个边缘都被水包围着。找到给定的二维数组中最大的岛屿面积。(如果没有岛屿,则返回面积为0。)[[0,0,1,0,0,0,0,1,0,0,0,0,0],[0,0,0,0,0,0,0,1,1,1,0,0,0],[0,1,1,0,1,0,0,0,0,0,0,0,0],[0,1,0,0,1,1,0,0,1,0,1,0,0],[0,1,0,0,1,1,0,0,
原创
发布博客 2021.03.11 ·
126 阅读 ·
0 点赞 ·
0 评论

算法编程9:求1到100的和

编程实现(用循环)def sum_xh(num): sum = 0 for i in range(1,num+1): sum += i return sumprint(sum_xh(100))编程实现(用递归)def sum_dg(num): if num == 1: return 1 else: return num + sum_dg(num-1)print(sum_dg(100))...
原创
发布博客 2021.03.11 ·
723 阅读 ·
0 点赞 ·
0 评论

算法编程8:求前 n 项的斐波那契数列

描述求前 n 项的斐波那契数列(用递归函数)编程实现def fun(n): if n <= 1: return n else: return fun(n - 1) + fun(n - 2)for i in range(10): print(fun(i))
原创
发布博客 2021.03.11 ·
486 阅读 ·
0 点赞 ·
0 评论

算法编程7:一个四位数 abcd,满足 abcd * 4 = dcba,求这个数

描述一个四位数 abcd,满足 abcd * 4 = dcba,求这个数编程实现1for i in list(range(1000,2500)): num2 = i*4 a = i //1000 b = i % 1000//100 c = i % 1000%100//10 d = i % 10 e = num2 //1000 f = num2 % 1000//100 g = num2 % 1000%100//10 h = n
原创
发布博客 2021.03.11 ·
1061 阅读 ·
0 点赞 ·
0 评论

算法编程6:连续子数组的最大和

问题描述输入一个整型数组,数组中的一个或连续多个整数组成一个子数组。求所有子数组的和的最大值。要求时间复杂度为O(n)。示例————————————————————————————————输入: nums = [-2,1,-3,4,-1,2,1,-5,4]输出: 6————————————————————————————————解释: 连续子数组 [4,-1,2,1] 的和最大,为 6。思路典型的动态规划问题状态方程:max( dp[ i ] ) = getMax( max( dp[ i
原创
发布博客 2021.03.11 ·
62 阅读 ·
0 点赞 ·
0 评论

算法编程5:判断一个单链表是否有环

分析:使用追赶的方法,设定两个指针slow、fast,从头指针开始,每次分别前进1步、2步。如存在环,则两者相遇;如不存在环,fast遇到NULL退出class Solution: def hasCycle(self , head ): # write code here if not head: return False node = head while node: noden =
原创
发布博客 2021.03.11 ·
84 阅读 ·
0 点赞 ·
0 评论

算法编程4:打印九九乘法表

代码实现#!/usr/bin/python3#外边一层循环控制行数#i是行数i=1while i<=9: #里面一层循环控制每一行中的列数 j=1 while j<=i: mut =j*i print("%d*%d=%d"%(j,i,mut), end=" ") #print("{}*{}={}".format(j,i,mut),end = " ") j+=1 print("")
原创
发布博客 2021.03.11 ·
328 阅读 ·
0 点赞 ·
0 评论

算法编程3:冒泡排序

冒泡排序介绍冒泡排序(Bubble Sort),是一种计算机科学领域的较简单基础的排序算法。其基本思路是,对于一组要排序的元素列,从数组中的第0个元素开始,与后面一个元素进行比较,如果前面的元素大于后面的元素,就调换位置(即:a0与a1比较得到结果后,a1与a2比较…),如此继续,直到比较到最后的两个数,将小数放在前面,大数放在后面,这样最大的元素就被换到数组最末尾,剔除掉最后一个元素,在余下的数组元素中进行上述操作,到最后,整个数组呈现从小到大的排序。这个算法的名字由来是因为越大的元素会经由交换慢慢“
原创
发布博客 2021.03.11 ·
178 阅读 ·
1 点赞 ·
0 评论

算法编程2:快速排序

快速排序的基本思想任取待排序序列的一个元素作为中心元素(可以用第一个,最后一个,也可以是中间任何一个),习惯将其称为pivot,枢轴元素,然后将所有比枢轴元素小的放在其左边,将所有比它大的放在其右边,这样就形成左右两个子表,然后对左右两个子表再按照前面的算法进行排序,直到每个子表的元素只剩下一个。可见快速排序用到了分而治之的思想。将一个数组分成两个数组的方法为:先从数组右边找到一个比枢轴元素小的元素,将数组的第一个位置赋值为该元素;再从数组的左边找到一个比枢轴元素大的元素,将从上面取元素的位置赋值
原创
发布博客 2021.03.11 ·
65 阅读 ·
0 点赞 ·
0 评论

算法编程1:字符串翻转

字符串翻转比如 ‘I like python’,翻转成 ‘python like I’#!/usr/bin/env python3# -*- coding: utf-8 -*-def printTable(table_test): ''' 字符串翻转 ''' inputwords = table_test.split(" ") inputwords = inputwords[::-1] outputwords = " ".join(inputwords
原创
发布博客 2021.03.11 ·
49 阅读 ·
0 点赞 ·
0 评论

python实现递归函数

什么是递归函数?我们都知道一个函数的内部可以调用其他的函数,如果一个函数的内部直接或间接的调用自身的函数,称为递归函数。每调用一次自身,相当于复制一份该函数,只不过参数有变化。递归和循环很像。它的整体思想是,将一个大问题分解为一个个的小问题,直到问题无法分解时,再去解决问题。递归式函数的两个要件1、结束条件:问题可以被分解为的最小问题,当满足结束条件时,递归就不在执行了。一个递归里一定要注意需要有结束条件。2、递归条件:将问题继续分解的条件递归和循环类似,基本是可以互相代替的,循环编写起来比较
原创
发布博客 2021.03.02 ·
415 阅读 ·
1 点赞 ·
0 评论
加载更多