yijichangkong
码龄16年
关注
提问 私信
  • 博客:220,238
    220,238
    总访问量
  • 32
    原创
  • 1,503,387
    排名
  • 52
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2009-07-29
博客简介:

yijichangkong的专栏

查看详细资料
个人成就
  • 获得40次点赞
  • 内容获得18次评论
  • 获得92次收藏
创作历程
  • 6篇
    2016年
  • 11篇
    2015年
  • 1篇
    2014年
  • 12篇
    2012年
  • 4篇
    2010年
成就勋章
TA的专栏
  • Hibernate
    3篇
  • Spring
  • Struts
    1篇
  • java OO
    2篇
  • Java EE
  • Oracle
    5篇
  • hadoop
    4篇
  • software
    1篇
  • python
    5篇
  • Spark
    9篇
  • 数据挖掘
    1篇
  • 算法
    1篇
  • spark错误记录
    1篇
  • linux
    3篇
  • hive
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

历届JOLT图书奖整理

Jolt大奖素有“软件业界的奥斯卡”之美誉。苦于查不到历史记录,故作部分整理。由于从2002年及之后,至2008年为止,书籍类奖项分为通用类和技术类进行评奖,因此先将2001年及以前,和2010年及以后的书籍类奖项单独列入下表。年度奖项名称作者出版商中文版1990震撼奖Annotated C++ R
原创
发布博客 2012.05.17 ·
8959 阅读 ·
1 点赞 ·
2 评论 ·
13 收藏

《利用python进行数据分析》书本数据集及源码

发布资源 2016.12.08 ·
rar

spark中多表连接优化实例

环境信息: hive1.2.1 spark1.6.1 hadoop2.6.0-cdh5.4.2 memory:1918752, vCores:506表结构: 表名称 表容量 主键 hive存储类型 temp_01_pc_order 5G PC_ORDER_ID RCFile TST_ORDER_RISK 9.4G 非 PC_ORDER_ID RC
原创
发布博客 2016.07.13 ·
9010 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

sed基础

sed读取数据方式: sed是流式编辑器,它先从文件的一个文本行或者从标准输入中读取数据,copy进缓冲区,然后读取命令行或者脚本的第一条命令,并使用这些命令查找模式或者定位行号进行编辑;如此重复。 sed处理的是缓冲区中的copy,并不处理源文件;所有的改动如果不重定向到一个文件,都将输出到屏幕。 调用方式: 1、命令行: sed [选项] ‘sed命令’ input_file
原创
发布博客 2016.06.01 ·
568 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

awk基础

AWK程序:调用方式:1、命令行方式:awk [-F field-separator] 'commands' input-file(s) 2、将所有awk命令插入一个文件,并使其可执行,然后用awk命令解释器作为脚本首行,便于输入脚本名称来调用。#!/bin/awk -f 3、将所有awk命令插入一个单独的文件,然后调用:awk -f awk-script-file input-file(s)任
原创
发布博客 2016.05.23 ·
565 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hive两大表关联优化试验

呼叫结果(call_result)与销售历史(sale_history)的join优化: CALL_RESULT: 32亿条/444G SALE_HISTORY:17亿条/439G原逻辑 Map: 3255 Reduce: 950 Cumulative CPU: 238867.84 sec HDFS Read: 587550313339 HDFS Write: 725372
原创
发布博客 2016.05.18 ·
12295 阅读 ·
3 点赞 ·
0 评论 ·
17 收藏

grep命令

grep家族grep:标准grep命令; Egrep:扩展grep,支持基本及扩展的正则表达式; Fgrep:快速grep。允许查找字符串而不是一个模式grep的一般格式: grep[选项]基本正则表达式[文件] 常用的grep选项: -a :将 binary 文件以 text 文件的方式搜寻数据 -c :计算找到 ‘搜寻字符串’ 的次数 -i :忽略大小写的不同,所以大小写视为相同
原创
发布博客 2016.05.13 ·
645 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark sql运行出错(Container killed on request. Exit code is 143)

错误描述:SQL三张表做join运行出错;用hive执行报错如下: Diagnostic Messages for this Task: Container [pid=27756,containerID=container_1460459369308_5864_01_000570] is running beyond physical memory limits. Current usag
原创
发布博客 2016.05.06 ·
56879 阅读 ·
2 点赞 ·
0 评论 ·
29 收藏

使用IPython探索和可视化数据

推荐使用 Anaconda.它是一个预编译的科学Python套件。(或者Enthougt)下载 Anaconda-2.3.0-Linux-x86_64.sh 并copy到/usr/local/apps目录下,运行 bash Anaconda-2.3.0-Linux-x86_64.sh完成安装。更新环境变量:在/home/hadoop/.bashrc中添加export PATH=/usr/loca
原创
发布博客 2015.09.27 ·
2620 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

Spark开发环境及源码阅读环境配置

源码阅读环境配置:参考如下博文:Windows + IDEA + SBT 打造Spark源码阅读环境上面是在windows环境的配置,比较耗时,而且由于网络原因,很有可能出错;在linux环境下就比较简单了:进入spark源代码目录下,运行以下命令:./sbt/sbt gen-idea会自动生成idea项目文件;然后进入idea,点击File->Open project即可。使用intelli
原创
发布博客 2015.09.03 ·
2122 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据挖掘算法——ID3(决策树)

决策树算法:决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常 对应于待分类对象的属性
原创
发布博客 2015.08.07 ·
6559 阅读 ·
4 点赞 ·
3 评论 ·
30 收藏

Spark SQL and DataFrame Guide(1.4.1)——之Data Sources

Spark SQL通过DataFrame接口支持多种数据源操作。一个DataFrame可以作为正常的RDD操作,也可以被注册为临时表。
翻译
发布博客 2015.07.30 ·
3360 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark SQL and DataFrame Guide(1.4.1)——之DataFrames

Spark SQL是处理结构化数据的Spark模块。它提供了DataFrames这种编程抽象,同时也可以作为分布式SQL查询引擎使用。DataFramesDataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame,不过在底层做了很多优化;我们可以使用结构化数据文件、Hive tables,外部数据库或者RDDS来构造DataFrames
翻译
发布博客 2015.07.29 ·
4639 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

在spark上运行独立程序(Self-Contained Applications)

在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手。运行独立程序(SimpleApp.py): 首先编写程序(这里用Pytho的API): from pyspark import SparkContextlogFile = "README.md" #注意这里的文件是在hdfs中的sc = SparkContext("local","Simp
原创
发布博客 2015.07.05 ·
2276 阅读 ·
1 点赞 ·
2 评论 ·
1 收藏

spark-shell初体验

1、复制文件至HDFS:hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /userhadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user/hadoophadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -copyFromL
原创
发布博客 2015.05.02 ·
2084 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop集群只有一个datanode启动问题

之前不懂犯了个低级错误,导致datanode只能启动一个;很是奇怪;首先,之前多次将namenode格式化,导致namenode和datanode的clusterID不一致无法启动datanode注:clusterID在/usr/local/hadoop/hdfs/name/current目录下;解决方案:修改Shadoop1 和 Shadoop2 的data/current目录下的V
原创
发布博客 2015.05.02 ·
19874 阅读 ·
8 点赞 ·
4 评论 ·
13 收藏

我的hadoop2.4安装过程

先记录下安装dk出现的问题:
原创
发布博客 2015.05.01 ·
970 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

在hadoop2.4集群环境下安装spark

1、下载spark最新版:http://spark.apache.org/downloads.html下载对应的Scala版本:http://www.scala-lang.org/download/
原创
发布博客 2015.05.01 ·
3506 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

Python包numpy、Matplotlib、SciPy在64位Windows上的安装

Python版本:3.4.2 64位Matplotlib 最容易,有64位的exe文件,直接下载:http://sourceforge.net/projects/matplotlib/files/?source=navbarnumpy 和 SciPy:http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy 下载64位的whl文件至于whl文
原创
发布博客 2015.03.15 ·
46399 阅读 ·
10 点赞 ·
0 评论 ·
12 收藏

sublime text 2安装及使用

1、首先下载Sublime Text:http://www.sublimetext.com/2、基本你设置,参考此文:http://blog.jobbole.com/40660/Preferences.sublime-settings 配置:{ "auto_complete": false, "caret_style": "solid", "color_scheme": "Pac
原创
发布博客 2014.11.02 ·
3246 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏
加载更多