自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

转载 spark 协方差计算

    val data = Array(      Vectors.dense(4.0, 2.0, 3.0),      Vectors.dense(5.0, 6.0, 1.0),      Vectors.dense(2.0, 4.0, 7.0),      Vectors.dense(3.0, 6.0, 5.0)    )            rdd是可以直接算协方...

2018-12-27 17:33:25 1053

原创 Linux 打包与解压

打包:   tar -zcvf NewsSpark.tar.gz  NewsSpark 解包:     tar -zxvf NewsSpark.tar.gz unzip documents_entities.zip  

2018-12-19 16:29:24 177

原创 shell 文本提取指定列

逗号分割,提取2 3 列,输出的到  events1cat events.csv | awk -F"[,]+" '{print $2,$3}' >> events1.csv 

2018-12-19 16:06:42 7819

原创 Linux 大文件拆分

按行拆分10行一拆split -l 10 date.file10k一拆split -b 10k date.file

2018-12-19 16:04:36 2206

原创 服务器上为python 安装自己的包

有的服务器为团队服务装了东西可能会干扰他人。也可能没有权限 方法1,用anaconda 制作自己的虚拟环境,在自己的环境里装各种东西 2,pip install *** --user...

2018-11-30 19:59:50 1617

转载 python 没有queue模块的问题

我的python版本是2.7,我在运行如下命令的时候,报如下错误,但是pip 和easy_install安装queue都安装不成功,报错如下:网上也搜了一下问题,关于这方面的解决方法很少,几乎没有。python官网上的依赖包也没有找到queue模块。小妹刚刚接触python,请兄弟姐们们帮忙!原因:Python2.x 是import Queue   注意Q是大写。  而到了Python3...

2018-11-28 16:20:55 868

转载 linux rz命令上传文件失败处理方法

注意:单独用rz会有两个问题:上传中断、上传文件变化(md5不同),解决办法是上传是用rz -be,并且去掉弹出的对话框中“Upload files as ASCII”前的勾选。-a, –ascii-b, –binary 用binary的方式上传下载,不解释字符为ascii-e, –escape 强制escape 所有控制字符,比如Ctrl+x,DEL等rar,gif等文件文件采用...

2018-11-28 14:37:10 3918 1

转载 bin/sh^M: bad interpreter: No such file or directory解决(转载)

原帖子https://www.cnblogs.com/felixzh/p/6108345.html问题:bin/sh^M: bad interpreter: No such file or directory原因:.sh脚本在windows系统下用记事本文件编写的。不同系统的编码格式引起的。解决方法:修改.sh文件格式    (1)使用vi工具       vi t...

2018-11-25 19:12:02 285

原创 统计hadoop文件中文本行数

用shell中的 wc -l hadoop fs -cat /*/*/*/*/*/* |wc -l 

2018-11-21 11:55:37 2031

原创 shell 查看bash手册

直接man 命令egman sz里面有一些该命令的介绍 同时支持搜索功能man -k 想搜索的命令等

2018-11-18 17:14:40 203

原创 map 操作 rdd内元素,写出、更新内容,不报错,但是无法写出

错误分析1,rdd内不能再进行rdd操作2,如果有外部变量如var a………………rdd1.map({处理代码更新 a})则不会报错但a不会更新 解决方案1,累加器var accum_ind = sc.accumulator(1, "clk")iii = accum_ind.valueaccum_ind+=1可以实现一些记录操作2 ...

2018-11-14 15:41:53 422

原创 spark 中 rdd合并

2个rdd合并如果为根据键值合并考虑使用join 如果为求并集,可以直接用rdd1.union(rdd2)

2018-11-07 15:28:20 6343 2

原创 Scala spark 键值对的使用

val aid_featureMapBC = sc.broadcast(***.map(x=> {      val aid=x._2._2      val feature=x._2._1      //val laid=x._1      (id,feature)    }).collectAsMap())  val vec1 = aid_featureMapBC.va...

2018-11-06 13:00:06 178

原创 Scala join

在Scala中join默认为取交集即取数据量最小的那一边 Join类似于SQL的inner join操作,返回结果是前面和后面集合中配对成功的,过滤掉关联不上的。 leftOuterJoin:leftOuterJoin类似于SQL中的左外关联left outer join,返回结果以前面的RDD为主,关联不上的记录为空。 rightOuterJoin:rightOu...

2018-11-05 10:55:31 1594

原创 Scala 字符替换 特殊字符 引号 中括号

ss=ss.replaceAll("\"","")           //  引号替换为空ss=ss.replaceAll("\\[","")           //  [替换为空ss=ss.replaceAll("\\]","")           //  ]替换为空

2018-10-24 11:58:44 5369

原创 python 读入数据到列表

bb=open('aa.txt','r',encoding='utf-8') cc= bb.readlines()#读取全部内容 ,并以列表方式返回#以字典形式对应ee={}for linesi in cc:    data=linesi.split("\t")    ee[data[0]]=data[1]...

2018-10-24 11:47:13 2052

原创 python 点乘 内积

import numpy as npaa=np.dot(bb,cc])

2018-10-24 11:44:49 19239 1

原创 python 降序排列

 sort_tmp=sorted(tmp,key=lambda ii:ii[1],reverse=True)

2018-10-24 11:43:22 15935

原创 python 写出到csv

res_f=open('aa.csv','a',encoding='utf-8')for caiyangi in range(100):    res_f.write(str(bb[caiyangi])+"\n")res_f.close()

2018-10-24 11:42:42 577

原创 shell 查看指定ip的端口是否可以通

telnet ip portegtelnet *.*.*.* 80

2018-10-24 11:36:08 3162

原创 shell脚本 带json curl post

curl -X POST \  http://******* \  -H 'host:****.com' \  -H 'content-type: multipart/form-data' \  -H 'boundary=----********' \  -F ts=`date '+%s'` \ -F 'data={"extend":{"***":1}}'

2018-10-23 17:25:44 2037

原创 字符串分割后逐个处理 shell split

str="hello,world,i,like,you,babalala"  for i in `echo "$str" | sed 's/,/\n/g'`do      aa=$i   echo $aadone

2018-10-23 17:21:45 541

原创 shell 逐行处理文件

while read -r linedo    if [ ${line:0:6} ==  $str ] ; then        aa=${line:7}    fidone < 'part-00000' #文件名字

2018-10-23 17:02:47 681

原创 curl post

host=`zkname **.**.com | awk -F $'\t' '{print $1":"$2}'`curl --request POST \  --url http://$host/pools/pool/*** \  --header '***' \  --form **=** \ 

2018-10-23 17:01:58 287

原创 shell定时运行

crontab -e里面增加文本#1分钟*/1 * * * * cd /home/ddd/fff/src &&         ./hello.sh#2小时运行一次* */2 * * * cd /home/ddd/zfffxy/src &&         ./post_shell.sh#每个30分执行一次,如4:3030 * * * ...

2018-10-23 16:58:05 332

原创 shell字符串切割

#${变量名:起始:长度}得到子字符串a=${line:7}b=${line:0:6} 

2018-10-23 16:55:33 599

原创 双栏下表格和图片在LaTeX下的使用

在双栏下工作1,插入双栏1张图片2,插入双栏多张图片,控制显示行数3 插入双栏复杂表格

2017-02-11 11:20:59 7293

原创 LaTeX下 Visio转eps

1,需要去白边框Visio下,另存为emf格式emf文件用Adobe Acrobat  pro 打开,另存为eps即可2 ,不需要去白边框Visio下,另存为PDF格式PDF文件用Adobe Acrobat  pro 打开,另存为eps即可

2017-02-11 10:59:42 413

原创 湘云

湘云分析涉及豁达,颇有女汉子气质,才情高,女子的柔情与可爱

2017-02-11 10:47:19 290

原创 宝钗

宝钗分析涉及干练圆滑,古代的好“夫人”,“高屋建瓴”的照顾,懂得自保

2017-02-11 10:42:44 637

原创 黛玉

黛玉分析涉及待人真诚、毒舌、对感情的笃定,导致神经有些纤细、诗情高、寄人篱下的感伤

2017-02-11 10:35:52 417

原创 养生己见

人身体处于一个稳定的状态,当这个稳定被打破,人就会不舒服,得病甚至危及生命。文章涉及饮食、养生节目、心态、用药、免疫系统、运动、生病的内忧外患

2017-02-11 10:30:19 309

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除