- 博客(1)
- 资源 (3)
- 收藏
- 关注
原创 一次实践:spark查询hive速度缓慢原因分析并以此看到spark基础架构
前一段时间数据挖掘组的同学向我返回说自己的一段pyspark代码执行非常缓慢,而代码本身非常简单,就是查询hive 一个视图中的数据,而且通过limit 10限制了数据量。 不说别的,先贴我的代码吧:from pyspark.sql import HiveContextfrom pyspark.sql.functions import *import jsonhc = HiveContext
2017-02-28 12:01:34 17759
对genbank文件的解析实例
perl的cpan库支持对基因库文件的解析,这个perl的脚本文件实现了对genbank类型的基因库中基因数据的提取和解析。用户使用的时候需要手动修改代码中的genbank文件的路径。
2013-10-14
Mongodb的并发访问性能测试的java客户端
这个客户端实现了对mongoDB数据库的并发访问及访问性能测试。包括查询,修改和插入性能。用户使用该客户端的时候需要修改mongodb的ip地址和端口号,以及数据库名称和collection名称。
2013-10-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人