- 博客(101)
- 资源 (37)
- 收藏
- 关注
原创 ubuntu IDEA15安装
UbuntuIdea 15安装、破解、创建快捷方式http://www.cnblogs.com/Lyush/p/4114971.html1.安装包 jdk1.7.0_71下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html iidea-IC-1
2016-11-21 10:39:25 1044
原创 使用IDEA/Ipython来编写python代码
python programming using IDEA or Ipythonpython机器学习常用package:NumpyScipyscikit-learn: is a Python module for machine learning built on top of SciPy and distributed under the 3-Clause BSD licen
2016-11-18 14:31:29 4422
原创 Jupyter
原来是ipyhon最新Jupyter官网:http://jupyter.org/安装:http://jupyter.readthedocs.io/en/latest/install.html安装说明: We recommend using the Anaconda distribution to install Python and Jupyter.
2016-11-18 14:29:34 1454
原创 python程序打包
在python程序中,一个.py文件被当作一个模块,在各个模块中定义了不同的函数。当我们要使用某一个模块中的某一个函数时,首先须将这个模块导入,否则就会出现函数未定义的情况.(1) python文件,test.py:def testFunc():print("test successfully!")testFunc()引用:from test i
2016-11-18 14:28:39 1162
原创 Sk-learn及算法笔记
查看所有的API:http://scikit-learn.org/stable/modules/classes.htmlXGBoost的python API中提供了sklearn版本的API:https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn只要
2016-11-18 14:27:38 4065
原创 numpy scipy pandas sk-learn gensim
NumpyScipy矩阵向量处理。Numpy provides a high-performance multidimensional array and basic tools to compute with and manipulate these arrays. SciPy builds on this, and provides a large number o
2016-11-18 14:26:31 1271
原创 Anaconda笔记
Anaconda会自动安装python需要的包。install及uninstall参考下面的链接:https://docs.continuum.io/anaconda/install#linux-install(1) 下载按住文件: In your browser download the Anaconda installer for Linux.(2) bash
2016-11-18 14:24:33 941
原创 局部敏感哈希LSH
参考资料:简单介绍:http://www.cnblogs.com/maybe2030/p/4953039.html在茫茫人海中发现相似的你——局部敏感哈希(LSH):http://www.cnblogs.com/fengfenggirl/p/lsh.html基本思想 局部敏感哈希的基本思想类似于一种空间域转换思想,LSH算法基于一个假设,如果两个文本在原有的
2016-11-18 11:34:26 696
原创 Glove笔记
论文出处:http://nlp.stanford.edu/projects/glove/下面准备测试的是python实现版本:github地址:https://github.com/maciejkula/glove-python安装:sudo pip install glove_python下载源码:git clone --r
2016-11-18 11:33:01 5238
原创 语音识别
语音识别没有动手做过,在这里记录一些预先需要了解的知识:GMM算法:http://www.cnblogs.com/mindpuzzle/archive/2013/04/24/3036447.html语音识别常用到GMM算法。1.单高斯模型 如题,就是单个高斯分布模型or正态分布模型。想必大家都知道正态分布,这一分布反映了自然界普遍存
2016-11-18 11:32:05 3783 1
原创 word2vec笔记
word2vec原始版本应用可以参考博文:http://blog.csdn.net/jj12345jj198999/article/details/11069485在linux上安装使用的步骤大概是:下载源码,make,执行如下命令进行训练:./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -
2016-11-18 11:22:33 3491
原创 分词算法笔记
分词模型通常有三种: 基于词典的匹配(trie树,最大匹配法),HMM,CRF查字典的办法最早被提出,就是:把句子从左向右扫描一遍,遇到词典(trie树形式存储)里有的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的词就分割成单字词。下面使用的是python结巴分词:结巴分词:https://github.com/zhangweijiqn/jieba (分词模
2016-11-18 11:21:12 4102
原创 参数服务器笔记
主要用于对分布式机器学习算法/深度学习算法参数优化。简介:http://sanwen8.cn/p/174rUaE.html原理介绍:http://blog.csdn.net/cyh_24/article/details/50545780李沐和陈天奇等国内英才成立的DMLC深度学习项目组:github: https://github.com/d
2016-11-18 11:18:44 2284
原创 Kaggle笔记
kaggle比赛:https://www.kaggle.com/competitions在这里可以看到一些机器学习中数据分析的问题,同时在kernels中可以看到哪些技术能够比较好的解决对应的经验贴:https://zhuanlan.zhihu.com/p/22266330预测titanic上的人是否会幸存:https://www.kaggle.com/c/titani
2016-11-18 11:17:53 1043
原创 Hyperopt
hyper parameter 调参框架:optunity:http://optunity.readthedocs.io/en/latest/index.htmlHyperoptHyperopt是一个python库,结合MongoDB可以进行分布式调参,快速找到相对较优的参数。安装的时候需要指定dev版本才能使用模拟退火调参,也支持暴力调参、随机调参等策略。http:/
2016-11-18 11:16:28 2883
原创 AutoMl
Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?http://www.jmlr.org/papers/volume15/delgado14a/delgado14a.pdfautoML( aotumated Machine Learning)https://github.
2016-11-18 11:14:55 4586
原创 xgboost and xgboost4j
XGBoostScalable, Portable and Distributed Gradient Boosting (GBDT, GBRT or GBM) Library, for Python, R, Java, Scala, C++ and more. Runs on single machine, Hadoop, Spark, Flink and DataFlow可扩展、
2016-11-18 11:14:03 18122 3
原创 OLAP
OLAP又是什么鬼?参考:数据挖掘与数据统计、OLAP之间不同之处是什么? 大数据的OLAP技术OLAP(On-line Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。说人话就是我们的交易数据包含很多信息(属性),我们需要从不同的视角去分析和解读数据:以外卖业务来说,一条交易数据里就包含了很多数据属
2016-11-18 11:12:03 701
原创 知识图谱笔记
资料:https://github.com/memect/kg-beijing (北京知识图谱学习小组)http://www.china-cloud.com/zhongyunxy/20140612_38070.html(王昊奋:大规模知识图谱技术)http://www.36dsj.com/archives/31317http://www.36dsj.com/archives/313
2016-11-18 11:11:01 3277
原创 Neo4j笔记
在构建知识图谱的时候,Neo4j用来建立实体之间的关系非常方便,下面简单介绍一下它的使用方法:开发者教程:http://neo4j.com/docs/developer-manual/3.0/ (Cypher clauses:4.2. Patterns in Practice)安装: https://neo4j.com/download/ 下载For Individuals
2016-11-18 11:08:08 4645
原创 Cassandra笔记
简介:WIKI :https://zh.wikipedia.org/wiki/CassandraApache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式架构于一身。Facebook于2008将 Cassandra 开源,此后,由
2016-11-18 11:04:48 1676
原创 scala数组,自定义类型,自定义排序等
定义数组:valactive = Array.fill(numRuns)(true)valcosts = Array.fill(numRuns)(0.0)varactiveRuns =newArrayBuffer[Int] ++ (0until numRuns)自定义类型:typeWeightedPoint= (Vec
2016-11-17 15:28:14 3278
原创 spark-job-server
spark rest api包括:livy: http://livy.io/index.htmlspark-job-server: https://github.com/spark-jobserver/spark-jobserverspark运行在yarn上,查看运行进度:>yarn application -list | grep SPARKA
2016-11-17 15:23:00 4879
原创 spark安装及入门笔记
spark介绍Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。如果你熟悉Hadoop,那么你知道分布式计算框架要解决两个问题:如何分发数据和如何分发计算。Hadoop使用HDFS来解决分布式数据问题,MapReduce计算范式提供有效的分布式计算。类似的,Spark拥有多种语言的函数式编程API,提供了除map和reduce之外更多的运算符,这些
2016-11-17 15:21:49 4691
原创 hive解析树
Hive的ParseDriver类中,通过antlr生成的语法树AST。例子:Select name,ip from zpc where age > 10 and area in (select area from city)(TOK_QUERY (TOK_FROM (TOK_TABREF (TOK_TABNAME zpc))) (TOK_INSER
2016-11-17 15:19:09 2984
原创 HiveQL整理总结
下面是一些常用操作的语句,其他的可以去hive官网查看。grant create to user aaa;//create不需要on database 或者tablegrant drop on database test to user aaa;//drop需要指定database或者tableshow grant user datajingdo_m
2016-11-17 15:18:07 2269
原创 Hive安装笔记
Hive安装部署 Hive:数据仓库。存储在hdfs上,使用mR计算。数据以文本形式如txt存储在hdfs上,用户通过hive可以使用传统的sql来对hdfs上的数据文件进行相关操作,并且hive可以将sql转化为MR代码来进行分布式计算。Hive:解释器(将脚本HiveQL解释成java代码,成为mp程序) 编译器(编译java代码),优化器。Hive数据存储在hd
2016-11-17 15:16:41 538
原创 Hbase笔记
官方网站:http://hbase.apache.org/programming guide: http://hbase.apache.org/book.html#quickstartHBase 以列为单位聚合数据,基于“对于特定查询,不是所有列的值都是必须的”的假设。列式存储更有利于压缩。比较适合键值对或者有序数据的存放。HBase源于google的BigTable论文。
2016-11-17 15:14:54 364
原创 Hbase安装笔记
HBase简介参考:http://www.oschina.net/p/hbase HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBa
2016-11-17 15:14:23 654
原创 cassandra笔记
简介:WIKI :https://zh.wikipedia.org/wiki/CassandraApache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式架构于一身。Facebook于2008将 Cassandra 开源,此后,由
2016-11-17 15:13:25 2419
原创 yarn
yarnApache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN的基本思想将JobTracker的两个主要功能(资源管理和作业调度
2016-11-17 15:12:19 1723
原创 hadoop安装笔记
hadoop 安装虚拟机1, 使用vmware安装ubuntu server2, 为ubuntu server 14.04 安装图形界面参考:http://jingyan.baidu.com/article/64d05a0262b613de55f73b0e.htmllogin进入系统之后,开始进行用户界面的安装。首先输入如下命令:sudo apt-get
2016-11-17 15:11:40 1314
原创 hadoop笔记
hadoop shell 命令:https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html给用户授权: hdfs dfs -chmod -R 755 /修改所有者权限:hdfs dfs -chown -R larry /hdfs很多个小文件上传,压缩的好处:namenode中存储了各个文件所在block的位置(该信息
2016-11-17 15:10:49 809
原创 深度学习理论
书籍:《神经网络与深度学习》讲义,邱锡鹏《Neural Networks and Deep Learning》:http://neuralnetworksanddeeplearning.com/CS231n Convolutional Neural Networks for Visual Recognition:http://cs231n.github.io/中文版
2016-11-17 15:08:51 1730
转载 Q-learning
英文原文:http://mnemstudio.org/path-finding-q-learning-tutorial.htm中文翻译:http://blog.csdn.net/itplus/article/details/9361915,这篇教程通俗易懂,是一份很不错的学习理解 Q-learning 算法工作原理的材料。第一部分:中文翻译第
2016-11-17 15:06:19 707
原创 强化学习(Reinforcement Learning)
知乎上关于deep learning和强化学习的资源:https://zhuanlan.zhihu.com/intelligentunit 目前在Deep Reinforcement Learning取得开拓性进展的主要集中在DeepMind和UC Berkerley团队(openAI)强化学习资料:简明教程:http://blog.csdn.net/itplus/art
2016-11-17 15:04:44 11505
原创 深度学习应用整理
Deep Neural Netword 由Geoffrey E. Hinton 在06年提出后,效果不是很理想,直到近2年人们发现使用大量的数据去训练得到的模型能取得很好的效果。
2016-11-17 15:03:20 1468
原创 深度学习框架
Deep Learning框架:0、Tensorflow。是一个理想的RNN(递归神经网络) API和实现,TensorFlow使用了向量运算的符号图方法,使得新网络的指定变得相当容易,但TensorFlow并不支持双向RNN和3D卷积,同时公共版本的图定义也不支持循环和条件控制,这使得RNN的实现并不理想,因为必须要使用Python循环且无法进行图编译优化。Keras是基于The
2016-11-17 14:57:12 742
批处理代码700例
2015-04-12
R语言编程艺术
2014-01-06
R语言入门教程
2013-11-08
programming visual c++ fifth edition
2013-06-04
21天学会VC
2013-05-05
将win32程序封装成MFC框架
2013-05-02
VC资源管理器及添加注册表关联图标
2013-05-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人