python
文章平均质量分 76
hyperminer
主要从事机器学习,如推荐算法,数据挖掘算法,深度学习等研究,同时会运用大数据框架如hadoop,hive,spark等来存储/计算
展开
-
深入详解python传值问题及内存管理机制
python中到底是“传引用”还是“传值”呢??? 这个问题的回答是:看情况。有的是传值,有的是传引用。 判断的依据是看对象的可变性,而这一点又取决于对象的类型。故在python中的说法是对象可变的还是不可变的。 基本数据类型(整型及其他数据类型,字符串)及元组是不可变的,参数传递的是形参,也就是传过来的是原值的一个拷贝,在函数中改变形参的值实参不会原创 2014-09-12 21:19:14 · 5524 阅读 · 1 评论 -
分词算法笔记
分词模型通常有三种: 基于词典的匹配(trie树,最大匹配法),HMM,CRF查字典的办法最早被提出,就是:把句子从左向右扫描一遍,遇到词典(trie树形式存储)里有的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的词就分割成单字词。下面使用的是python结巴分词:结巴分词:https://github.com/zhangweijiqn/jieba (分词模原创 2016-11-18 11:21:12 · 4105 阅读 · 0 评论 -
word2vec笔记
word2vec原始版本应用可以参考博文:http://blog.csdn.net/jj12345jj198999/article/details/11069485在linux上安装使用的步骤大概是:下载源码,make,执行如下命令进行训练:./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -原创 2016-11-18 11:22:33 · 3492 阅读 · 0 评论 -
语音识别
语音识别没有动手做过,在这里记录一些预先需要了解的知识:GMM算法:http://www.cnblogs.com/mindpuzzle/archive/2013/04/24/3036447.html语音识别常用到GMM算法。1.单高斯模型 如题,就是单个高斯分布模型or正态分布模型。想必大家都知道正态分布,这一分布反映了自然界普遍存原创 2016-11-18 11:32:05 · 3798 阅读 · 1 评论 -
Anaconda笔记
Anaconda会自动安装python需要的包。install及uninstall参考下面的链接:https://docs.continuum.io/anaconda/install#linux-install(1) 下载按住文件: In your browser download the Anaconda installer for Linux.(2) bash原创 2016-11-18 14:24:33 · 941 阅读 · 0 评论 -
numpy scipy pandas sk-learn gensim
NumpyScipy矩阵向量处理。Numpy provides a high-performance multidimensional array and basic tools to compute with and manipulate these arrays. SciPy builds on this, and provides a large number o原创 2016-11-18 14:26:31 · 1273 阅读 · 0 评论 -
python程序打包
在python程序中,一个.py文件被当作一个模块,在各个模块中定义了不同的函数。当我们要使用某一个模块中的某一个函数时,首先须将这个模块导入,否则就会出现函数未定义的情况.(1) python文件,test.py:def testFunc():print("test successfully!")testFunc()引用:from test i原创 2016-11-18 14:28:39 · 1162 阅读 · 0 评论 -
Jupyter
原来是ipyhon最新Jupyter官网:http://jupyter.org/安装:http://jupyter.readthedocs.io/en/latest/install.html安装说明: We recommend using the Anaconda distribution to install Python and Jupyter.原创 2016-11-18 14:29:34 · 1455 阅读 · 0 评论 -
使用IDEA/Ipython来编写python代码
python programming using IDEA or Ipythonpython机器学习常用package:NumpyScipyscikit-learn: is a Python module for machine learning built on top of SciPy and distributed under the 3-Clause BSD licen原创 2016-11-18 14:31:29 · 4431 阅读 · 0 评论 -
Kaggle笔记
kaggle比赛:https://www.kaggle.com/competitions在这里可以看到一些机器学习中数据分析的问题,同时在kernels中可以看到哪些技术能够比较好的解决对应的经验贴:https://zhuanlan.zhihu.com/p/22266330预测titanic上的人是否会幸存:https://www.kaggle.com/c/titani原创 2016-11-18 11:17:53 · 1044 阅读 · 0 评论 -
Hyperopt
hyper parameter 调参框架:optunity:http://optunity.readthedocs.io/en/latest/index.htmlHyperoptHyperopt是一个python库,结合MongoDB可以进行分布式调参,快速找到相对较优的参数。安装的时候需要指定dev版本才能使用模拟退火调参,也支持暴力调参、随机调参等策略。http:/原创 2016-11-18 11:16:28 · 2884 阅读 · 0 评论 -
Python十分钟入门
【简介】Python是一种动态解释型的编程语言。Python可以在Windows、UNIX、MAC等多种操作系统上使用,也可以在Java、.NET开发平台上使用。【特点】1 Python使用C语言开发,但是Python不再有C语言中的指针等复杂的数据类型。2 Python具有很强的面向对象特性,而且简化了面向对象的实现。它消除了保护类型、抽象类、接口等面向对象的元素。3 Pyt转载 2014-09-30 22:00:58 · 539 阅读 · 0 评论 -
初识python图像处理
用Python来完成简单图像处理-python图形处理库PIL(Python Image Library)1.引言: 本文简单介绍了用Python来完成简单图像处理任务的方法。Python的面向对象、弱数据类型等等特性都使得用它来进行简单的图像处理的时候非常的简洁方便。2.简介: PythonWare公司提供了免费的图像处理工具包PIL(Python Image Library原创 2014-11-12 15:37:43 · 5000 阅读 · 0 评论 -
用程序模拟新浪微博登录过程
首先,根据文章https://xuelangzf.github.io/09-03-2014/how_to_crawl_coursera.html 的思想,自己尝试了下,可以成功,然后自己转载 2014-09-28 16:05:24 · 1740 阅读 · 0 评论 -
初识搜索引擎(python简陋版)
搜索引擎原理 相信看到这篇文章的人里不可能有人没使用过搜索引擎,它改变了人们获取信息的方式,可以说是上个十年互联网最伟大的发明。那么怎么写出一个搜索引擎呢?当我们想象自己要凭空写一个谷歌这样的庞然大物,多数人都觉得是个不可能完成的任务。事实上,写出一个谷歌这样处理海量数据的通用搜索引擎确实不是个人或者几个人能够完成的(附1),但搜索引擎的基本原理并不复杂,我们完全有能力写出一个简陋转载 2014-11-09 19:07:59 · 2411 阅读 · 2 评论 -
python用httplib模块发送get和post请求
python中,模拟http客户端发送get和post请求,主要用httplib模块的功能。1、python发送GET请求我在本地建立一个测试环境,test.php的内容就是输出一句话:1echo 'Old friends and old wines are best.';python发送get请求代码转载 2015-01-12 20:18:28 · 4248 阅读 · 0 评论 -
python升级
安装完CentOS5.9(Final)后,执行#Python与#python -V,看到版本号是2.4.3,很老了,而且之前写的都是跑在python3.X上面的,3.X和2.X有很多不同,有兴趣的朋友可以参考下这篇文章:http://www.jb51.net/article/34011.htm更新python千万不要把老版本的删除!新老版本是可以共存的,很多基本的命令、软件包都转载 2015-03-15 18:38:42 · 519 阅读 · 0 评论 -
xgboost and xgboost4j
XGBoostScalable, Portable and Distributed Gradient Boosting (GBDT, GBRT or GBM) Library, for Python, R, Java, Scala, C++ and more. Runs on single machine, Hadoop, Spark, Flink and DataFlow可扩展、原创 2016-11-18 11:14:03 · 18123 阅读 · 3 评论 -
AutoMl
Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?http://www.jmlr.org/papers/volume15/delgado14a/delgado14a.pdfautoML( aotumated Machine Learning)https://github.原创 2016-11-18 11:14:55 · 4586 阅读 · 0 评论 -
Sk-learn及算法笔记
查看所有的API:http://scikit-learn.org/stable/modules/classes.htmlXGBoost的python API中提供了sklearn版本的API:https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn只要原创 2016-11-18 14:27:38 · 4067 阅读 · 0 评论