- 博客(78)
- 资源 (3)
- 收藏
- 关注
原创 数据结构方面
heap是堆,stack是栈 堆上的空间是用户手动分配和释放,有很大的自由存储区,c的malloc函数,c++的new操作符分配在堆上。python面向对象 malloc与free是C++/C语言的标准库函数,new/delete是C++的运算符 python的构造函数是__init__,析构函数是__del__ 继承语法 class 派生类名(父类名),在python中继承中的一些特点:
2016-08-08 19:08:33
499
转载 数据预处理
转载请注明出处:http://blog.csdn.net/u012162613/article/details/50629115===========常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-scor
2016-08-04 18:04:45
432
原创 深度学习
机器学习的发展经历了:浅层学习和深度学习两个阶段,典型的浅层模型有:高斯混合模型GMMs,SVM、逻辑回归等。 1974,方向传播(back propagation,BP)算法解决了由简单的神经网络模型推广到复杂神经网络模型中线性不可分的问题,但是BP在神经网络的层数增加的时候蚕食优化额效果无法传递到前层,容易使得模型最后陷入局部最优解,也比较容易过拟合。 2006,深度置信网络(deep be
2016-08-04 14:01:07
1154
转载 各种行程问题
旅行商问题(TRAVELING SALESMAN PROBLEM, TSP)这个问题字面上的理解是:有一个推销员,要到N个城市推销商品,他要找出一个包含所有N个城市的具有最短路程的环路。 TSP的历史很久,最早的描述是1759年欧拉研究的骑士周游问题,即对于国际象棋棋盘中的64个方格,走访64个方格一次且仅一次,并且最终返回到起始点。 TSP由美国RAND公司于1948年引入,该公司的声誉以及线性规
2016-08-01 16:04:57
2279
原创 python高级编程
python学习:http://www.cnblogs.com/kaituorensheng/category/386335.html python并行编程 python可以多线程多进程编程,多线程可以共享全局变量,多进程不能。多线程中,所有子线程的进程号相同;多进程中,不同的子进程进程号不同。 多线程用thread/threading库,多进程用multiprocessing 多线程:
2016-07-31 23:37:49
1724
转载 keras
大神笔记,转载自http://blog.csdn.net/u012162613/article/details/45397033Keras简介Keras是基于Theano的一个深度学习框架,它的设计参考了Torch,用Python语言编写,是一个高度模块化的神经网络库,支持GPU和CPU。使用文档在这:http://keras.io/,这个框架貌似是刚刚火起来的,使用上的问题可以到github提
2016-07-31 00:15:36
17594
原创 pandas使用笔记
DataFramedates=pd.date_range('20160728',periods=6) #创建固定频度的时间序列df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')) #创建6*4的随机数,索引,列名称。df2=pd.DataFrame({'A':pd.Timestamp('20160728'),
2016-07-28 18:19:12
17176
1
原创 机器学习概念理解
GBDTGradient Boost Decision Tree,Boosting是提升的意思,每一次新的训练都是为了改进上一次的结果。迭代的思想。在Gradient Boosting中,每一次计算都是为了减少上一次的残差,而为了消除残差,我们可以在残差减少的梯度方向上建立新的模型,所以,GBDT中,新的模型建立是为了使得之前模型的残差往梯度方向减少,与传统Boost对正确、错误的样本进行加权有着很
2016-07-23 18:25:40
995
原创 重要函数
正则化: L1正则化:相当于维度约减,使权重基本为0 截断作用 L2正则化:相当于权重伸缩,使w变小。特征工程使用pandas读取数据,构建dataframe,pd.DatetimeIndex()对时间数据进行处理,分离日期和时间,pd.to_datetime()修改时间格式,pd.DatetimeIndex(data.date).dayofweek取星期几的判断,dataFeatureCon.
2016-07-22 11:58:39
1280
原创 自然语言处理-手写笔记
这些笔记是看《数学之美》以及平时文献随便写的。整理成电子版留着。分词、隐马尔科夫模型隐马尔科夫、信息熵互信息、相对熵条件概率、N-gram模型条件随机场、维特比算法图论、网络爬虫、pagerank网页排名有限状态机、余弦定理信息指纹伪随机数产生算法、最大熵原理、GIS通用迭代算法香农第一定理、布隆过滤器、贝叶斯网络期望最大化、逻辑回归模型条件随机场、产生式和判别式模型
2016-07-21 10:26:53
915
原创 推荐系统
推荐系统评价标准准确度:打分系统,top N推荐 覆盖率:表示对物品长尾的发掘能力 多样性:表示推荐列表中物品两两之间的不相似性 新颖度:给用户suprise 惊喜度:推荐和用户历史兴趣不相似,却满意的 信任度:提供可靠的推荐理由 实时性:实时更新程度基于内容的推荐分析内容,上下文,无需考虑用户行为。为要推荐的内容,建立一份资料,比如词在文件中的权重,常用方法是tf-idf,然后为用户也
2016-07-20 21:21:43
1536
原创 word2vec
源代码 https://code.google.com/p/word2vec/思想使用deep learning思想,Google开源的一款将词表征为实数值向量的高效工具,采用的模型由CBOW(continuous bag of words,连续的词袋模型)和Skip-Gram。 通过训练,word2vec可以把文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语
2016-07-20 19:43:01
1021
原创 Kmeans和kmeans++
聚类算法分类划分聚类 Partitioning Methods :K-means 层次聚类 Hierachical Methods: Bottum-Up,Top-Down, BIRCH, CURE, CHAMELEON 基于密度的聚类 Density-based Methods: DBSCAN 基于网格的聚类 Grid-based Methods:CLIQUE 基于模型算法 Model-ba
2016-07-20 15:33:36
8054
原创 SVM
SVM 支持向量机,在sklearn里面,有两种,SVC支持向量分类,用于分类问题,SVR,支持向量回归,用于回归问题。核方法用于产生非线性分类边界。 linear,线性核,会产生线性分类边界,一般来说它的计算效率最高,而且需要数据最少。线性函数。from sklearn import svmsvc = svm.SVC(kernel='linear')svc.fit(X, y)poly,多项
2016-07-20 13:05:42
2508
原创 逻辑回归
LR逻辑回归是在线性回归的基础上增加Sigmoid函数映射。是业界使用最广泛的分类算法。线性回归线性回归的模型: hθ(x)=g(θTx) h_{\theta}(x) = g(\theta^{T}x) 损失函数: J(θ)=1m∑i=1m12(hθ(x(i))−y(i))2 J(\theta) = \frac{1}{m}\sum_{i=1}^{m}\frac{1}{2}(h_\theta(x^
2016-07-19 17:23:19
1241
原创 DSP模型中FM FFM模型
机器学习方法应用在DSP广告投放中,预估CTR/CVR,业界常用的方法是人工特征工程+LR,GBDT,近期FM,FFM模型在其中使用效果非常显著。先解释一波DSP相关专业术语: DSP:Demand-Side platform,需求方平台,在互联网广告产业中,DSP是一个系统,也是一种在线广告平台,服务于广告主,帮助广告主在互联网上进行广告投放。两个核心特征:强大的RTB(Real-Time Bi
2016-07-19 15:13:07
6612
原创 Spark机器学习
初始化操作Rdd常见的Rdd转化操作常见的rdd行动操作键值对操作 pair RddMLlib特征提取线性回归逻辑回归支持向量机朴素贝叶斯决策树与随机森林聚类协同过滤与推荐降维奇异值分解模型评估初始化操作spark shell: bin/pyspark 每个spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作,驱动器程序包含应用
2016-07-18 23:52:43
9683
原创 CNN卷积神经网络
卷积神经网络CNN,属于深度学习,推荐july算法的一个公开课,https://www.julyedu.com/video/play/18/134 这是看完之后的一份总结。逻辑回归到感知器z=θ0+θ1X1+θ2X2{z = \theta_0+\theta_1X_1+\theta_2X_2}a=g(z)=11+e−za =g(z)=\frac{1}{1+e^-z}神经网络神经网络包括输入层,隐含层
2016-07-18 20:39:11
2113
原创 linux面试点
linux面试主要考察对常用命令和文件系统的理解和熟悉程度,以下是对linux基础的几个模块:常用命令,目录结构,环境变量,自定义命令,文件权限修改等方面做总结。 1.常用命令 五个查找命令:grep find locate whereis whichgrep:通用规则表达式分析程序,支持使用正则表达式搜索文本。 grep [选项] pattern [文件名]find:find [
2016-07-18 14:33:40
667
原创 机器学习思想
机器学习是一个模型,一个损失函数,一个优化算法。线性回归中,前提假设是y服从正态分布,损失函数是最小二乘法,而在逻辑回归中,y服从二项分布,损失函数是log对数损失函数。损失函数:衡量模型的预测值和真实值之间不一致程度;平方损失-最小二乘法-线性回归:OLS将问题转化为凸优化问题,假设样本和噪声都服从高斯分布,中心极限定理,极大似然估计,最优拟合直线应该是各点到回归直线的距离之和最
2016-06-09 17:57:52
851
原创 奇异值分解和特征值分解
1)特征值分解: 如果说一个向量v是方阵A的特征向量,将一定可以表示成下面的形式: 这时候λ就被称为特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式: 其中Q是这个矩阵A的特征向量组成的矩阵,Σ是一个对角阵,每一个对角线上的元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值对应的特征向量就是描述这个
2016-06-09 15:43:12
1129
原创 每一个不曾起舞的日子
Every single day without dancing is one day we betrayed of life.
2015-01-02 15:50:35
2320
5
转载 标准sql
一、 简单查询 简单的Transact-SQL查询只包括选择列表、FROM子句和WHERE子句。它们分别说明所查询列、查询的表或视图、以及搜索条件等。 例如,下面的语句查询testtable表中姓名为"张三"的nickname字段和email字段。 SELECT nickname,email FROM testtable WHERE name='张三'
2014-04-17 18:21:58
1177
转载 事实表和维度表
BI中事实表和维度表的定义 一个典型的例子是,把逻辑业务比作一个立方体,产品维、时间维、地点维分别作为不同的坐标轴,而坐标轴的交点就是一个具体的事实。也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。 首先介绍下数据库结构中的星型结构,该结构在位于结构中心的单个事实数据表中维护数据,其它维度数据存储在维度表中。每个维度表与事实
2014-04-15 18:29:48
3146
原创 快速建立网站
最近写了一个中药管理系统,又做了一个网站(c# .net sql server)...由于是赶时间,只在乎快速上手,现在把主要部分记下来,以后开发的时候借鉴一下。1.VS2012 创建空网站2.创建数据库3.配置web.config文件:声明连接数据库信息,若有上传文件和图片等操作,需在配置文件里说明4.在项目下建立一些包,存放image、css、html等截面5.建立一
2013-09-29 19:51:20
1721
转载 android中Activity传递参数之onActivityResult
我们的一个Activity要调用一个新的Activity,让后用户对新的Activity操作完成后,关闭新的Activity,这时需要将新的Activity中的一些值传递给旧的Activity。这就中情况不用自己处理,Android已经为我们编写了一个onActivityResult(int requestCode, int resultCode, Intent data)方法,专门处理这种情况。
2013-09-22 18:12:02
3211
原创 开发日记(一)
这是自己编程第二天,自己解决了好几个问题,觉得很有成就感,决定写下以后开发中遇到的问题。 1.在多个Activity中传递数据,之前只学过绑定基本的putExtra,今天上网一搜,发现一个好东西:Parcelable,并且学习了其建立的步奏,根据提示,将自己写的东东读出来了2.按钮事件的监听,由于自己的按钮可以实现滑动和点击,两个事件之间容易出现混淆,请教之前实习公司的大神,他教我
2013-09-16 22:19:20
57599
转载 Activity之间传递对象数组
对于Android来说传递复杂类型,主要是将自己的类转换为基础的字节数组,Activity之间传递数据是通过Intent实现的。 Android序列化对象主要有两种方法,实现Serializable接口、或者实现Parcelable接口。实现Serializable接口是 JavaSE本身就支持的,而Parcelable是Android特有的功能,效率比实现Serializable接口高,而且
2013-09-16 20:15:10
3763
转载 tomcat配置
· 1,JDK:版本为jdk-7-windows-i586.exe 下载地址http://www.oracle.com/technetwork/java/javase/downloads/index.html2,tomcat:版本为apache-tomcat-7.0.33-windows-x86.zip 下载地址http://tomcat.apache.org/3
2013-09-07 13:50:12
1206
原创 adb访问数据库常用命令
常用命令: 1)创建数据库文件: >SQLite3 d:\test.db 回车 就生成了一个test.db在d盘。 这样同时也SQLite3挂上了这个test.db 2) 用.help可以看看有什么命令 >.help 回车即可 3)可以在这里直接输入SQL语句创建表格 用;结束,然后回车就可以看到了
2013-09-02 15:49:01
1489
原创 ios越狱
一直听说这玩意,好像很神奇,但是没有试过,先积累一下原理iOS越狱(英语:iOS Jailbreaking)是用于获取苹果公司移动设备操作系统iOS最高权限(ROOT)的一种技术手段。越狱完成后设备依然运行iOS操作系统,一款名为Cydia的软件将会被安装在设备中,通过此软件可以完成越狱前不可能进行的动作,例如安装AppStore以外的软件、更换外观主题、运行Shell程序、甚至可能解开营运商
2013-09-02 11:39:28
2769
原创 给自己时间沉淀下来
像很多学长学姐当初一样,我也到了繁忙的大四。这个尴尬的时间,要选择,要放弃。。开始实习,去窥探一下外面的世界。经过一个月的测试工作,开始发现自己与别人的差距还是很大。再继续试水,只会让自己的局限性越来越大,所以我决定给自己时间,沉淀下来,读几本好书,学点实在的东西,让自己有资格去跨入社会。 由于实习的公司是做移动软件开发的,之前 在学校也学习过java,于是就买了本android入门书来
2013-08-27 15:13:20
6798
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅