自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

日拱一卒

数据挖掘&网络服务

  • 博客(20)
  • 收藏
  • 关注

原创 遵义会议

我是个懒人,碰到需求或者自己有心思,会对某个东西执迷思考一阵,解决或者解决不了。但是,过后我就不怎么喜欢用翔实的文字来描述记录,我宁可躺着再想一遍或者随手画图跟别人讲。因此,这个blog就当作我自己思路的零散记忆罢了。

2012-02-28 11:05:31 1095

原创 函数式的python

一说起函数式编程语言,脱口而出的就是lisp、haskell、erlang,一说起python的函数式,脑袋里第一反应就是map、filter、reduce。可函数式只是编程范式而已,其具体实现的语言或者语言点只是载体而已,更应该在方法论上考虑和使用函数式。函数式几大规范,其本质是stateless。state包括两个方面,函数内的state和函数外的state。函数内的state,比

2012-06-01 00:18:52 847

原创 关于优化&架构设计选择

新来的兄弟干活,python基本功还不扎实,写代码前就开始考虑优化,一个正则表达式要鼓捣一下午,结果还是思路错误的。关于优化:1. 结构逻辑上的优化要始于设计,动手写前就要想好。这更多的依赖于对要完成业务功能的理解和对预期的判断,经验更重要。2. 代码实现上的优化,如果不是随脑一想就能出方案的熟手,完成之前就不要想,“过早的优化是万恶之源”就用在这里。另: python好学

2012-05-29 23:32:26 494

原创 状态无关特性

时不时的就会发现一些例证来一遍一遍的教导自己“道理都是相通的”。CPU受限于制造工艺的精细程度,因而提高性能的着眼点放在了并行处理上。但是并行不是说并性就可以并行的,比如Python里面为了保证数据安全,必须有一个GIL全局解释锁的存在,导致一个Python解释器同一时间只能使用一个CPU。那为什么要用GIL来保证数据安全呢,因为数据的处理需要上下文环境,换句话说也就是数据的处理结果依

2012-04-19 19:29:43 885

原创 Postgresql存储过程--更新或者插入数据

要记录某一时段机器CPU、内存、硬盘的信息,展示的时间粒度为分钟,但是为了精确,输入数据源的时间粒度为6s。这个统计过程可以在应用层做好,每分钟插入一次,也可以在数据库层写个存储过程来完成,根据传入数据的时间来判断是更新数据库旧数据还是插入新数据。同时,这些数据只需要保留一周,更老的数据需要被删除。删除动作可以每天定时执行一次,也可以写在存储过程中每次检查一下。考虑到性能在此时没什么太大约

2012-03-21 23:10:45 5493

原创 愿景派架构师

今天去听了《愿景派架构师与需求派架构师的思维方法对比》,讲师高焕堂。感觉还不错,思路有收获,结合讲授内容,整理下学习笔记,加上一些自己的旧知识和理解认识。定义: 愿景:广义上的需求,最终目的的,理想的,动态的需求: 狭义上的需求,当前阶段的,现实的,静态的元素:需求派:架构、需求愿景派: 愿景、架构、需求** 普通需求派架构师都是面对

2012-03-17 22:34:16 1492

原创 构造Pythonic C module(续1)

这些天持续尝试完成list的方法,实现了完全Pythonic的slice等。过程中,发现将所有的东西都包装成对象还是有很多好处的,至少传递参数后初始操作层面可以做到统一的api及后续的内存自动管理的引用计数。因此,将思路调整为:1. 三个基本值对象: int, float,string    如果不是整型浮点型运算性能差异,我真想把前两个合并了...2. 两个容器对象:

2012-03-17 21:12:18 381

原创 构造Pythonic C module

最近又对C产生了极大的兴趣,于是重读了《C Primer Plus 》。C的灵活和性能毋庸置疑,但是项目级程序还有一部分很有价值的东西是处理逻辑,这是脱离于语言实现而只存在于人脑子中的生产力,C在这方面就明显缺少表现手法了。或者说,可以表现,但是没有那么方便,不够Pythonic。用惯了Python,感觉其所包含的基本对象已经能够满足大部分逻辑描述的需求,如果把Python源码中lis

2012-03-11 22:48:58 383

原创 什么时候该捕捉异常

代码中很多的try catch,从来没有人说过什么地方该用什么地方不该用,因此导致的最常见的问题就是滥用捕捉异常,不该报的error一大堆,碰到问题有用的error反而没有,追查代码到处都有捕捉异常,都不知道从那个入手调整异常后流程。。。。思考如下:异常:出现功能代码所没有考虑到的状况,导致程序不知如何处理异常出现原因:1。代码流程错误2。输入错误

2012-02-28 17:43:41 859

转载 分布式数据流分析框架

这篇文章和我正做的流数据规则匹配引擎何其相似,适用环境差不多,处理流程相仿,很有借鉴价值,学习!

2011-12-12 23:27:28 522

原创 规则匹配引擎——思路3

PS:速度太慢,我自己都受不了了,麻利点儿上篇说道我们该如何成就“没有重合范围的规则集合”,如何做到?很简单,与坐标系中的坐标变换异曲同工,我们可以通过重合规则来实现没有重合范围的规则集: -------50----75----------------150------1. --------------------------------2.

2011-11-27 21:01:54 888

原创 规则匹配引擎——思路2

上篇分析到想通过运用规则间关系来尽量减少比较次数,然后初步得出的结果是比较乱,然后呢?不能因为乱,这条路就不走了,规则间的关系是很好的信息可供利用,那问题就是,为什么运用这关系会比较乱?有没有不乱的情况?我们可以很容易的想到如下两条规则,保证不乱:1, {'price': '0<x<50'}2, {'price': '50对于这两条规则,当满足任何一个,另一个肯定不满足,原因

2011-11-26 22:58:47 698

原创 规则匹配引擎——思路1

题记:项目需求,当然是项目需求,我要实现一个规则匹配引擎,匹配数据的属性并进行后续操作。数据属性可灵活定制,且要预留足够的扩展方法,性能也有严格的要求。经过1个月的努力,顺利完成目标,我对自己的工作还是非常满意的。成就不只是最后的引擎,更重要的是设计和实现引擎过程中的思考和学习到的东西。自己的思路兜兜转转,造就了最后的结果,可对于我一个懒人,我总想效益最大化,因此想把整个分析思路写下来,帮自己梳理

2011-11-25 21:23:43 2595 2

原创 python 矩阵运算

由于自己基本功不扎实且遗忘,上一篇《python实现求行列式的值》成功出错,其计算的有效性只限于2,3维。尽管我对之前所有数学老师的填鸭式教学报以仇恨式的埋怨,但也对自己的挫深表羞愧...下面脚本修复了之前求行列式的错误,并丰富了其他的矩阵运算的基本内容,包括求常用的乘法及逆矩阵等。#!/usr/bin/env python#coding = utf-8'''Author

2011-11-01 14:26:03 5037 1

原创 python实现矩阵求行列式的值

后注:这个函数只对2,3维矩阵有效,存档在此,权当自嘲,这里《python矩阵运算》实现了一个有效的求行列式的算法python本身对科学计算支持的不够,相关算法都是numpy来实现的。最近数据挖掘的项目需求,需要复习久违的线性代数的知识,下面的一个计算矩阵行列式的算法实现,权当复习连手。def MatrixGetDet(M): length = len(M) i

2011-10-27 23:59:53 11689

原创 python socket分发消息例子(续)

在上一篇博客中实现了一个简单的socket分发消息的例子,server端只用来分发消息,client只用来收取消息。出于接受消息的需要,将之前的代码丰富优化,补充成为四个类:1, SendServer:发消息的server2, RecvClient:收消息的client3, RecvServer:收消息的server4,SendClient:发消息的client12 和34

2011-10-26 19:23:17 732

原创 Python socket分发消息例子

实现一个Server,要求动态监测连接到自己的socket并将消息平衡的分发给各个socket,实现易于分布式部署及负载均衡。server端代码:#!/usr/bin/env python#coding = utf-8'''Author: Yang XUE-mail: xuy1202@gmail.com'''import osimport time import so

2011-10-22 20:47:25 1367

原创 python实现复杂范围重组

为达到高速的全规则匹配(一条数据要和当前所有规则进行匹配,而不是匹配即跳出),需要一个二叉判断树,二叉判断树的输入要求一个有序的、互斥的判断阈值序列。但是,显示中的业务规则绝大多数都是交叉的,比如企业业务规则,同一个/组IP可能会和多个/组IP有交互,因此要对其建立多条规则,而且

2011-10-10 20:54:52 576

原创 Python实现二叉树

最近要用一个python实现的二叉树,python并没有内置的模块,在网上搜出来的也不够好,那就自己写一个吧。#!/usr/bin/env python#coding = utf-8'''Author: Yang XUE-mail: xuy1202@gmail.com

2011-10-09 19:52:24 1225 1

原创 用非负矩阵分解来进行特征聚类

近日有项目需求,要对一堆数据进行聚类,并依据聚类结果对原始数据进行自学习,生成类的规则,并以此检测新数据是否符合之前旧数据的模式。简单看来,找到个合适的聚类算法聚个类,然后对数据进行统计融合就可以了,可是有个特殊的问题在于:一般聚类算法中,一条数据是属于一个确定的类别的,但依照本

2011-09-24 22:31:12 5552 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除