自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 python匹配文本中全角符号的两种方法

在对文本进行处理的时候经常会遇见要对括号和标点进行匹配常见的英文(半角)符号如( ) 直接用正则匹配即可但是遇见全角字符(中文括号、标点),直接用正则匹配会存在问题:因为编码一般为utf8,若直接匹配,中文括号的3字节编码会和一些中文的字节编码重复,产生意想不到的结果若用decode转为unicode编码,则可避免产生错误结果,但也无法直接用正则匹配到经过试验,发现最佳解决方法

2016-03-31 15:04:02 12489 2

原创 python tips

for line in fin:    lines = line.strip().split('\t')先如今直接可以简化写成for line in fin:    lines = line.split()还有l = [5:15]那么 ll[0:20] 便等于l[5:15]会自动作边界检查

2016-03-11 16:14:30 231

原创 ElasticSearch安装指南

1.官网下载eswget https://download.elastic.co/elasticsearch/elasticsearch/elasticsearch-1.6.0.tar.gz2.解压tar zxf elasticsearch-1.6.0.tar.gz3.修改启动配置文件cd elasticsearch-1.6.0vim config/elasticsearc

2016-03-11 11:56:45 298

原创 kmeans++算法流程

1 输入n个点2 随机一个点做seed13 计算其余点和seed1的距离,以距离远近为正比计算概率,产生下一个seed4 重复3,获得k个seed5 把每个点划分到最近的中心(分簇)6 计算每个簇的中心,作为新的中心7 重复 5,6,直到任意中心移动距离小于阈值(或重复M次)

2016-03-09 20:24:48 3117

原创 在数组中交换变量的陷阱

写快排后发现结果不对有一个数莫名其妙的为0看了整整一天代码 都没发现问题后来一点点跟踪 最终发现swap的结果不对,电光火石间明白了为了追求逼格,在swap变量的时候我使用了异或但是以前看到过,用异或交换数组中变量的时候,如果数组下标相同,则相当于一个数连续对自己做了三次或运算,结果会导致这个数变成0真是好坑啊

2016-03-01 17:08:36 515

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除