写于20190926,中文语料库构建分词模型时的
菜鸟笔记
1.生成固定维度矩阵
transmetrix = np.zeros((4,4))
2.log函数使用
import math
math.log(number) #此处number必须大于零,不然会ValueError: math domain error
可以手动设置,当x为0时,置成无穷小值float("-inf")
3.中文处理
split函数:将字符串按某字符分割,返回字符串的列表
content = re.split(' ',content)
join函数:用re正则表达式提取需要的内容
for str1 in content:
str1 = ''.join(re.findall('[\u4e00-\u9fa5]',str1))
replace函数:
for line in file:
for i in del_dic:
line=line.replace(i,'')
判断是不是中文:
def is_char(char):
if ('\u4e00' <= char <= '\u9fa5'):
return True
4.字符串拼接的规格化表示:用+ 来连接字符串时只能连接str类型,如果是int类型
str3 = state.name+': %d '%(state.count)+' '+str2
5.时间计算
import time
start = time.clock() #开头
print('\n %f s'%(time.clock()-start)) #结尾