自然语言
zangao0718
这个作者很懒,什么都没留下…
展开
-
对于2-gram 条件下对英语文本的分词处理
#coding=utf-8import re#得到1元条件下的分词,并将这些分词加入到list中with open('/home/zheng/firstproject/lecture.txt', 'r') as lecture: content = lecture.read().strip().decode('gbk').encode('utf-8') lecture_lis原创 2017-05-23 21:05:43 · 742 阅读 · 0 评论 -
分词学习(3),基于ngram语言模型的n元分词
最大概率分词中,认为每个词的概率都是独立的,但是有一部分词,其切分却与前一个词密切相关,特别是中文分词中更为明显,英文中就是如上一篇文章中的“tositdown”的例子。 这样就可以使用2元模型,就是如一个分割形式"ab cde f"的概率,如果按照1-gram计算:P(ab cde f) = P(ab)*P(cde)*P(f)如果按照2-gram计算:P(ab cde转载 2017-05-20 16:13:41 · 1382 阅读 · 0 评论 -
统计分词/无字典分词学习(2):n-gram词频统计
我们现在面对的是“wheninthecourseofhumaneventsitbecomesnecessary”这样一堆语料,要获取词典,怎么办?第一步肯定是找到所有可能是词的片段了,常用的方法就是n-gram切分了,如假设词的最大长度是3,则句子“abcd”的n-gram切分就是:1-gram切分:a b c d2-gram切分:ab bc cd3-gram切分:转载 2017-05-21 00:09:19 · 1516 阅读 · 0 评论 -
对文章单词的字母个数的计算
首先是先把每篇文章里的单词用正则表达式切分出来,然后放进一个list里面,然后再将这个list里面的元素一一遍历,每次遍历后的结果都是用正则对这个单词进行切分,将得到的结果就是用另一个list保存起来,最后求这个list的长度就是每个单词的字母长度了。具体的代码如下:# -*-coding:utf-8 -*-import nltk# nltk.download()import s原创 2017-07-16 15:02:01 · 579 阅读 · 0 评论 -
求文章的段落的句子个数,句子平均数以及句子的标准差
先用划分段落的办法把每一个段落存进一个列的表里面,再遍历每个段落,求出句子个数具体代码如下:# -*-coding:utf-8 -*-import nltk# nltk.download()import sysimport numpyimport reimport osfrom scipy.stats import pearsonrreload(sys)sys.set原创 2017-07-16 15:07:20 · 1087 阅读 · 0 评论 -
python字典元素的读取
1.根据字典的键读取键对应的值,键不存在时抛出异常>>> a={'apple':'苹果','banana':'香蕉','pear':'梨'}>>> a['apple']'苹果'>>> a[b]Traceback (most recent call last): File "<pyshell#38>", line 1, ..原创 2018-07-24 20:19:49 · 5551 阅读 · 0 评论 -
如何根据字典中值的大小,对字典中的项排序
实际案例某班英语成绩以字典形式存储为{‘Li’:79, ‘Jim’:88, ‘Lucy’:92, …},根据成绩高低,计算学生排名。这里我们将利用内置函数sorted对学生的英语成绩排名。方法一:首先,我们利用zip()将字典转化为元组;然后,我们调用sorted函数对元组进行排序,代码如下:# -*- coding: utf-8 -*-from random import...转载 2018-07-24 20:22:08 · 849 阅读 · 0 评论 -
李航统计学习方法——感知机的实现
笔者,即将大四了,面临秋招的挑战,笔者以后想从事数据分析的相关工作,暑假实习自己在一家小公司做数据分析的工作,但是所接触到的工作内容都是比较偏业务方向的,偏技术的比重并没有我想象中的那么高,因此我想抓紧时间复习一下,加上之前看过台湾林轩田教授的机器学习视频,因此现在想试着去实现一下李航统计学习方法上面设计到的机器学习算法。正文感知机:假设输入空间是χ⊆Rn,输出空间是γ=(+1,−1)。输...原创 2019-08-28 15:12:12 · 201 阅读 · 0 评论