SnowNLP

#-*- coding:utf-8 -*-

from snownlp import SnowNLP
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

#unicode的编码转换成中文的list
def testUnicodeToChineseList(all_symptom):
    str_symptom = str(all_symptom).replace('u\'', '\'')
    return str_symptom.decode("unicode-escape")

def testBasis():
    print '开始中文处理库'
    s = SnowNLP(u'这个东西真心很赞')
    print s.words ## [u'这个', u'东西', u'真心', u'很', u'赞']
    # for i in s.words:
    #     print i
    print s.tags ## [(u'这个', u'r'), (u'东西', u'n'), #  (u'真心', u'd')
                                # , (u'很', u'd'), #  (u'赞', u'Vg')]
    print s.pinyin
    s = SnowNLP(u'「繁體字」「繁體中文」的叫法在臺灣亦很常見。')

    print s.han
    text = u'''
    自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
    它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
    自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
    因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,
    所以它与语言学的研究有着密切的联系,但又有重要的区别。
    自然语言处理并不是一般地研究自然语言,
    而在于研制能有效地实现自然语言通信的计算机系统,
    特别是其中的软件系统。因而它是计算机科学的一部分。
    '''
    s = SnowNLP(text)
    print s.keywords(3)
    print testUnicodeToChineseList(s.keywords(3))
    print testUnicodeToChineseList(s.summary(3))
    s = SnowNLP([[u'这篇', u'文章'],
                 [u'那篇', u'论文'],
                 [u'这个']])
    print testUnicodeToChineseList(s.idf)
    print testUnicodeToChineseList(s.tf)
    #文本相似度
    print s.sim([u'文文章',u'论大文',u'大论文'])  # [0.3756070762985226, 0, 0]
testBasis()

结果如下:

 

C:\Python27\python.exe D:/pycharmWorks/17firstYear/17snowNLP/testSnowNLP.py
开始中文处理库
[u'\u8fd9\u4e2a', u'\u4e1c\u897f', u'\u771f\u5fc3', u'\u5f88', u'\u8d5e']
[(u'\u8fd9\u4e2a', u'r'), (u'\u4e1c\u897f', u'n'), (u'\u771f\u5fc3', u'd'), (u'\u5f88', u'd'), (u'\u8d5e', u'Vg')]
[u'zhe', u'ge', u'dong', u'xi', u'zhen', u'xin', u'hen', u'zan']
「繁体字」「繁体中文」的叫法在台湾亦很常见。
[u'\u8bed\u8a00', u'\u81ea\u7136', u'\u8ba1\u7b97\u673a']
['语言', '自然', '计算机']
['因而它是计算机科学的一部分', '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向', '自然语言处理是一门融语言学、计算机科学、数学于一体的科学']
{'论文': 0.5108256237659907, '这个': 0.5108256237659907, '那篇': 0.5108256237659907, '这篇': 0.5108256237659907, '文章': 0.5108256237659907}
[{'这篇': 1, '文章': 1}, {'论文': 1, '那篇': 1}, {'这个': 1}]
[0, 0, 0]

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值