自然语言处理实验

跨象乘云的个人空间_哔哩哔哩_Bilibili跨象乘云,广州跨象乘云软件技术有限公司;人工智能科研教学一体化实验平台|人工智能专业建设|人工智能实验室 | 项目案例|网址:https://www.080910t.com/;跨象乘云的主页、动态、视频、专栏、频道、收藏、订阅等。哔哩哔哩Bilibili,你感兴趣的视频都在B站。https://space.bilibili.com/189064479/channel/collectiondetail?sid=701611.文本分析

2.文本分词

3.词性标注

4.移除停用词 

        NLTK  自定义stop_words  中文使用jieba将句子分词,然后去掉停用词

5.文本标准化(文本正则化)  1.拼写错误 2.词干提取 3.词形还原

        拼写错误:英语-算法,最小编辑距离(更改后) autocorrect

        词干提取:from nltk import stem    stem.PorterStemmer

        词性还原:  WordNetLemmatizer()  配合词性标注,还原后将达到更优的效果

TextBlob是python的开元文本处理库,属于NLTK的扩展库,可以处理很多自然语言处理的任务。

6.文本翻译  实验使用python的Translate替换TextBlob的内置翻译引擎API,该引擎同样有翻译次数限制。

7.文本清洗和分词    结构化数据(表格)。半结构化数据(XML、JSON、HTML)

        re   使用正则表达式匹配字母、数字,其他全部使用空格替换:re.sub([r'[^\s\w]|_])

8.ngram:    两种使用方法 from NLTK import ngrams    from textblob import TextBlob

9.高级文本分词器:

10.NER命名实体识别, 

        1.分词  2.词性标注   3.实体识别

11.词义消歧

        拼写相同的词在不同句子中有不同的含义,词的分类任务,词在特定的句子中属于哪个意思

Lesk算法  NLTK中的lesk模块

12.语句边界检测

        from nltk import sent_tokenize   能够识别出真正是句子分割的  '.'

13.词袋模型

        忽略词序,语法,句法信息,单纯词频

        向量的维度有词袋的大小确定。。

        sklearn 的CountVectorizer创建词袋

14.TF-IDF

        TF单词频率

        IDF逆文档频率,真正相关的单词在其他文档出现的频率应该很低

15.Jaccard相似度和余弦相似度

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值