【未完成】【机器学习】(二十五)处理文本数据:电影评论的情感分析(IMDb数据集)

数据有分类特征、连续特征,同样有文本特征。

文本数据通常被表示为由字符组成的字符串,但并非所有字符串特征都被当作文本处理。

用字符串表示的数据类型:

  • 分类数据
  • 可以在语义上映射为类别的自由字符串:手动输入值对应固定类别
  • 结构化字符串数据:手动输入值不与固定类别对应,但是存在一些内在结构,比如地址、人名。
  • 文本数据:格式自由,由短语或句子组成,例如聊天记录、评论。

文本分析可应用于信息检索(IR)和自然语言处理(NLP),数据集通常称为语料库,每个由单个文本表示的数据点被称为文档

应用:电影评论的情感分析

1.IMDb数据集

互联网电影评论数据集(IMDb):http://ai.stanford.edu/~amaas/data/sentiment/
下载后解压,文件还挺大的,解压挺慢。是一个二分类数据集,将评分高于7分的判定“正面的pos”,否则为“负面的neg”。

load_file函数的功能是读取文件并返回文件内容为字符串。

可能是数据集下载的问题?我运行不了程序,暂未解决

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值