- 博客(4)
- 资源 (5)
- 问答 (2)
- 收藏
- 关注
原创 【未完成】【机器学习】(二十五)处理文本数据:电影评论的情感分析(IMDb数据集)
数据有分类特征、连续特征,同样有文本特征。文本数据通常被表示为由字符组成的字符串,但并非所有字符串特征都被当作文本处理。用字符串表示的数据类型:分类数据可以在语义上映射为类别的自由字符串:手动输入值对应固定类别结构化字符串数据:手动输入值不与固定类别对应,但是存在一些内在结构,比如地址、人名。文本数据:格式自由,由短语或句子组成,例如聊天记录、评论。文本分析可应用于信息检索(IR)和自然语言处理(NLP),数据集通常称为语料库,每个由单个文本表示的数据点被称为文档。应用:电影评论的情感分
2020-08-19 16:47:26 708
原创 【机器学习】(二十四)算法链与管道:网格搜索中应用Pipeline类;通用管道接口;利用网格搜索选择模型
机器学习算法,首先要对数据进行缩放,然后手动合并特征,再利用无监督机器学习来学习特征。算法链:将许多不同的处理步骤和机器学习模型链接在一起。Pipeline类可以将多个处理步骤合并为单个scikit-learn估计器,类本身具有fit、predict、score方法。Pipeline类最常见的用例是将预处理步骤(比如数据缩放)与一个监督模型(比如分类器)链接在一起。管道对象由一个步骤列表组成。每个步骤都是一个元组,包含一个自选定的字符串代表名称+一个估计器的实例。利用管道,减少了“预处理+分类”过程
2020-08-18 20:02:21 850
原创 【机器学习】(二十三)评估指标:Dummy分类器;混淆矩阵;AUC指标
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2020-08-04 22:04:38 5019
原创 【机器学习】(二十二)模型调参——网格搜索
模型的重要参数:提供泛化性能的参数网格搜索:尝试所有重要参数的可能组合简单的网格搜索:将数据集划分为用于构建模型的训练集、用于选择模型参数的验证集/开发集、用于评估所选参数性能的测试集。使用嵌套循环对每种参数组合都训练一个训练集上模型,找到在验证集分数最高的那一组参数,最后经过测试集得到模型精度。带交叉验证的网格搜索带交叉验证的网格搜索:用交叉验证来评估每种参数组合的性能。在SVM模型中使用交叉验证调参:from sklearn.svm import SVCfrom sklearn.model
2020-08-01 17:56:50 873
python游戏:外星人入侵【alien_invasion .rar】
2020-07-10
【EduCoder】实训项目计算机数据表示实验56.circ
2020-05-28
【EduCoder】实训项目存储系统设计1235.circ
2020-05-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人