- 博客(6)
- 资源 (11)
- 收藏
- 关注
转载 斯坦福大学命名实体识别
一、分词介绍 http://nlp.stanford.edu/software/segmenter.shtml 斯坦福大学的分词器,该系统需要JDK 1.8+,从上面链接中下载stanford-segmenter-2014-10-26,解压之后,如下图所示 ,进入data目录,其中有两个gz压缩文件,分别是ctb.gz和pku.gz,其中CTB:宾州大学的中国树库训练资料 ,PKU:中国北京大
2017-06-29 11:18:28 1557 5
原创 命名实体识别方法
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-06-29 10:58:57 2084
原创 Imbalanced Data
1:什么是Imbalanced Data类不平衡(class-imbalance)是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。 have a binary classification problem and one class i
2017-06-23 15:50:29 2171
原创 CrossValidation
1.1 概念交叉验证(Cross-validation)主要用于模型训练或建模应用中,如分类预测、PCR、PLS回归建模等。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测,并求这小部分样本的预测误差或者预测精度,同时记录它们的加和平均值。这个过程迭代K次,即K折交叉。其中,把每个样本的预测误差平方加和,称为PRESS(predicted E
2017-06-23 14:42:58 339
原创 Scikit-Learn Knowledge
random_state与random seed的作用是相同的,可以用来确保每次划分训练集和测试集的时候都完全一样。通过设置好random_state当别人重新运行你的代码的时候能够得到完全一样的结果,复现和你一样的过程。如果你设置为None,则会随机选择一个种子。
2017-06-23 10:14:11 323
原创 One-Hot Encoding
独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。
2017-06-21 11:46:08 405
Pytorch 中文官方教程
2020-10-14
GoogleAndroidSDK开发范例大全
2014-09-03
Android应用开发详解pdf和源代码
2014-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人