利用标注语料生成决策weights

1、之前两周利用主动学习的方式训练集
2、标注数据分离一小部分作为测试集利用LR分类器调参。
3、利用最有参数训练标注语料生成特征权重weights。
3、使用weights获得主干提取demo。
周一的时候做好了主干提取的Demo初始版本,经过测试效果不太理想
分析原因:训练集过少、覆盖面过窄、稳定性不高
这周的主要工作:
1、提取多种语料库中的资源做人工语料标注
2、增加部分特征,扩大特征维度
3、特征结构统一化,例如某个词的特征用词典表示,预定义好所有的key。暂时定义如下:

  • 列表内容
  • word_0 当前词本身
  • pos_0 当前词本身词性
  • cluster_0 当前词本身聚类编号
  • word_-1 当前词的前一个词本身
  • pos_-1 当前词的前一个词词性
  • cluster_-1 当前词的前一个词聚类编号
  • word_1 当前词的后一个词本身
  • pos_1 当前词的后一个词词性
  • cluster_1 当前词的后一个词聚类编号
  • parent_edge_0 当前词的父边关系类型
  • child_edge_0 当前词的子边关系类型
  • word_parent_node_0 当前词的父节点词本身
  • pos_parent_node_0 当前词的父节点词性
  • cluster_parent_node_0 当前词的父节点词聚类编号
  • word_parent_node_-1 当前词的前一个词的父节点词本身
  • pos_parent_node_-1 当前词的前一个词的父节点词性
  • cluster_parent_node_-1 当前词的前一个词的父节点词聚类编号
  • word_parent_node_1 当前词的后一个词的父节点词本身
  • pos_parent_node_1 当前词的后一个词的父节点词性
  • cluster_parent_node_1 当前词的后一个词的父节点词聚类编号

计划下周:
把句子主干提取完善版本完成。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值