自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 学习笔记-Bert及其变体调参经验

Bert调参:1、bert的微调可以将参数设置为:bach size :设置为16或者32 learning rate(Adam):5e-5、3e-5、2e-5(比较小的学习率) num of epochs:2,3,42、Bert的微调比较容易,可以设置验证集,进行一定范围的Grid Search3、可以在Bert后面接一些层,比如CRF层、Linear层、BiLSTM层4、为了确保后接层学习的好,可以对后接层设置额外的、较大的学习率Bert变体RoBERTa:RoBE

2022-05-23 17:36:43 6616

原创 学习笔记-深度学习部分

1、神经网络基础与多层感知机1.1人工神经元1.2多层感知机1.3激活函数1.4反向传播算法1.5损失函数更多损失函数可到PyTorch网站: https://pytorch.org/docs/stable/nn.html#loss-functions 函数解读: https://zhuanlan.zhihu.com/p/613799651.6权值初始化...

2022-05-12 13:44:40 215

原创 学习笔记-传统序列标注下的实体识别

1、问题提出2、逻辑回归求解3、 逻辑回归正则化逻辑回归实现多分类

2022-05-09 16:48:15 227

原创 学习笔记-机器学习

1、线性回归形式化定义假设函数(hypotheses function)损失函数(loss function)代价函数(cost function)梯度下降法使用梯度下降法求解,使代价函数损失值最小梯度下降算法变形1、批量梯度下降 ,在数据集比较多的情况下,速度会比较慢2、随机梯度下降,每次参考一个样本,下降的方向会震荡3、小批量梯度下降是介于上面两种之间线性回归-模型评价1、均方误差MSE2、均方根误差...

2022-04-29 16:24:13 1034

原创 Python基础集训营

Python基础训练营

2022-04-22 11:33:55 368

原创 学习笔记-Docker、CICD、K8S

1 Docker1.1 Docker就是一个集装箱,将代码程序及环境打包在一起。1.2 相比于虚拟机,Docker容器是非常轻量,一台主机运行成百上千个容器是家常便饭。1.3镜像:保存代码及其环境文件 容器:运行镜像,产生容器,容器里跑我们的程序 仓库:托管镜像文件的网站1.4 Docker的标准工作流构建阶段:编写Dockerfile,构建镜像,将镜像push到Dockerhub 部署阶段:从Dockerhub上pull镜像,基于新镜像,docker run 容器,容.

2022-04-15 15:45:20 547

原创 学习笔记-分词的策略融合和场景应用

1 词性标注1.1常见的词性集百度词性集(24个)ICTCLAS汉语词性(39个)ICTPOS3.0词性(94个)人民日报词性集(103个)jieba词性集(64个)1.2词性标注做法机械切分,从词典获得词性模型切分,从模型中获取;(需要额外的分词词性序列标注模型)1.3一词多性问题我 的 喜欢:喜欢为vn我 喜欢 他 :喜欢为v对于机械分词如何解决一词多性?可以训练一个词性的HMM模型(统计三个参数矩阵:初始状态矩阵、状态转移矩阵..

2022-04-09 19:34:51 1036

原创 全网新闻数据(SogouCA)版本:2012可下载

官网下载地址:搜狗实验室(Sogou Labs)自己下载报404错误最近在做分词,发现sogou数据集官网失效,下载不了,找了很久,为了方便大家下载链接: https://pan.baidu.com/s/18KfG3aG2Jcxj6JKBbQFfKA 提取码: 3j16...

2022-04-06 12:57:08 3179 16

原创 ubuntu 18.04 安装 CRF++-0.58亲测有效

安装包下载:链接: https://pan.baidu.com/s/14ARASO9H9FMRuNfYhTKp2A 提取码: nikg安装步骤:1. 将CRF++-0.58.tar.gz移动到 /opt2.到 /opt 目录下解压 CRF++-0.58.tar.gz 命令:tar zxvfCRF++-0.58.tar.gz3.cd到crf++的目录下 命令:cd...

2022-04-02 14:14:05 1653

原创 学习笔记-序列标注的分词方法

1、序列标注任务1.1和分类任务的区别:分类任务单标签、序列标注是分类任务在序列数据上的延伸1.2用序列标注表示分词分词前:昨天,小明在北京大学的燕园看了中国男篮的一场比赛分词后:昨天 , 小明 在 北京大学 的 燕园 看 了 中国男篮 的 一场 比赛B表示一个词的开始;M表示中间位置;E表示一个词的结尾,S表示单个词1.3序列标注的演化HMM----> CRF-----> BiLSTM-CRF-----> BERT-CRF特征提取逐渐变..

2022-04-01 11:42:27 1617

原创 学习笔记-基于语言模型的中文分词器

1、中文分词中文分词的使用场景:搜索引擎、新闻网站体验分词:http://ai.baidu.com/tech/nlp/lexical常见分析方法:词典的机械切分 模型的序列标注中文分词的难点:歧义切分 未登录词识别(新词)2、语言模型2.1原理一个句子是否合理,就看它的概率大小如何,我们可以将一个句子表示为词的联合概率,并用条件概率公式写出来,可以使用频率估计条件概率,复杂的条件概率比较难计算,马尔可夫假设被提出,句子的联合概率可以被改写成N-Gram形式的条件概率,语言

2022-03-26 10:55:01 1686

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除