- 博客(8)
- 收藏
- 关注
原创 文本向量化-词嵌入方法系列2:动态词嵌入(ELMo+BERT+XLNet)
本文主要介绍了分散式文本表示中的三种动态词嵌入方法:ELMo、BERT和XLNet,介绍了每种模型的结构特点以及它们之间的对比。
2024-11-09 15:19:22 670
原创 文本向量化-词嵌入方法系列1:静态词嵌入(Word2Vec+GloVe)
本文主要介绍了分散式文本表示中的两种静态词嵌入方法:Word2Vec和GloVe,描述了它们的计算词向量的过程并对两者进行了对比。
2024-11-08 21:24:32 1135
原创 Financial distress prediction(企业财务困境预测)-论文精选
在入门金融风险预测时,通过各种渠道查阅学习了很多文献,花了不少精力。在这里做一个简短的总结博客,主要关注公司财务困境预测,这种预测能帮助投资者更好地了解企业,并允许银行和其他金融机构建立预警系统,避免风险传播。希望能帮助大家节省时间,快速了解这一领域,后续将持续更新,如有不足,欢迎批评指正。
2024-10-25 14:33:10 773
原创 NER-命名实体识别 序列生成方法
序列生成方法是将NER任务视为一个序列生成的过程,输入为原始文本,输出为相应的实体标签序列或者加上标签后的原文本序列,它与序列标注的方法的一大区别是它更灵活,不要求输出序列与输入序列的长度严格相同。
2024-10-23 10:28:33 1205
原创 中英文检测/语言识别分类的实用方法介绍
我在实习和写课程大作业的过程中都遇到过这样的问题,一个网站要支持多语言,有的时候就需要分语言训练模型,所以第一步就是识别用户输入的语言类型,然后再把inputted_sentence传给对应语言的工作流。但是感觉网上没有特别全面的方法介绍,因此我自己总结了以下两方面的方法分享给大家:(1)通过Unicode范围安装比例自己写一个简单函数(2)直接调用别人写好的工具包(langdetect,langid,fastText等)。
2024-10-15 08:29:46 671
原创 Python爬虫快速入门(Requests+BeautifulSoup+Scrapy)
爬虫是重要的数据获取方式,下面主要介绍3种常用的Python库:Requests,BeautifulSoup和Scrapy,教你轻松入门Python爬虫
2024-10-13 12:55:33 1185
原创 ACL2023-NER相关论文解读:SplitNER
今天要讲的这篇文章是发表在ACL2023会议上的Split-NER,文章题目如下,主要就是用pipeline方法先进行span detection再进行classification,两步操作都采用了QA的方式向模型进行提问,兼顾平衡了effective(train faster)和efficient(perform better),启示是以后对于复杂的NLP任务都可以采用先分解成several different sub-tasks,然后分别微调LLM解决。
2024-10-11 10:45:36 777
原创 NER-命名实体识别 入门解读
简单介绍了解决NER任务中的sequence labeling(序列标注)、interval prediction(区间预测)和question answering(问答)三种方法
2024-10-09 17:39:12 1656
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人