自然语言处理
文章平均质量分 75
szZack
工作已有十几年了,在创业公司干过,在上市公司干过,现在工作不那么紧张了,偶尔有点时间,写一点过往的积累。
展开
-
自定义 bert 在 onnxruntime 推理错误:TypeError: run(): incompatible function arguments
onnxruntime 推理错误:TypeError: run(): incompatible function arguments原创 2024-01-09 12:22:26 · 1222 阅读 · 0 评论 -
自定义的 bert 模型导出 onnx 报错:TypeError: forward() takes 2 positional arguments but 4 were given
TypeError: forward() takes 2 positional arguments but 4 were given原创 2024-01-09 12:17:31 · 1131 阅读 · 0 评论 -
【大模型】更强的 ChatGLM3-6B 来了,开源可商用
ChatGLM3-6B原创 2023-12-02 16:55:41 · 3233 阅读 · 0 评论 -
【AI实战】BERT 文本分类模型自动化部署之 dockerfile
BERT 文本分类模型自动化部署之 dockerfile,基于 torch 的 CPU 版本。原创 2023-08-16 10:34:01 · 1977 阅读 · 0 评论 -
【AI实战】中文文本相似度模型、开源数据集合集
中文文本相似度模型、开源数据集合集原创 2023-08-09 19:34:38 · 1311 阅读 · 0 评论 -
【AI实战】基于 bert-base-chinese 预训练模型的多标签文本分类模型,BCEWithLogLoss解决样本不均衡问题
基于 bert-base-chinese 预训练模型的多标签文本分类模型,BCEWithLogLoss解决样本不均衡问题原创 2023-07-11 17:16:12 · 1318 阅读 · 0 评论 -
【AI实战】开源语义解析器:Google的SLING、SyntaxNet
开源语义解析器:Google的SLING、SyntaxNet原创 2023-02-02 13:53:18 · 538 阅读 · 0 评论 -
【AI实战】NLP中的图数据库Neo4j
图数据库Neo4j原创 2022-10-14 19:30:00 · 978 阅读 · 0 评论 -
【AI实战】最全 TensorFlow 官方模型:计算机视觉、自然语言处理
【AI实战】最全 TensorFlow 官方模型:计算机视觉、自然语言处理原创 2022-07-15 21:45:00 · 1392 阅读 · 0 评论 -
AI实战:垂直领域问答机器人QA Bot常见技术架构
垂直领域问答机器人QA Bot常见技术架构原创 2020-04-18 09:29:44 · 5468 阅读 · 0 评论 -
深度/机器学习基础知识要点:TFIDF、LDA、LSA
TFIDFTFTerm Frequency,即词频,它表示一个词在文档中出现的次数。计算公式:TF=某个词在文档中出现的次数文档的总词数TF = \frac{某个词在文档中出现的次数}{文档的总词数}TF=文档的总词数某个词在文档中出现的次数某个词出现越多,表示它约重要。某个词越少见,就越能表达一篇文章的特性,反之则越不能。IDFInverse Document Freq...原创 2020-03-20 21:47:59 · 6318 阅读 · 0 评论 -
AI实战:文本自动摘要简述
文本自动摘要两大分类抽取式摘要生成式摘要1、抽取式摘要分为无监督和有监督。无监督方法:(1)基于统计特征的tfidf(2)文本聚类(3)基于图特征的TextRank、LexRank(4)MMR,全称为Maximal Marginal Relevance,它的核心思想同时考虑了内容相关性和多样性(5)submodular(次模)函数有监督方法:(1)SummaR...原创 2020-01-30 12:05:55 · 3615 阅读 · 0 评论 -
Transfermer中的Attention计算过程详解
Attention Is All You Need论文地址:点击查看论文pdf下载:下载pdfAttention计算过程详解1、为编码器创建三个向量 Query , Key , Value过程如下:1)input的单词Thinking、Machines向量化之后变成向量x1x_1x1、x2x_2x2(这里假设为4维)2)x1x_1x1、x2x_2x2分别乘以3个权...原创 2019-10-28 19:28:00 · 1220 阅读 · 0 评论 -
中文自然语言理解基准ChineseGLUE
GLUEGLUE 是一个用于评估通用 NLP 模型的基准,其排行榜可以在一定程度上反映 NLP 模型性能的高低。 (GLUE 基准针对的是英文任务。)ChineseGLUEChineseGLUE:为中文NLP模型定制的自然语言理解基准。目前拥有八个数据集的整体测评及其基线模型,目前已经有 20多位来自各个顶尖机构的自愿者加入并成为了创始会员。成员包括全国各地关注 NLP 的热心...原创 2019-10-26 09:28:47 · 1402 阅读 · 0 评论 -
最全中文文本分类模型(TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer,Bert,ERNIE)源码分享
1、 中文文本分类,基于pytorch,开箱即用。模型包括:TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformergithub源码链接点击查看测试对比2、中文文本分类,预训练语言模型,基于pytorch,开箱即用。预训练语言模型包括:Bert,ERNIEgithub源码...原创 2019-10-19 09:55:52 · 7181 阅读 · 1 评论 -
AI实战:从入门到精通系列——用全连接神经网络实现情感分类(二)
AI实战:从入门到精通系列——用全连接神经网络实现情感分类(一)AI实战:从入门到精通系列——用全连接神经网络实现情感分类(二)用全连接神经网络实现情感分类环境Ubuntu16.04 LTSpython 3.xnumpygensimjiebapandas数据集weibo_senti_100k 微博情感数据集数据处理详见:AI实战:从入门到精通系列——用感知器...原创 2019-10-07 10:23:59 · 888 阅读 · 0 评论 -
AI实战:从入门到精通系列——用全连接神经网络实现情感分类(一)
AI实战:从入门到精通系列——用感知器实现情感分类(一)AI实战:从入门到精通系列——用感知器实现情感分类(二)前言上世纪80年代,BP(BackPropagation)算法被提出,用于多层神经网络的参数计算,以解决非线性分类和学习的问题。然而,人工神经网络的设计一直缺少相应的严格的数学理论支持,之后BP算法更被指出存在梯度消失问题,因此无法对前层进行有效的学习。概念全连接(fu...原创 2019-10-05 08:31:55 · 1341 阅读 · 0 评论 -
AI实战:从入门到精通系列——用感知器实现情感分类(二)
AI实战:从入门到精通系列——用感知器实现情感分类(一)AI实战:从入门到精通系列——用感知器实现情感分类(二)用感知器实现情感分类环境Ubuntu16.04 LTSpython 3.xnumpygensimjieba数据集weibo_senti_100k 微博情感数据集查看数据信息import pandas as pdpd_all = pd.rea...原创 2019-09-23 18:10:40 · 1322 阅读 · 0 评论 -
AI实战:舆情分析(Public opinion analysis)开源汇总
前言舆情分析就是根据特定问题的需要,对针对这个问题的舆情进行深层次的思维加工和分析研究,得到相关结论的过程。两大方法1、内容分析法内容分析法是一种对信息内容作客观系统的定量分析的专门方法,其目的是弄清或测验信息中本质性的事实和趋势。提示信息所含有的隐性情报内容,对事物发展做情报预测。2、实证分析法实证分析法是通过分析大量案例和相关数据后试图得出某些结论的一种常见研究方法...原创 2019-09-14 17:00:13 · 10100 阅读 · 4 评论 -
AI实战:推荐系统之影视领域用户画像——标签数据清洗
前言用户画像就是根据用户特征、业务场景和用户行为等信息,构建一个标签化的用户模型。先回顾下构建用户画像三部曲:一、数据收集二、搭建用户画像标签体系三、构建用户画像上一篇文章 AI实战:推荐系统之影视领域用户画像 中介绍了影视领域用户画像数据采集内容,本文简要介绍搭建用户画像标签体系中的数据清洗。数据清洗回顾数据采集内容:标签清洗一、数据清洗常用方法...原创 2019-08-11 10:44:35 · 5005 阅读 · 0 评论 -
句法依存关系测试
本文以哈工大、腾讯这两个句法依存关系的测试实例来说明从语法角度来分析依存关系的细节问题。原创 2016-06-20 15:05:11 · 4103 阅读 · 0 评论 -
用深度学习做垂直领域的句子主题模型
用深度学习做垂直领域的句子主题模型经典的篇章级的主题模型LDA已经被证明是行之有效的,这里我介绍一下项目中做过的句子级的主题管理,其目的是识别当前的句子属于某个话题。我的基本思想是:一句话的中心意思可以用句子主干来表示,多句话的中心意思则可以用每句话的中心意思叠加起来表示。先看几个例子,以下的句子都是单句,复合句也类似:A.我听的歌很好听B.我要听很好听的歌C.我听歌后心情很...原创 2018-04-07 10:06:19 · 5365 阅读 · 0 评论 -
NLP进化史系列之命名实体识别
前言:NER进化史:从手工规则到特征模板,从机器学习方法到深度学习方法,一起领略NLP技术革新。定义:命名实体识别,Named Entity Recongition,简称NER,又称“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。作用:命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中...原创 2019-07-02 21:09:22 · 5920 阅读 · 2 评论 -
用tensorflow快速创建语料库词汇索引的方法
前言在写 快速搭建垃圾分类智能问答机器人 时,发现使用词向量训练模型准确率仅有80左右,考虑了几点问题:一是数字类、英文类的词没有对应的词向量;二是训练语料太少了(百级),导致词向量优势体现不出来。故增加一种词索引的表示方法。下面介绍用tensorflow快速创建语料库词汇索引的方法用tensorflow快速创建语料库词汇索引功能建立词汇表和word到index,及index到wor...原创 2019-07-08 20:55:12 · 4992 阅读 · 1 评论 -
NLP进化史系列之语言模型
前言:从20世纪70年代的统计语言模型,到2003年的神经网络语言模型,再到2018年刷新各种NLP任务记录的BERT,再到今年6月份的XLNet再次刷新各种记录,带你一起领略其中奥妙。目录1、N-gram语言模型2、神经网络语言模型(NNLM)3、One-hot4、Word2vec5、ELMo6、Open AI GPT7、BERT8、XLNet9、Attention机制...原创 2019-06-27 21:38:20 · 6459 阅读 · 0 评论 -
NLP进化史系列之意图识别
前言从规则模板到统计方法,再到机器学习方法,最后到深度学习算法,一起回顾NLP之意图识别的历程。作用1、在搜索中会用到意图比如在baidu中搜索“怎么做龙虾馅饺子”,意图是“做饺子”,而不是“做龙虾”,搜索时以饺子为核心。2、在问答系统中会用到意图比如用户问“我要买从深圳到上海的机票”,意图是“买机票”,然后再在“买机票”这个领域继续去做语义识别。进化史一、规则模板方法通过专...原创 2019-07-06 00:04:37 · 17079 阅读 · 4 评论 -
AI实战:上海垃圾分类系列(三)之快速搭建垃圾分类智能问答机器人
快速搭建垃圾分类智能问答机器人先占个位,周末发布2019上海市生活垃圾按照以下标准分类!:http://sh.bendibao.com/zffw/2019225/202535.shtm上海生活垃圾分类标准及投放要求:https://www.sohu.com/a/163450869_688983...原创 2019-07-06 10:07:08 · 7326 阅读 · 3 评论 -
AI实战:上海垃圾分类系列(一)之快速搭建垃圾分类模型
快速搭建垃圾分类模型原创 2019-07-06 10:08:54 · 19957 阅读 · 138 评论 -
AI实战:上海垃圾分类系列(二)之快速搭建垃圾分类模型后台服务
快速搭建垃圾分类模型后台服务原创 2019-07-06 18:32:35 · 6704 阅读 · 1 评论 -
转:【NLP神器】GitHub超9千星:一个API调用六种架构,27个预训练模型
只需一个API,直接调用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架,包含了27个预训练模型。简单易用,功能强大。目前已经包含了PyTorch实现、预训练模型权重、运行脚本和以下模型的转换工具:BERT,论文:“BERT: Pre-training of Deep Bidirectional Transformers for Language U...转载 2019-07-21 16:43:03 · 2174 阅读 · 0 评论 -
AI实战:用DenseNet + CTC搭建中文OCR模型
前言前段时间,项目中的一个核心模块中需要中文OCR功能,走过弯路趟过坑,这里分享出来。实战常见网络架构crnn + blstm + ctccrnn + ctccrnn + self_attetion + ctccrnn + attetion + ctcgithub上面测试的结果地址:https://github.com/senlinuc/caffe_ocr...原创 2019-08-03 08:14:49 · 11680 阅读 · 56 评论 -
NLP实战:财经新闻热点发现
前言话题发现和跟踪是指新闻专线和广播新闻等来源的新闻数据流中自动地发现话题并把话题相关的内容组织到一起的技术。通过增量的文档聚类的方法,信息流被聚集到有限的话题类簇中,类内高度相似,不同的类间相似度较低,以此进行海量数据的融合。热点舆情话题是话题舆情中受关注度最大,影响也较为突出的舆情,旨在从半结构化海量Web数据中获取相应的主题并进行整合,以新的热点事件分析并了解热点话题事件的发展。热点话题分...原创 2019-08-03 10:59:01 · 7578 阅读 · 1 评论 -
NLP实战:财经新闻热点跟踪
前言随着网络舆情及预警机制研究的广泛深入和迫切性,话题发现和跟踪的研究已经成为当前的研究热点。本文给出一个财经新闻热点跟踪的技术架构。实战前一篇文章NLP实战:财经新闻热点发现涉及技术NLP爬虫技术架构要点说明爬虫、关键词、特征见我的上一篇文章:NLP实战:财经新闻热点发现时间间隔:可设为4小时或者6小时文章相似度计算1、tf-i...原创 2019-08-03 20:58:47 · 4948 阅读 · 0 评论 -
AI实战:OCR模型之训练数据自动生成
前言前段时间,项目中的一个核心模块中需要中文OCR功能,模型架构可以参考我的上一篇文章:AI实战:用DenseNet + CTC搭建中文OCR模型 。深度学习模型的上限取决于2个方面:1、模型网络结构2、训练数据本文意在提供一种OCR数据自动生成的方法。实战涉及技术文本处理图像处理(PIL、opencv)流程图重要说明文本语料语料取决于OC...原创 2019-08-04 09:01:23 · 8931 阅读 · 0 评论 -
AI实战:推荐系统之影视领域用户画像——数据采集内容
前言用户画像就是根据用户特征、业务场景和用户行为等信息,构建一个标签化的用户模型。了解用户画像架构:构建用户画像三部曲:一、数据收集数据收集主要包括用户行为数据、用户基础数据。下面是某跨境电商平台的例子:二、搭建用户画像标签体系通过对用户行为数据进行分析和计算,为用户打上标签,可得到用户画像的标签建模,即搭建用户画像标签体系。标签建模主要是基于原始数据进行统计、分...原创 2019-08-10 11:14:06 · 4633 阅读 · 0 评论 -
基于语义依存关系的相似度算法简述
基于语义依存关系的相似度算法简述原创 2016-06-20 12:23:25 · 4060 阅读 · 0 评论