NLP的应用落地
文章平均质量分 79
使用NLP技术解决工作中遇到的一些需求。
行走的人偶
这个作者很懒,什么都没留下…
展开
-
基于SimCSE和Faiss的文本向量检索实践
传统的文本检索一般是建立倒排索引,对搜索词的召回结果进行打分排序返回最终结果,但是在海量的数据面前,召回结果页面临着一些挑战。于是就有了基于语义的搜索,即将文本向量化,默认向量包含了文本的语义信息,匹配最近的向量返回结果。原创 2023-01-18 15:32:22 · 2318 阅读 · 2 评论 -
使用html table生成统一标签全景图
最近项目有一个需求,需要为统一标签生成一个全景图,类似于tree map chart,每个标签的大小由标签下面的博文数量决定,按照近一个月的博文数量排序并配色,在红和绿之间进行渐变,最红代表近一个月新增最多,最绿代表最近一个新增最少。原创 2022-10-22 19:38:35 · 8161 阅读 · 3 评论 -
NLP实战-基于弱标注数据的文本分类
本文介绍如何使用弱标注数据进行文本分类,基于CSDN文库下载标签分类场景进行介绍,使用特征选择的方法对弱标注的数据进行过滤,使弱标注的数据能用来进行模型训练。原创 2022-05-25 17:31:53 · 2997 阅读 · 8 评论 -
CSDN指数
CSDN指数的由来csdn目前积累了大量的数据,包括博客,问答,社区,下载以及搜索,近几个月以来,我们AI团队致力于结构化这部分数据,做了很多的努力,最先是统一了全站的标签,形成了CSDN自己的您统一标签,之后清洗存量数据,对数据标统一标签,打通结构化数据的路子,完成了首版python技能树。而在此基础之上,我们想发布一个指数数据,统计的是标签下面的内容数量,例如标签相关的创作内容数和相关的搜索数,对他们进行加权计算形成CSDN指数,形如百度的搜索指数和谷歌的搜索趋势。以此来展示热门的标签和技术,更原创 2021-10-20 10:39:23 · 2085 阅读 · 6 评论 -
python多线程与多进程
最近做项目的时候因为要对大批量的数据进行处理,所以立马想到的是用多线程/多进程进行加速处理,但是python中多线程和多进程还是有一些区别,因此使用的场景也有所不同。多线程与多进程的区别记得教科书上一句经典的对多线程和多进程的介绍:”进程是资源分配的最小单位,线程是cpu调度的最小单位“。简单说来就是,多线程共享内存,内存占用少,cpu调度简单,cpu利用率高;多进程每个进程独享内存,内存占用高,cpu调度复杂,cpu利用率低。了解了这些,如果是使用过c++或者java的程序员会很好的根据场景选择多原创 2021-09-20 20:11:19 · 1827 阅读 · 1 评论 -
博客数据清洗篇
我们要做什么csdn有了自己的统一标签之后,就要着眼于对目前所有的数据进行清洗,即打上统一标签,这里先清洗博客数据。如果立即对所有的数据打标签,数据量太大,采用一个折中的方案,先对近一个月有更新的博客数据进行清洗,然后提供接口对有更新的博客进行清洗。博客打标签依赖于,目前已经支持106个类别。...原创 2021-08-21 22:22:46 · 663 阅读 · 0 评论 -
基于博客标签的多标签分类器(multi-label classification)
一、写在前面的话最近项目需要做一个对问题的打标签系统,这里的问题就是csdn问答板块里面用户提出的问题,打上统一标签之后有利于问题的归类。目前领导的想法是对csdn的资源,例如,博客、问答等打上统一的标签,之后利用整合的资源做进一步的应用。统一标签目前大概有400-500个,有大类和小类两个层级,对于python这个大类来说,下面的小类有:python,list,django,virtualenv,tornado,flask等标签。或者是博客的数据是现成的,阴差阳错之下就先使用博客的数据做了一个原创 2021-07-18 20:50:35 · 2769 阅读 · 3 评论 -
Could not load dynamic library ‘libcudnn.so.8‘
最近要训练博客的标签分类系统,因为使用tensorflow,看了一下训练服务器已经安装好cuda,但是没有安装cudnn,于是从官网将cudnn的tar文件下载下来,参考官网安装教程一顿操作:$ tar -xzvf cudnn-x.x-linux-x64-v8.x.x.x.tgz$ sudo cp cuda/include/cudnn*.h /usr/local/cuda/include $ sudo cp -P cuda/lib64/libcudnn* /usr/local/cud原创 2021-07-12 17:02:47 · 6609 阅读 · 0 评论 -
停用词扩展-基于点互信息
一、问题来由最近参与了CSDN的问答模块的开发,有一个任务是扩展停用词,主要用在改善问答的质量,问题的标题尽量用来描述所遇到的问题,避免一些其他的词汇,例如:“小白”,“大佬”,“求救”等等。这样的词汇对提问题没有任何帮助,这里暂且称之为虚词。目前虚词表由运营整理提供,只有几十个,领导要求对其进行扩充,并提出可以参考SOPMI情感词典的扩充方案。二、算法思想其核心思想主要有:1、利用词的共现来拓展候选停用词;2、利用点互信息(PMI)来计算词的相关性。PMI用来衡量两个两个事物之间.原创 2021-06-27 17:23:13 · 271 阅读 · 0 评论