算法篇
文章平均质量分 75
推荐系统、NLP、知识图谱、ML、DL
落叶阳光
汽车行业算法工程师,聚焦知识图谱和自然语言处理
展开
-
【小笔记】如何在docker中更新或导入neo4j数据?
3.复制B的data/databases/neo4j,data/transactions/neo4j到A对应的路径下进行替换(替换前,可以先删除A挂载路径下的data/databases/neo4j,data/transactions/neo4j)。(2)大量数据(如十万、百万级),用neo4j-admin工具导入,百万级实体和关系导入,只需要秒级或几分钟级,缺点:必须基于空数据库,且neo4j处于未运行状态。上面给的是B的neo4j-admin导入方式,实际上其它方式,在容器外都是可用的哈。原创 2024-05-25 09:00:00 · 1062 阅读 · 0 评论 -
【小笔记】streamlit使用笔记
一句话,这个东西是一个python的可视化库,当你想要给你的程序添加个web界面,而又不会或不想用前端技术时,你就可以考虑用它。原创 2024-05-10 11:29:59 · 1282 阅读 · 1 评论 -
【小笔记】neo4j用load csv指令导入数据
很久没有用load CSV的方式导入过数据了因为它每次导入有数量限制(印象中是1K还是1W),在企业中构建的图谱往往都是大规模的,此时通常采用的是Neo4j-admin import方式。最近遇到了一些小样本数据,此时用load CSV来导入还是比较方便的。记录下来,供以后参考。原创 2024-05-10 11:02:13 · 591 阅读 · 0 评论 -
【小笔记】问答系统可视化实现的三种方式
优点:灵活自由,可创建各种复杂和定制的可视化,如带图谱显示。后端:flask,Django,tornado。优点:无需学习前端技术栈即可搭建一个web。前端:echarts,D3,neovis。原创 2024-05-09 09:45:44 · 529 阅读 · 0 评论 -
【小笔记】算法训练基础超参数调优思路
【学而不思则罔,思维不学则怠】9.29本文总结一下常见的一些超参数调优思路。原创 2024-01-17 08:30:00 · 484 阅读 · 0 评论 -
【小笔记】用tsai库实现Rocket家族算法
项目:https://github.com/timeseriesAI/tsai简介:用于处理时间序列的工具库,包含TCN、Rockert等众多时间序列处理算法。原创 2024-01-17 08:00:00 · 1544 阅读 · 5 评论 -
【小笔记】时序数据分类算法最新小结
2024.1.15。原创 2024-01-16 08:00:00 · 4331 阅读 · 4 评论 -
20分钟本地部署ChatGLM3-6B
和chatglm2相比,输出的结果似乎没有明显的改变,当最大的一个区别在于,chatglm2-6B有专门的int4版本,而chatglm3-gb取消了这个版本,在代码中可以直接指定量化版本。访问改地址即可进行对话:http://localhost:8501/email的地方直接回车,后面就会加载模型了。注意:chatglm3-6B约11G大小。原创 2023-12-13 11:00:41 · 3538 阅读 · 2 评论 -
ChatGLM3-6B的本地api调用
content”: “从前,在一个遥远的国度里,有一个美丽的村庄。有一天,一位智者来到了村子的广场,他跟村民们分享了这样一个故事:\n\n从前,有一片荒芜的土地,上面长满了各种美丽的花草。有一天,一只小鸟飞过来,告诉村子里的居民们,这片土地是一个魔法之地,只要每个人都在广场上许下一个美好的愿望,魔法”,可以看到,ChatGLM3-6B的默认调用接口和传递参数,及返回结果的参数与chatGLM2-6B的API有非常大的区别,并不兼容,需要有较大的修改。注意是POST方法!原创 2024-01-10 08:30:00 · 7223 阅读 · 6 评论 -
【小笔记】为什么语义相似度要用余弦相似度而不用欧式距离?
它计算的是两个向量夹角的cos值,只关注向量的方向,不考虑向量的绝对大小(因为不管长短,都会除以模变成单位向量),这也是它的缺点。一个只关注距离,一个只关注方向,为什么NLP就选择了余弦相似度呢?它计算的是高维空间中两个点之间的绝对距离,不考虑向量的方向性。原创 2023-10-19 20:45:24 · 861 阅读 · 0 评论 -
【小笔记】复杂模型小数据可能会造成过拟合还是欠拟合?
【学而不思则罔,思而不学则殆】10.8。原创 2023-10-08 09:03:05 · 1245 阅读 · 0 评论 -
【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇
【学而不思则罔,思而不学则殆】9.30首先给出一个理想的训练loss收敛图片:loss平滑的下降,并逐渐收敛到0.平滑说明学习率设置较合适,收敛到0说明模型在参数空间中收敛到一个很理想的区域。原创 2023-09-30 13:25:00 · 352 阅读 · 0 评论 -
【小笔记】fasttext文本分类问题分析
【学而不思则罔,思维不学则怠】2023.9.28关于fasttext的原理及实战文章很多,我也尝试在自己的任务中进行使用,是一个典型的短文本分类任务,对知识图谱抽取的实体进行校验,判断实体类别是否正确,我构建了27000个样本,3种类别(A,B,C),经过调参,最好的F1只有0.61,感觉这就是它的天花板了,在网上看到很多人在自己的场景中都能达到0.8、0.9之类的,我就在想,为什么我这个提不上去。原创 2023-09-28 21:14:32 · 510 阅读 · 0 评论 -
【小笔记】面对一个没搞过的任务,如何选择合适的算法模型?
确定要解决的问题是一个什么类型,在算法中有没有一个专业的任务名定义它,确定了问题类型就明确了问题解决方向。有时候我们要解决的问题可能有多种解决问题的角度,此时可能就会对应多个任务类型。举例:实体抽取是知识图谱中的一个任务,可以将其视为序列标注任务,也可以将其视为一个阅读理解任务。有时候待解决的问题可以作为一个复杂的任务,也可以拆分为多个子任务举例:实体抽取即可以作为一个完整的任务,也可以拆分为实体边界识别和实体类别分类两个子任务;原创 2023-09-28 11:19:35 · 135 阅读 · 0 评论 -
【小笔记】当一个算法性能不满意,可能是这几方面的原因
2023.9.9 算法小笔记。原创 2023-09-09 19:46:25 · 626 阅读 · 0 评论 -
【小笔记】NLP序列标注问题,样本不均衡怎么解决?
【学而不思则罔,思而不学则殆】原创 2023-08-17 08:40:11 · 1400 阅读 · 0 评论 -
【知识图谱】实体抽取及算法选择
1.英文通常以单词为单位,中文以字为单位;2.目前SOTA级别的模型:BERT+CRF3.基于实体词典和深度学习方法的区别?实体词典很好用,每在词典中增加一个词条都能立竿见影的增加可以识别的实体。但此方法最大的问题在于:一,词典的扩充是一个比较费时费力的事情;二,未登录词OOV无法识别;三,无法识别多义词,如苹果。深度学习方法,如BERT+CRF能处理多义词的问题,通过一个词的上下文来确定其语义。但OOV的问题仍无法解决。数据标注也是一件比较麻烦的事情。原创 2022-12-26 22:28:41 · 923 阅读 · 0 评论 -
【知识图谱】知识图谱的本质是什么?
知识图谱是一种结构化的语义知识库,能够描述物理世界的实体、概念及其相互关系,本质是用于表示知识,给机器提供先验知识。换句话说,还有其它用于知识表示的方法,知识图谱只是其中的一种。知识是经过剪裁、塑造、解释、选择和转换了的信息如:“奥巴马是美国的前总统”,对机器而言就是一句话,不知道在讲什么;处理一下,如变成三元组:(美国,前总统,奥巴马),这就是一条知识了。这个转换的过程,就是知识表示将人类知识形式化或者模型化的过程就是知识表示。知识表示是将信息抽取成知识,用于给机器提供先验知识。原创 2022-10-01 21:52:39 · 6763 阅读 · 2 评论 -
【flask】算法部署:只加载一次模型,减少每次接口响应时间
模型部署每次调用模型进行预测时,都会加载一次模型,这个过程是比较占资源的,换言之,很耗时。每次访问时,都无需再加载模型,模型相当于一个全局变量原创 2022-09-17 20:54:45 · 3394 阅读 · 5 评论 -
【flask】根据接口名称和请求参数进行缓存
基于flask-cache的两种缓存方案原创 2022-09-16 22:45:22 · 891 阅读 · 0 评论 -
【NLP】中文文本处理常用工具集[2024.10更新]
这个表随着对工具的认识增加,持续更新,✔表示某工具支持某任务工具中文分词词性标注句法分析分本分类文本纠错实体抽取关系抽取情感分类备注Jieba✔✔适合中文分词LAC✔✔✔Spacy✔综合性工具✔文本纠错工具xmnlp✔✔✔✔综合性工具。原创 2022-09-15 08:12:46 · 1392 阅读 · 2 评论 -
【flask】适合生产环境的高并发部署方案(gunicorn + gevent + supervisor)
历时两天,构建了基于python的微服务环境,该方案可用于生产环境,再搭配一个Nginx进行反向代理和负债均衡,可满足高并发需求。技术方案为:python + Flask + gunicorn + gevent + supervisor + Docker。原创 2022-08-14 19:49:54 · 7050 阅读 · 0 评论 -
【ML/DL】机器学习二三事
数据集构建和算法调参哪个更累?深度学习是不是银弹?什么时候不适合AI算法?原创 2022-05-11 09:26:45 · 545 阅读 · 0 评论 -
【Sklearn】3种模型保存的文件格式及调用方法
Sklearn保存和调用模型的三种方式方式一:保存为python支持的pickle格式import picklefrom sklearn.svm import SVCfrom sklearn import datasets# 定义分类器svm = SVC()# 加载iris数据集iris = datasets.load_iris()# 读取特征X = iris.data# 读取分类标签y = iris.target# 训练模型svm.fit(X, y)# 保存成pyth原创 2022-02-12 18:32:58 · 5260 阅读 · 1 评论 -
【小笔记】算法训练时batch size设置多大合适?
梯度下降法通常分为三类:(1)批量梯度下降法:每次训练输入全部数据,能够考虑全部样本的梯度,获取到准确的梯度,但比较耗时,并且输入全部数据,可能内存或GPU装不下;(2)随机梯度下降法:每次随机选择一个样本进行训练,使用一个样本的梯度进行下降。比(1)快很多,也不占内存,但可能不会收敛;(3)mini-batch梯度下降法:为了每次训练尽可能的多输入一些样本,同时又不会太耗时和超内存,mini-batch将训练样本分为多个批次,一个一个的输入,最后将多个输入的结果进行平均,即得到一次完整训练的梯度。原创 2021-03-04 10:24:41 · 11747 阅读 · 2 评论 -
【推荐系统】从协同过滤到深度学习
本文基于《深度学习推荐系统》的模型总结,从协同过滤和逻辑回归的演变大方向来整理。目录1.CF——*只利用交互信息*2. LR——*多特征融合*3.MF——*引入用户、物品隐变量*4.AutoRec——*结合自编码器*5.NeuralCF——*结合深度学习*6. POLY2——*增加二阶特征*7.FM——*引入特征隐变量*8.FFM——*引入特征域*9.GBDT&LR——*开启特征工程自动化趋势*10.wide&deep——*开启双模型思路*11.Deep&Cross——*用cros原创 2021-02-22 20:32:47 · 1393 阅读 · 0 评论 -
【tensorflow】为什么CUDA装好了,Tensorflow-GPU不能用?
为什么CUDA装好了,Tensorflow-GPU不能用?当我们把CUDA、cudnn、tensorflow-GPU都装好,但在tensorflow GPU测试tf.test.is_gpu_avaiable()却始终返回false,怎么办?import tensorflow as tftf.test.is_gpu_available()FALSE可能的原因如下:————————————————————————————————1,CUDA、cudnn、Tensorflow、python版本并不原创 2021-01-14 11:28:23 · 46892 阅读 · 9 评论 -
【tensorflow】V1和V2不兼容,导致的常见问题及解决办法
Tensorflow版本不同导致的问题及解决办法tf2中删除或者改变了tf1的中很多函数接口,若是在tf2的环境中中用了tf1的代码,则会报很多错。两个解决办法一是换回tf1.x版本,eg:pip install tensorflow==1.4.0二是讲tf1的代码改为tf2可以运行的:将使用了tf1代码中的import tensorflow as tf更改为:import tensorflow.compat.v1 as tftf.disable_v2_behavior()这个替原创 2021-01-12 18:43:15 · 8494 阅读 · 0 评论 -
【ML/DL】深层神经网络模型python实现
深层神经网络模型python实现准备工作导入必要的包import numpy as npimport h5py # 操作h5格式文件(一般为图片数据集)import matplotlib.pyplot as pltfrom testCases_v2 import * # 自定义的文件from dnn_utils...翻译 2019-02-25 21:59:03 · 1611 阅读 · 0 评论 -
【catboost】官方调参教程
CatBoost官方教程:调参本文翻译至官方原文:https://catboost.ai/docs/concepts/parameter-tuning.htmlCatBoost为参数调整提供了灵活的界面,可以对其进行配置以适合不同的任务。本节包含有关可能的参数设置的一些提示。catBoost提供了为Python、R语言和命令行都提供了可使用的参数,其中Python和R的完全相同,命令行参数格式则有点不同。如L2正则化参数,python和R中为:l2_leaf_reg ,命令行中为–l2-lea翻译 2020-05-20 13:13:37 · 20502 阅读 · 0 评论 -
【ML/DL】深入理解梯度下降法
对于随机梯度和批量梯度的介绍可参考这一篇文章,作者总结的很好:https://www.cnblogs.com/lliuye/p/9451903.html但看了很多,总觉得理解的还不是很清楚,所以这篇文献我想换个角度,用自己的话来梳理和总结一下。假设数据集如下,有三个样本,具体取值不重要一:{x1(1),x2(1),y(1)}\{x^{(1)}_1, x^{(1)}_2, y^{(1)...原创 2019-10-18 14:32:12 · 595 阅读 · 0 评论 -
【ML/DL】逻辑回归模型Python实现
逻辑回归模型实现0.理论知识It’s time to design a simple algorithm to distinguish cat images from non-cat images.You will build a Logistic Regression, using a Neural Network mindset. The following Figure explain...翻译 2019-02-16 13:31:24 · 1299 阅读 · 0 评论 -
【ML/DL】python3学习《机器学习实战》书中的报错及解决办法
python3学习《机器学习实战》书中的报错及解决办法(更新中)《机器学习实战》是一本很不错的书,其采用的是py2的语法格式,在用最新的python3.6编写代码的过程中,书中有一些代码因为格式不对就会报错,本人记录了学习过程中遇到的BUG,综合了网上的解决办法,现整理如下,供后来者参考第二章 KNNBUG1.程序清单2 - 2 将文本记录到转换NumPy的解析程序 报错:Val...原创 2018-05-26 18:34:02 · 3352 阅读 · 5 评论