自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 资源 (4)
  • 收藏
  • 关注

原创 【小笔记】时序数据分类算法最新小结

2024.1.15。

2024-01-16 08:00:00 3969 4

原创 【知识图谱】知识图谱的本质是什么?

知识图谱是一种结构化的语义知识库,能够描述物理世界的实体、概念及其相互关系,本质是用于表示知识,给机器提供先验知识。换句话说,还有其它用于知识表示的方法,知识图谱只是其中的一种。知识是经过剪裁、塑造、解释、选择和转换了的信息如:“奥巴马是美国的前总统”,对机器而言就是一句话,不知道在讲什么;处理一下,如变成三元组:(美国,前总统,奥巴马),这就是一条知识了。这个转换的过程,就是知识表示将人类知识形式化或者模型化的过程就是知识表示。知识表示是将信息抽取成知识,用于给机器提供先验知识。

2022-10-01 21:52:39 6642 2

原创 【flask】适合生产环境的高并发部署方案(gunicorn + gevent + supervisor)

历时两天,构建了基于python的微服务环境,该方案可用于生产环境,再搭配一个Nginx进行反向代理和负债均衡,可满足高并发需求。技术方案为:python + Flask + gunicorn + gevent + supervisor + Docker。

2022-08-14 19:49:54 6999

原创 2024了,Neo4j能显示节点图片吗?

经过一番调研,答案是官方的是不能的.但有一个中文版可以显示网络图片作为节点背景。这个版本可以显示网络图片,不能显示本地图片。

2024-08-27 11:08:23 455

原创 【jieba】加载自定义词典注意事项

A:举例说明。jieba.add_word("数据采集")result = jieba.lcut("我正在做数据采集的工作")输出:[‘我’, ‘正在’, ‘做’, ‘数据采集’, ‘的’, ‘工作’]毫无疑问,其可以准确的对句子中的出现的“数据采集进行提取”。

2024-07-03 14:34:12 301

原创 【scrapy】爬虫,从429状态码说起

(1)添加header信息,使其看起来更像浏览器访问。- 固定user-Agent:如下面是google浏览器的请求信息,当固定使用一个时,被识别为爬虫的风险很高Win64;轮换User-Agent:每次请求时就随机切换一个,模仿不同浏览器和设备访问(2)- 有些服务器会在返回的头部中添加"Retry-After",告诉你多久之后重试。获取这个值,然后sleep就可以了。- 在setting.py中增加请求延长时间,可以固定或者随机选择一个时间进行动态延时。

2024-06-18 11:03:36 1807

原创 【小笔记】如何在docker中更新或导入neo4j数据?

3.复制B的data/databases/neo4j,data/transactions/neo4j到A对应的路径下进行替换(替换前,可以先删除A挂载路径下的data/databases/neo4j,data/transactions/neo4j)。(2)大量数据(如十万、百万级),用neo4j-admin工具导入,百万级实体和关系导入,只需要秒级或几分钟级,缺点:必须基于空数据库,且neo4j处于未运行状态。上面给的是B的neo4j-admin导入方式,实际上其它方式,在容器外都是可用的哈。

2024-05-25 09:00:00 1024

原创 【小笔记】streamlit使用笔记

一句话,这个东西是一个python的可视化库,当你想要给你的程序添加个web界面,而又不会或不想用前端技术时,你就可以考虑用它。

2024-05-10 11:29:59 1078 1

原创 【小笔记】neo4j用load csv指令导入数据

很久没有用load CSV的方式导入过数据了因为它每次导入有数量限制(印象中是1K还是1W),在企业中构建的图谱往往都是大规模的,此时通常采用的是Neo4j-admin import方式。最近遇到了一些小样本数据,此时用load CSV来导入还是比较方便的。记录下来,供以后参考。

2024-05-10 11:02:13 541

原创 【小笔记】问答系统可视化实现的三种方式

优点:灵活自由,可创建各种复杂和定制的可视化,如带图谱显示。后端:flask,Django,tornado。优点:无需学习前端技术栈即可搭建一个web。前端:echarts,D3,neovis。

2024-05-09 09:45:44 517

原创 【小笔记】算法训练基础超参数调优思路

【学而不思则罔,思维不学则怠】9.29本文总结一下常见的一些超参数调优思路。

2024-01-17 08:30:00 477

原创 【小笔记】用tsai库实现Rocket家族算法

项目:https://github.com/timeseriesAI/tsai简介:用于处理时间序列的工具库,包含TCN、Rockert等众多时间序列处理算法。

2024-01-17 08:00:00 1421 5

原创 ChatGLM3-6B的本地api调用

content”: “从前,在一个遥远的国度里,有一个美丽的村庄。有一天,一位智者来到了村子的广场,他跟村民们分享了这样一个故事:\n\n从前,有一片荒芜的土地,上面长满了各种美丽的花草。有一天,一只小鸟飞过来,告诉村子里的居民们,这片土地是一个魔法之地,只要每个人都在广场上许下一个美好的愿望,魔法”,可以看到,ChatGLM3-6B的默认调用接口和传递参数,及返回结果的参数与chatGLM2-6B的API有非常大的区别,并不兼容,需要有较大的修改。注意是POST方法!

2024-01-10 08:30:00 7002 6

原创 20分钟本地部署ChatGLM3-6B

和chatglm2相比,输出的结果似乎没有明显的改变,当最大的一个区别在于,chatglm2-6B有专门的int4版本,而chatglm3-gb取消了这个版本,在代码中可以直接指定量化版本。访问改地址即可进行对话:http://localhost:8501/email的地方直接回车,后面就会加载模型了。注意:chatglm3-6B约11G大小。

2023-12-13 11:00:41 3463 2

原创 【小笔记】为什么语义相似度要用余弦相似度而不用欧式距离?

它计算的是两个向量夹角的cos值,只关注向量的方向,不考虑向量的绝对大小(因为不管长短,都会除以模变成单位向量),这也是它的缺点。一个只关注距离,一个只关注方向,为什么NLP就选择了余弦相似度呢?它计算的是高维空间中两个点之间的绝对距离,不考虑向量的方向性。

2023-10-19 20:45:24 816

原创 【知识图谱】KBQA核心架构小结

KBQA是指基于知识图谱的问答系统,是知识图谱的重要应用形式,基于知识图谱的问答和基于LLM的问答殊途同归。KBQA是一个系统,由多种功能模块组成,其核心架构梳理如下:下面对各个模块简单小结。

2023-10-16 19:25:55 347

原创 【小笔记】复杂模型小数据可能会造成过拟合还是欠拟合?

【学而不思则罔,思而不学则殆】10.8。

2023-10-08 09:03:05 1159

原创 【小笔记】从算法训练现象分析可能的参数设置问题-loss分析篇

【学而不思则罔,思而不学则殆】9.30首先给出一个理想的训练loss收敛图片:loss平滑的下降,并逐渐收敛到0.平滑说明学习率设置较合适,收敛到0说明模型在参数空间中收敛到一个很理想的区域。

2023-09-30 13:25:00 334

原创 【小笔记】fasttext文本分类问题分析

【学而不思则罔,思维不学则怠】2023.9.28关于fasttext的原理及实战文章很多,我也尝试在自己的任务中进行使用,是一个典型的短文本分类任务,对知识图谱抽取的实体进行校验,判断实体类别是否正确,我构建了27000个样本,3种类别(A,B,C),经过调参,最好的F1只有0.61,感觉这就是它的天花板了,在网上看到很多人在自己的场景中都能达到0.8、0.9之类的,我就在想,为什么我这个提不上去。

2023-09-28 21:14:32 492

原创 【小笔记】面对一个没搞过的任务,如何选择合适的算法模型?

确定要解决的问题是一个什么类型,在算法中有没有一个专业的任务名定义它,确定了问题类型就明确了问题解决方向。有时候我们要解决的问题可能有多种解决问题的角度,此时可能就会对应多个任务类型。举例:实体抽取是知识图谱中的一个任务,可以将其视为序列标注任务,也可以将其视为一个阅读理解任务。有时候待解决的问题可以作为一个复杂的任务,也可以拆分为多个子任务举例:实体抽取即可以作为一个完整的任务,也可以拆分为实体边界识别和实体类别分类两个子任务;

2023-09-28 11:19:35 123

原创 【小笔记】当一个算法性能不满意,可能是这几方面的原因

2023.9.9 算法小笔记。

2023-09-09 19:46:25 619

原创 【python】编译whl

执行完毕之后会在当前文件夹下生成一个同名的whl压缩文件。kenlm-0.2.0.tar.gz解压到D盘;kenlm-0.2.0.tar.gz解压到D盘;(这招学会了,就不用再花积分下载了)

2023-08-21 20:52:29 1273

原创 【小笔记】NLP序列标注问题,样本不均衡怎么解决?

【学而不思则罔,思而不学则殆】

2023-08-17 08:40:11 1373

原创 【小笔记】anaconda离线创建环境

1.创建新的conda环境,避免把原有的环境给搞坏。在CMD中执行,而不是在anaconda的命令行中执行:conda create -n 环境名 --offline python=3.82.在pycharm中配置conda环境:setting->Project Interpreter->齿轮->add->conda 环境->已存在的->新环境下的python.exe3.安装工程的requirement.txtpip install -r requiremen

2023-02-28 15:01:40 1258 1

原创 【疑难杂症】allennlp安装报错:Installing build dependencies ... error

因为allennlp是基于pytorch的NLP库,所以allennlp的版本会受pytorch的版本影响,若是直接pip install allennlp,则可能会安装新的pytorch版本。最后,给一个基于pytorch1.7.1的配套方案,若你也是这个版本,则可以直接按这个配套方案安装,若是不,则参考上面的实验找到合适的allennlp版本。而官方没有给出一个配套的建议,我的方法是实验,首先从一个稍微低一点并接近0.9.0的版本开始,而transformer通常不会导致问题。1.2.0, 顺利安装。

2023-01-29 12:47:59 4585

原创 【知识图谱】实体抽取及算法选择

1.英文通常以单词为单位,中文以字为单位;2.目前SOTA级别的模型:BERT+CRF3.基于实体词典和深度学习方法的区别?实体词典很好用,每在词典中增加一个词条都能立竿见影的增加可以识别的实体。但此方法最大的问题在于:一,词典的扩充是一个比较费时费力的事情;二,未登录词OOV无法识别;三,无法识别多义词,如苹果。深度学习方法,如BERT+CRF能处理多义词的问题,通过一个词的上下文来确定其语义。但OOV的问题仍无法解决。数据标注也是一件比较麻烦的事情。

2022-12-26 22:28:41 888

原创 【Python】同一网络下,手机和电脑进行socket通信

最近在学python网络编程,发现socket可以进行跨主机的进程通信,于是尝试用电脑作为服务端,手机作为客户端,来进行socket通信。

2022-12-16 06:00:00 2476

原创 【Pandas】优化读取文件内存占用过大的问题

pandas读取文件占用内存多主要是没有准确识别每一列的数据类型,采用了object进行存储,所有的优化办法都是围绕数据类型转换进行的:一是在读取时指定最佳的数据类型,二是在读取后进行数据转换;更进一步的的优化操作有:(1)将数值向下转换为更高效的类型;(2)将字符串列转换为categorical类型。

2022-11-06 13:32:20 3600

原创 【python】多线程、多进程性能比较

单进程单线程、多进程、多线程性能比较

2022-10-31 06:00:00 452

原创 【疑难杂症】OSError:[Errno 14]Bad address

问题背景:我是在预生产环境部署算法模型时遇到了这个问题,最重要的是,相同的代码和环境(用的容器)在开发环境中,没有出现任何问题,但当部署到预生产中就报错了,网上一查,解决办法寥寥无几。所以我解决了,准备记录一下,供来者参考。原因:内存不够。当程序所需要的内存超出了限定范围时,则会报此错误。在我的问题中,是因为开发环境中没有资源限制,而预生产环境中进行了内存限制,导致加载预训练的模型时,内存不够。解决办法:1.增加可供程序使用的内存;2.优化程序,减少内存消耗。

2022-10-26 19:59:21 1430

原创 【flask】算法部署:只加载一次模型,减少每次接口响应时间

模型部署每次调用模型进行预测时,都会加载一次模型,这个过程是比较占资源的,换言之,很耗时。每次访问时,都无需再加载模型,模型相当于一个全局变量

2022-09-17 20:54:45 3334 5

原创 【flask】根据接口名称和请求参数进行缓存

基于flask-cache的两种缓存方案

2022-09-16 22:45:22 886

原创 【NLP】中文NLP常见任务及工具

这个表随着对工具的认识增加,持续更新,✔表示某工具支持某任务工具中文分词词性标注句法分析分本分类文本纠错实体抽取关系抽取情感分类备注Jieba✔✔适合中文分词LAC✔✔✔Spacy✔综合性工具✔文本纠错工具xmnlp✔✔✔✔综合性工具。

2022-09-15 08:12:46 1347 2

原创 【docker】生成镜像并push到docker Hub

1.本地保存容器为镜像,2.push镜像到docker hub 3.创建自己的仓库

2022-08-14 20:44:16 959

原创 【ML/DL】机器学习二三事

数据集构建和算法调参哪个更累?深度学习是不是银弹?什么时候不适合AI算法?

2022-05-11 09:26:45 533

原创 【Sklearn】3种模型保存的文件格式及调用方法

Sklearn保存和调用模型的三种方式方式一:保存为python支持的pickle格式import picklefrom sklearn.svm import SVCfrom sklearn import datasets# 定义分类器svm = SVC()# 加载iris数据集iris = datasets.load_iris()# 读取特征X = iris.data# 读取分类标签y = iris.target# 训练模型svm.fit(X, y)# 保存成pyth

2022-02-12 18:32:58 5226 1

原创 【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口

问题:在虚拟机启动hadoop集群后,在window浏览器无法访问http://master:50070、http://master:8088等集群监控界面。问题排查:首先在windows里ping一下是否能通:若不能ping通,试一下ping IP地址,这里master的IP地址为192.168.128.130.若IP地址能ping通,则试一下在浏览器中将master换成IP地址访问一下:如果能利用IP访问,那么可以在Windows里面C:\Windows\System32\drive

2021-08-26 20:21:53 45976 12

原创 【hadoop】碎片知识点

HDFS文件块在集群中均匀分布时,HDFS工作状态最佳。默认的,Hadoop会保存3个复本,第一保存在运行客户端的节点,第二个和第三个保存在另一个机架上的两个随机节点。Mapreducemap任务处理本地数据时,性能最佳...

2021-08-18 17:25:45 245

原创 【工具】Pycharm:连接Mysql失败的简单解决

以前都是Pycharm中连接和写入数据库,在Mysql Workbench里面查看数据是否写入成功,倒也没觉得有什么问题。今天突然看到,在Pycharm中还可以直接查看Mysql的数据!!!类似于这样:Pycharm连接Mysql的教程,请查看:https://www.cnblogs.com/QiKa/p/14225469.html按照教程来,没想到最后测试连接,竟然失败了。我很确信自己的MYSQL处于正常状态,相关的服务也是开启了的,user和密码都是正确的,正常打开Mysql Workbe

2021-03-12 16:56:00 5325

原创 【小笔记】算法训练时batch size设置多大合适?

梯度下降法通常分为三类:(1)批量梯度下降法:每次训练输入全部数据,能够考虑全部样本的梯度,获取到准确的梯度,但比较耗时,并且输入全部数据,可能内存或GPU装不下;(2)随机梯度下降法:每次随机选择一个样本进行训练,使用一个样本的梯度进行下降。比(1)快很多,也不占内存,但可能不会收敛;(3)mini-batch梯度下降法:为了每次训练尽可能的多输入一些样本,同时又不会太耗时和超内存,mini-batch将训练样本分为多个批次,一个一个的输入,最后将多个输入的结果进行平均,即得到一次完整训练的梯度。

2021-03-04 10:24:41 11435 2

无人驾驶原理与实践 源码_3.3.4_NDT算法实例.7z

非全部书源码,为小节3.3.4,NDT算法实例,个人修改后成功运行的源码,教程见:https://blog.csdn.net/xiangxiang613/article/details/110187725

2020-11-26

无人驾驶原理与实践 源码_2.6.4_基于Husky机器人的小案例.7z

非全部书源码,为小节2.6.4,基于Husky机器人的小案例,个人实现的源码,教程见:https://blog.csdn.net/xiangxiang613/article/details/110045652

2020-11-24

ST-emwin进阶笔记

这是个人学习emwin5.24时总结的经验笔记,都是自己在学习过程中遇到的问题及解决办法。网上能够参考的东西很少,这篇笔记能够解决很多问题了。希望对于初学者有帮助。目录如下: Header添加了字体大小后,会改变原来高度: 3 【教程】emwin显示中文: 3 如何改变ListView的Header字体大小和添加图片? 12 【教程】中文字符设为透明背景: 12 需要在窗口显示字符时没显示出来 13 ListView的滚动条添加及使用问题: 13 ListView初始化时不能显示创建好的数据: 14 【教程】Emwin如何转换和显示透明图片 14 Header显示中文时初始化时不显示,有更新时才显示? 17 【教程】如何设计透明窗口 17 emWin制作滑动效果 19 触摸屏的使用【教程】 19 如何界面自动控制实现点击效果,代替人工触摸控制 19 警示:处理WM_PAINT 时,不得执行某些操作 22 什么是模态窗口? 23 窗口特效汇集: 23 如何让按键透明? 25 ICONVIEW和BUTTON和区别? 25 如何给控件换肤? 25 如何点击按键切换背景图片? 26 如何能够同时点击点击父窗口和子窗口的控件? 27 什么情况下,两个窗口的句柄会相同? 27 经验汇集: 28

2018-03-30

CAN和Modbus RS485总线协议对比总结

CAN和RS485总线协议对比一览表及各协议的特点说明,注:RS485的协议为Modbus协议

2018-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除