自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 chatgpt能做本地化部署,训练私有化学科领域数据吗?-----模型只在工具之上,想法只在算力范围之内

总结一句话3090显卡可以部署可以运用,但很难训练。首先介绍一下秋葉aaaki大神的本地化部署的工具,我的配置是一块是3090,目前12G显存.bat,如果配置不够好,可以尝试下面12G以下我尝试8G与12G的横向比较,对于客观问题,主要以8G为主,主观问题还是看看12G给我的看法,客观问题8G这里还加了一点主观评价,我觉得很好玩,这也可能是我把旁边Temperature机器感情拉大的缘故,不会太教科书。你知道更新统鱼鳞山组是什么吗,如果知道请阐述一下。

2023-04-24 23:40:12 3354

原创 Stable diffusion中mov2mov

这段时间成迷于AI绘画,目前已经学会了视频转成二次元风格。这里利用了秋葉aaaki大佬的Stable diffusion WebUI,和mov2mov插件,在controlnet 插件中利用了openpose来约束每张图的动作和手部,减少出现多只手和多个脚,同时还利用了controlnet插件中的depth来约束一下整体人物,减少出现多个人。

2023-04-17 11:49:47 5090

原创 利用地质年代图谱精准判读文献中的地质时间

地质时间是地球科学数据的重要基础标签,其测年结果直接影响地学相关的物质分析与地球演化预期。因此,准确获知样品的地质时间对地学分析具有重要意义。随着深时数字地球(DDE)项目的研究深入,越来越多历史文献中的地质样品及其理化属性信息获得关注。

2022-09-15 11:56:05 815

原创 Pandas学习笔记

感觉pandas会更多的用于处理表格数据,计算也会更加方便。

2022-09-07 23:08:08 277

原创 Numpy学习笔记

Numpy 学习是深度学习的基础,因为无论pytorch还是tensorflow他们的数据形式都是ndarray形式,都是几乘法几维的,这里觉得Numpy主要的就是[ , ]前面是行后面是列,也可以叫做前面的0轴,后面是1轴,其他的就是按照代码格式找找敲一下就行。还有就是reshape变化维度信息。

2022-09-07 18:06:40 311

原创 matplotlib笔记之折线图和直方图

类似的还有散点图和直方图,我个人感觉直方图会用到,散点图多用于聚类之后准备写一篇现在市面上常用的聚类方法。

2022-09-07 10:56:27 235

原创 matplotlib笔记之折线图

matplotlib是python对数据呈现的形式之一,分别有折线图,散点图和折线图,当然你问我不学这个可以数据展示吗,回答当然是的,现在已经有网址可以做到数据展示如:https://echarts.apache.org/zh/index.html。但是还是需要看懂,至少不提美观的时候快速生成一个图看一下数据变化也是可好的。

2022-09-06 00:01:18 768

原创 将csv中根据某列重复数据将整行删除

目前对接需求,是要根据某列重复数据,将重复数据整行删除。其中将会遇到一个小问题,批量文件编码会有问题,可能出现非utf-8编码

2022-08-01 01:42:58 891

原创 基于沉积学教材的自顶向下的概念抽取(以沉积相为例为例)

在文献挖掘的过程中,由于文献中的语句信息量稀疏会导致自然语言处理(NLP)任务效果不好。在数据量小的情况下,不妨换一个思路,将抽取对象从信息量稀疏的文本改成信息量密集的教材,积累第一批可用的定义用于后续文本的抽取。基于此,本文将以中国石油大学的《沉积岩石学》讲义为范本,实现对教材中沉积结构和沉积相的抽取。教材的特点:文本风格高度一致,很多概念都是在标题中,或者是一个特定的格式,**它永远不会像*人的嘴那么会骗人**。(无针对,无引站,只是感想)这份教程的特点: 概念非常的鲜明,此外结构非常的好。....

2022-07-26 14:30:19 390 1

原创 改了一个bug “list index out of range”

改了一个bug “list index out of range”

2022-07-17 22:15:41 116

原创 文件夹里面内容合并

目前遇到的一个小事情,就是收集到的资料可能存在多个文件夹中,需要将多个文件夹里面内容合并成一个文件夹。

2022-07-17 21:43:27 438

原创 文本表格提取及其文本名称匹配

当我们要抽取表格内容,表格标题和文本段落小标题很相似,需要将段落小标题单独提取出来替换掉表格标题。因此这就不单单是一个表格提取问题。

2022-07-13 00:12:56 175

原创 入组考核题目及分题小系统

入组考核题目及分题小系统

2022-07-02 23:08:54 386

原创 开始日常力扣刷题,题目五 给你一个字符串 s,找到 s 中最长的回文子串

给你一个字符串 s,找到 s 中最长的回文子串

2022-06-16 11:22:13 88

原创 开始日常力扣刷题,题目4 寻找两个正序数组的中位数

给定两个大小分别为 m 和 n 的正序(从小到大)数组 nums1 和 nums2。请你找出并返回这两个正序数组的 中位数 。

2022-06-15 22:19:10 152

原创 开始日常力扣刷题,题目三无重复字符的最长子串

给定一个字符串 s ,请你找出其中不含有重复字符的 最长子串 的长度。

2022-06-15 19:12:38 86

原创 文本生成项目(第三步短评语生成)

最后一步就是短评语句生成,短评语句生成,和标题的区别,就是长度比标题长,可能据关键词,部分内容进行总结,这里也是我学习和跑通的一下技术点,没有应用到自己的垂直领域中,因此,这里也只是记录改代码点,和数据集的整理。......

2022-06-13 16:29:40 170

原创 文本生成项目(第二步摘要生成)

当生成标题之后,就需要生成摘要,摘要生成也是通过,GTP-2生成,但师弟说有抽取法,目前还没有比较GTP-2生成法得到的摘要,但是通过人工来看的化GTP-2摘要生成效果并不是很好,目前也没有在垂直领域实验,只是跑通了大佬的模型,也还是一篇学习记录。......

2022-06-05 20:25:42 968

原创 文本生成项目(第一步标题生成)

目前有个需求是根据一段内容生成文本简报,简报分为,简报标题,简报摘要,简报内容和生成的建议。目前我只将技术调通了,并没有用领域数据输入,所有简报的效果我也不太清楚。技术方案和技术思路已经成熟。.........

2022-06-05 16:06:39 403 3

原创 开始日常力扣刷题,题目二两数之和

给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。请你将两个数相加,并以相同形式返回一个表示和的链表。你可以假设除了数字 0 之外,这两个数都不会以 0 开头。

2022-05-31 14:03:57 82

原创 开始日常力扣刷题,题目一两数之和(持续更新中。。。。)

开个新坑日常力扣刷题并记录下来,已经二三年没有过算法题目,忘得差不多了,因此开这个新坑。

2022-05-30 23:48:41 76

原创 基于敏感数据的提取与加密(第三步,敏感数据加密)

目前,我已经做了两步就数据已经提取出来了,也做了词向量,现在我们要处理的就是,如何进行加密,我的思路是首先将词向量压缩到一维,再根据一维向量的大小进行排序。最后在根据提取出的词按照自己定义的方法进行加密,我的就比较简单往后加一步,如果这个字没有怎么办那个就统一定义一个数组,再或者用gensim,里面的wv.most_similar找最相关的字符。...

2022-05-29 22:05:28 340

原创 基于敏感数据的提取与加密(第二步,敏感数据命名体识别)

我提取敏感数据,举例常用敏感数据例如身份证号手机号,姓名和地点还有一些机构名字,因此我面向这些敏感数据,调用StanfordCoreNLP包,来解决大多数敏感数据,那会问了,为什么不自己训练模型来弄呢,对于我来说第一点太麻烦了,第二点主要也是因为没有具体标签如果只是为了做项目调用别的工具包,不寒碜。我以医院病历为例(就三条伪数据,简述一下如何做的)...

2022-05-29 21:19:45 567

原创 基于敏感数据的提取与加密(第一步,词向量的训练)

这个任务是面对与日俱增的数据,我们需要对数据中的敏感数据进行识别提取,并用一定是方式进行降噪,最终得出一份无敏感数据的文件。面对文字的情况,本项目选择了自然语言处理的方法来解决这个问题。...

2022-05-29 19:28:18 385

原创 Git上传代码保姆级教程(从SSH秘钥到上传代码)

给研一刚入坑的各位,先来一个必备技术咱不需要特别精通,只要能够连接github把代码上传到github,下载就行。

2022-05-22 23:52:31 885

原创 命名体是识别后关系抽取及知识图谱扩充(第三步,知识图谱的填充)

知识图谱最后一步从低往上的补充,实现Human in the loop

2022-05-22 16:34:15 322 2

原创 命名体是识别后关系抽取及知识图谱扩充(第二步,关系抽取)

项目场景:我们将数据集构建完成后,下面就需要做关系抽取,这是本项目的第二步。

2022-05-22 15:38:59 185

原创 命名体是识别后关系抽取及知识图谱扩充(第一步,数据集构建)

命名体是识别后关系抽取及知识图谱扩充

2022-05-15 00:03:39 641

原创 具体学科下构建数据集进行命名实体识别的方案(整体步骤第四步,最后一步)

目前拼图就差最后一块就是命名体识别,识别出沉积学物质,时间,地点时间。

2022-05-14 21:06:07 576

原创 具体学科下构建数据集进行命名实体识别的方案(整体步骤第三步)

学科项目命名体前第三步,数据集构建及整合

2022-05-03 18:34:55 567

原创 技巧篇一:代码小技巧python,导入本地包

导入本地python包

2022-04-28 22:50:22 3640 2

原创 具体学科下构建数据集进行命名实体识别的方案(整体步骤第二步)

学科领域词性构建

2022-04-28 19:33:33 384

原创 具体学科下构建数据集进行命名实体识别的方案(整体步骤第一步)

学科命名体识别数据集构建及命名体识别

2022-04-24 20:51:12 663 4

原创 胡笨笨硕士期间项目心得之项目三-二气象知识图谱语音问答系统

基于知识图谱语音问答系统

2022-04-21 23:08:30 3235

原创 胡笨笨硕士期间项目心得之项目四地学中砂岩文献内三角图和知识图谱关联

项目四地学文献中三角图和知识图谱关联:春来我不先开口,哪个虫儿敢作声。这个项目目前我参加最大的项目是国家自然科学基金指南引导类0-1原创探索项目子课题,(“沉积物知识图谱及其知识演化研究”)。这个小妙点子只是这个项目其中的一部分,在前期很紧急的情况下,也是第一个将知识图谱和沉积学实实在在关联到一起的例子。...

2022-04-11 23:15:34 1081 3

原创 胡笨笨硕士期间项目心得之项目三气象知识图谱的构建及区域积水地区预测

项目三气象知识图谱的构建及问答系统构建:奈天昏地暗,斗转星移。风骤紧,缥缈风头云乱。用知识图谱构建气象语音问答系统,将技术及时的落地才是王道。需求分析例如:数据传输过程中数据不时出现丢失的情况,偶尔会丢失一部分数据APP 中接收数据代码:@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainMessage(READ_DATA, bytes, -1, buffer).sendToTarge

2022-04-06 18:37:37 2896

原创 胡笨笨硕士期间项目心得之项目二图片插入知识图谱的构建可视化图谱场景

在知识图谱中插入图片的方法

2022-04-03 22:59:29 1106

原创 胡笨笨硕士期间项目心得之项目一砂岩体系结构化推理场景

在具体学科体系结构环境下,需要做一个体系结构化反向推理,适用于一切体系结构的推理。利用python和知识图谱给大家还原本项目案例流程。

2022-04-03 16:45:48 912 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除