自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小田的笔记簿

代码、笔记

  • 博客(133)
  • 收藏
  • 关注

原创 RAG - 使用 langchain 快速实现

在 ipynb 运行 getpass,上方会弹出输入框,输入 huggingface 的 token。转载自:如何基于Huggingface + Langchain 快速实现RAG。

2024-02-05 15:50:47 581

原创 Transformer - 代码实现

【代码】Transformer - 代码实现。

2024-02-04 20:44:27 413

原创 Decoder-only

给一个序列,预测出,每一个词后面的词。

2024-01-31 15:38:01 434

原创 查看文件夹所有文件个数

然而这个统计可能是不精准的,比如我有一个文件夹,文件结构如下。一般可以使用下面代码看一个文件夹下 第一级文件个数。如果要看下面所有子文件夹,及其个数,有人推荐使用。用grep命令过滤出以-开头的行(表示文件)这样得到的数量为 2,更准确点。目前看这个方法是最好最通用的。只看 .txt 文件。

2024-01-23 11:24:37 641

原创 一些 AI 机构

OpenAITHUDMMetaAITIIStability AINousResearch

2024-01-22 15:34:10 412

转载 FinGPT_Training_LoRA_with_ChatGLM2_6B_for_Beginners

Colab : https://colab.research.google.com/github/AI4Finance-Foundation/FinGPT/blob/master/FinGPT_Training_LoRA_with_ChatGLM2_6B_for_Beginners.ipynbWelcome to this comprehensive guide aimed at beginners diving into the realm of Financial Large Language Mode

2024-01-18 15:27:13 123

原创 Python - 一行代码for 循环处理数据

我处理的小需求是,将文件中每一行取出来,同时去掉换行符。参考:16个非常有用的Python单行代码!

2024-01-17 17:17:19 428

转载 FinGPT - Llama2 / Falcon 推理

1、Inference with Single Task: SentimentMake prompts2、Inference with Multi-Task

2024-01-16 18:54:05 161

原创 hf-mirror 使用

命令下载搜索下载gated model

2024-01-15 14:39:31 3169 1

原创 Python - 操作 docx

使用库 : python-docx。

2024-01-12 18:38:27 413

原创 Python - requests 上传文件及报错

cannot import name 'appengine' from 'urllib3.contrib'

2024-01-12 11:05:40 1311

原创 LLaMA Efficient Tuning

LLaMA Efficient Tuning安装数据准备浏览器一体化界面单 GPU 训练 train_bash1、预训练 pt2、指令监督微调 sft3、奖励模型训练 rm4、PPO 训练 ppo5、DPO 训练 dpo多 GPU 分布式训练1、使用 Huggingface Accelerate2、使用 DeepSpeed导出微调后的模型 export_model.pyAPI 服务 api_demo.py命令行测试 cli_demo.py浏览器测试 web_demo.py指

2024-01-09 17:36:04 1568

原创 封神榜大模型

封神榜大模型姜子牙系列模型

2024-01-09 16:25:14 555

原创 Crontab 使用及定时提交 git

相关文章crond 命令每分钟会定期检查是否有要执行的工作,如果有要执行的工作便会自动执行该工作。注意:新创建的 cron 任务,不会马上执行,至少要过 2 分钟后才可以,当然你可以重启 cron 来马上执行。而 linux 任务调度的工作主要分为以下两类:1、系统执行的工作:系统周期性所要执行的工作,如备份系统数据、清理缓存2、个人执行的工作:某个用户定期要做的工作,例如每隔 10 分钟检查邮件服务器是否有新信,这些工作可由每个用户自行设置。

2024-01-08 18:17:06 500

原创 wiki 爬虫记录

根据关键字,拼接详情页面 url,有些关键字没有对应页面就作罢。发现,是可以根据 当前网页的链接跳转,来获取有效的内容页面。一般倾向于 自顶向下的方式去 分析网站结构。打开wiki,不知道从哪儿爬起。关键字,可以将文本分词 来获取。

2024-01-08 17:52:24 1169 1

原创 Python - url 中中文编解码

【代码】Python - url 中中文编解码。

2024-01-08 17:46:08 475

原创 nohup - 后台执行

在后台执行,并输出日志到 log1.txt 文件。日志将被保留在 当前文件夹下的。将日志放到文件,不输出到终端。简单使用,暂时记录到这里。

2024-01-08 15:45:01 378

原创 句子相似度计算

首先,将输入 传给 transformer 模型,然后使用 在上下文化的单词嵌入之上 应用正确的池操作。这里使用预训练的 nreimers/MiniLM-L6-H384-uncased。如果不使用 sentence-transformers。模型,并在 1B 句对数据集上微调。

2023-11-30 20:01:11 641

原创 huggingface - pipeline - translate 记录

【代码】huggingface - pipeline - translate 记录。

2023-11-30 19:58:03 414

转载 NLP 面试题

一、动机篇1.1 什么是文本摘要?1.2 文本摘要技术有哪些类型?二、抽取式摘要篇2.1 抽取式摘要是怎么做的?2.1.1 句子重要性评估算法有哪些?2.1.2 基于约束的摘要生成方法有哪些?2.1.3 TextTeaser算法是怎么抽取摘要的?2.1.4 TextRank算法是怎么抽取摘要的?2.2 抽取式摘要的可读性问题是什么?三、压缩式摘要篇3.1 压缩式摘要是怎么做的?四、生成式摘要篇4.1 生成式摘要是怎么做的?

2023-11-22 21:14:06 118

原创 AI 的一些图 - 专家系统、机器学习、强化学习

来源:邱锡鹏 3小时 PPT。

2023-11-21 15:23:03 71

原创 Python - 全局变量小记

数组可以 append,不能。

2023-11-16 10:12:08 80

原创 hanlp - 识别人名/地名

【代码】hanlp - 识别人名/地名。

2023-11-14 16:51:57 360

原创 Python - 操作 doc / docx

文章目录读取 docx注意:doc/docx 文件名中如果包含空格,可能导致读取失败,可以提前替换为 _读取 docxtextract 和 docx2txt 两个库都支持读取 docximport textractimport docx2txtfile_path = '.../docx/a.docx'print('file_path : ', file_path)bs = textract.process(file_path) # 得到的是 bytestext1 = bs.deco

2021-11-11 19:25:49 1273

原创 NLP 对齐 - Microsoft Bilingual Sentence Aligner

文章目录问题基于IBM模型下载地址: https://www.microsoft.com/en-us/download/details.aspx?id=526081、修改 perl 解释器路径问题1、-bash: /Users/user/repos/NLP_repo/bilingual-sentence-aligner/align-sents-all.pl: /usr/bin/perl^M: bad interpreter: No such file or directory根据 ht

2021-11-08 17:08:36 1079

原创 Python - url 编解码

文章目录使用 urllib 库参考: https://www.cnblogs.com/miaoxiaochao/p/13705936.htmlstr = '你好'a = urllib.parse.quote(str) print(a) # %E4%BD%A0%E5%A5%BDb = urllib.parse.unquote(a) # 你好

2021-10-30 19:55:20 138

原创 Python - 编解码

文章目录关于编解码编码的种类关于编解码编码/解码本质上是一种映射a 用ascii编码则是65,计算机中存储的就是 00110101但是显示的时候不能显示 00110101,还是要显示’a’,计算机就需要解码编码:真实字符与二进制串的对应关系,真实字符 → 二进制串解码:二进制串与真实字符的对应关系,二进制串 → 真实字符编码的种类ASCII 占1个字节,只支持英文GB2312 占2个字节,支持6700+汉字GBK GB2312的升级版,支持21000+汉字,中文2个字节。Uni

2021-10-18 19:08:25 145

原创 Python - regex 模块

文章目录ExamplesAdded POSIX matching (leftmost longest)Added partial matchesregex.submatchcapturesfullmatchsubf and subfnAdded expandf to match objectfindallBranch reset参考PYPI:https://pypi.org/project/regex/代码:https://bitbucket.org/mrabarnett/mrab-regex/sr

2021-10-18 18:07:50 859

原创 Python - __all__

文章目录https://www.cnblogs.com/wxlog/p/10566628.htmlpython模块中的 __all__,用于模块导入时限制比如,如果模块A定义了 __all__ 属性,使用 from moduleA import * ,则只有 __all__ 内指定的属性、方法、类可被导入;若没定义,则导入模块内的所有公有属性,方法和类。...

2021-10-18 14:54:57 124

原创 Non-Breaking Space

文章目录NBSP:“Non-Breaking Space” ,不间断空格也称为: no-break space,non-breakable space (NBSP), hard space(硬空格), or fixed space在HTML中,被编码为   或 &#160,宽度和普通空格一致。在 Unicode 码点为 U+00A0 , 命名为Narrow No-Break Space在 js 中是 \xA0NBSP 是常用的编程和网页创建的行,不打破空间上的程序或文

2021-10-16 20:23:36 1690

转载 Python - wsgi

文章目录wsgirefhttps://www.jmjc.tech/tutorial/python/55web 编程就是对HTTP协议的应用。我们能使用 socket 自制 web 服务器,但每次都需要自己处理协议的内容很烦琐,所以可以把 HTTP协议的东西外包给专门的HTTP服务器软件。Apache、Nginx 等 HTTP服务器软件都是只负责处理 HTTP 的请求和响应。python 就只是单纯的负责处理业务,在通过 wsgi 把 Python 和 HTTP 关联起来。类似的这种 “

2021-09-27 11:07:39 124

原创 Python 中的下划线

文章目录https://www.cnblogs.com/yunwangjun-python-520/p/10692851.htmlPEP-8Style Guide for Python Codehttps://www.python.org/dev/peps/pep-0008/中文说明:https://www.jianshu.com/p/ffcc66bab3cehttps://blog.csdn.net/ratsniper/article/details/78954852...

2021-09-27 10:32:33 277

原创 数据清洗 - 特殊符号

文章目录QQ起昵称专用特效字符箭头符号贴图字符大全图形符号本着洗文本的目的,去搜了几个想到的符号,搜到了所有的特殊符号,不得不说,这个家族很大。这里我选择了写我认为常见的,使用 re 将特殊符号替换为空,代码:def clear_special_char(sent): pat = '[★☆◆◇▲△▼▽▶●○〇□■☉⊙◎︻︼︽︾〒↑↓¤▓◣◥◢◤↑↓→←↘↙⌒∮※ㄨ╬▂▃▄▅▆▇█]+' return re.sub(pat, '', sent)QQ起昵称专用特效字符︻︼︽︾〒

2021-09-22 17:07:07 798

原创 TensorBoard

文章目录安装 TensorBoard安装 TensorBoard(base) $ sudo pip install tensorboard==1.15.0tensorflow 1.14.0 requires tensorboard<1.15.0,>=1.14.0, but you have tensorboard 1.15.0 which is incompatible.启动,并修改 tensorboard 端口需要进入 logs 所在根目录tensorboard --lo

2021-09-13 20:47:55 510

原创 PyTorch - 安装

文章目录关于对 macOS 的支持:测试关于显卡前往官方下载界面,选择自己的操作系统和安装方式,可以得到安装命令:https://pytorch.org/get-started/locally/这里我们得到的命令pip install torch torchvision torchaudio由于一般下载比较慢,这里我使用豆瓣的源pip install torch torchvision torchaudio -i https://pypi.douban.com/simple/im

2021-09-13 08:51:38 223

原创 Tensorflow 概览

文章目录相关资料书籍安装TensorFlow 是什么?关于开源TensorFlow和Keras之间的关系基本运算基本概念图 Graphs张量 tensor算子 operation核(kernel)变量命令行参数TF 数据流图会话 Session张量动态形状和静态形状其他资料相关资料官网:https://tensorflow.google.cn/指南:https://tensorflow.google.cn/tutorialsAPI: https://tensorflow.google.cn/ve

2021-08-31 16:18:11 476

原创 Python - 字符处理

文章目录提取不同类型字符提取不同类型字符转载自:https://www.cnblogs.com/zihe/p/8323508.htmlimport stringfrom collections import namedtupledef str_count(s): '''找出字符串中的中英文、空格、数字、标点符号个数''' count_en = count_dg = count_sp = count_zh = count_pu = 0 s_len = len(s)

2021-08-19 14:00:50 161

原创 n-gram 获取重复词语

文章目录https://www.cnblogs.com/limingqi/p/14159466.html 一文中介绍了使用 n-gram 去重,我的目的没有这么复杂,主要是检测重复即可。本想用 jieba 分词后,counter 出词语出现的次数,但确实没有n-gram,当然 ngram 也相对更耗时。还是写出以下代码:def check(sentence, max_ngram_length=4): final_merge_sent = sentence max_ngram_l

2021-08-12 20:26:25 536

原创 逐行读取/保存数据到 csv

import csvdef read_file(): file_path = 'abc.txt' save_path = '001.csv' out = open(save_path, 'a', newline='') csv_write = csv.writer(out, dialect='excel') i = 0 for line in open(file_path): print('i : ', i) arr .

2021-08-03 10:02:14 268

原创 Python - 接收命令行参数

文章目录方式一:通过sys.argv方式二:getopt()方式一:通过sys.argvimport sysif __name__ == '__main__': print(sys.argv) print(len(sys.argv))使用 python main.py 或用 pycharm 运行时,得到的结果为:['.../xxx/main.py'] # 本文件地址1如果在终端执行:(base) $ python main.py a b['main.py'

2021-07-16 12:11:24 7065

titanic 泰坦尼克 数据集

train 713条, test 180条

2024-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除