- 博客(136)
- 收藏
- 关注
原创 RAG - 使用 langchain 快速实现
在 ipynb 运行 getpass,上方会弹出输入框,输入 huggingface 的 token。转载自:如何基于Huggingface + Langchain 快速实现RAG。
2024-02-05 15:50:47 632
原创 查看文件夹所有文件个数
然而这个统计可能是不精准的,比如我有一个文件夹,文件结构如下。一般可以使用下面代码看一个文件夹下 第一级文件个数。如果要看下面所有子文件夹,及其个数,有人推荐使用。用grep命令过滤出以-开头的行(表示文件)这样得到的数量为 2,更准确点。目前看这个方法是最好最通用的。只看 .txt 文件。
2024-01-23 11:24:37 730
转载 FinGPT_Training_LoRA_with_ChatGLM2_6B_for_Beginners
Colab : https://colab.research.google.com/github/AI4Finance-Foundation/FinGPT/blob/master/FinGPT_Training_LoRA_with_ChatGLM2_6B_for_Beginners.ipynbWelcome to this comprehensive guide aimed at beginners diving into the realm of Financial Large Language Mode
2024-01-18 15:27:13 137
原创 Python - 一行代码for 循环处理数据
我处理的小需求是,将文件中每一行取出来,同时去掉换行符。参考:16个非常有用的Python单行代码!
2024-01-17 17:17:19 443
转载 FinGPT - Llama2 / Falcon 推理
1、Inference with Single Task: SentimentMake prompts2、Inference with Multi-Task
2024-01-16 18:54:05 187
原创 Python - requests 上传文件及报错
cannot import name 'appengine' from 'urllib3.contrib'
2024-01-12 11:05:40 1433
原创 LLaMA Efficient Tuning
LLaMA Efficient Tuning安装数据准备浏览器一体化界面单 GPU 训练 train_bash1、预训练 pt2、指令监督微调 sft3、奖励模型训练 rm4、PPO 训练 ppo5、DPO 训练 dpo多 GPU 分布式训练1、使用 Huggingface Accelerate2、使用 DeepSpeed导出微调后的模型 export_model.pyAPI 服务 api_demo.py命令行测试 cli_demo.py浏览器测试 web_demo.py指
2024-01-09 17:36:04 1588
原创 Crontab 使用及定时提交 git
相关文章crond 命令每分钟会定期检查是否有要执行的工作,如果有要执行的工作便会自动执行该工作。注意:新创建的 cron 任务,不会马上执行,至少要过 2 分钟后才可以,当然你可以重启 cron 来马上执行。而 linux 任务调度的工作主要分为以下两类:1、系统执行的工作:系统周期性所要执行的工作,如备份系统数据、清理缓存2、个人执行的工作:某个用户定期要做的工作,例如每隔 10 分钟检查邮件服务器是否有新信,这些工作可由每个用户自行设置。
2024-01-08 18:17:06 508
原创 wiki 爬虫记录
根据关键字,拼接详情页面 url,有些关键字没有对应页面就作罢。发现,是可以根据 当前网页的链接跳转,来获取有效的内容页面。一般倾向于 自顶向下的方式去 分析网站结构。打开wiki,不知道从哪儿爬起。关键字,可以将文本分词 来获取。
2024-01-08 17:52:24 1185 1
原创 nohup - 后台执行
在后台执行,并输出日志到 log1.txt 文件。日志将被保留在 当前文件夹下的。将日志放到文件,不输出到终端。简单使用,暂时记录到这里。
2024-01-08 15:45:01 388
原创 句子相似度计算
首先,将输入 传给 transformer 模型,然后使用 在上下文化的单词嵌入之上 应用正确的池操作。这里使用预训练的 nreimers/MiniLM-L6-H384-uncased。如果不使用 sentence-transformers。模型,并在 1B 句对数据集上微调。
2023-11-30 20:01:11 679
原创 huggingface - pipeline - translate 记录
【代码】huggingface - pipeline - translate 记录。
2023-11-30 19:58:03 423
转载 NLP 面试题
一、动机篇1.1 什么是文本摘要?1.2 文本摘要技术有哪些类型?二、抽取式摘要篇2.1 抽取式摘要是怎么做的?2.1.1 句子重要性评估算法有哪些?2.1.2 基于约束的摘要生成方法有哪些?2.1.3 TextTeaser算法是怎么抽取摘要的?2.1.4 TextRank算法是怎么抽取摘要的?2.2 抽取式摘要的可读性问题是什么?三、压缩式摘要篇3.1 压缩式摘要是怎么做的?四、生成式摘要篇4.1 生成式摘要是怎么做的?
2023-11-22 21:14:06 132
原创 Python - 操作 doc / docx
文章目录读取 docx注意:doc/docx 文件名中如果包含空格,可能导致读取失败,可以提前替换为 _读取 docxtextract 和 docx2txt 两个库都支持读取 docximport textractimport docx2txtfile_path = '.../docx/a.docx'print('file_path : ', file_path)bs = textract.process(file_path) # 得到的是 bytestext1 = bs.deco
2021-11-11 19:25:49 1289
原创 NLP 对齐 - Microsoft Bilingual Sentence Aligner
文章目录问题基于IBM模型下载地址: https://www.microsoft.com/en-us/download/details.aspx?id=526081、修改 perl 解释器路径问题1、-bash: /Users/user/repos/NLP_repo/bilingual-sentence-aligner/align-sents-all.pl: /usr/bin/perl^M: bad interpreter: No such file or directory根据 ht
2021-11-08 17:08:36 1098
原创 Python - url 编解码
文章目录使用 urllib 库参考: https://www.cnblogs.com/miaoxiaochao/p/13705936.htmlstr = '你好'a = urllib.parse.quote(str) print(a) # %E4%BD%A0%E5%A5%BDb = urllib.parse.unquote(a) # 你好
2021-10-30 19:55:20 144
原创 Python - 编解码
文章目录关于编解码编码的种类关于编解码编码/解码本质上是一种映射a 用ascii编码则是65,计算机中存储的就是 00110101但是显示的时候不能显示 00110101,还是要显示’a’,计算机就需要解码编码:真实字符与二进制串的对应关系,真实字符 → 二进制串解码:二进制串与真实字符的对应关系,二进制串 → 真实字符编码的种类ASCII 占1个字节,只支持英文GB2312 占2个字节,支持6700+汉字GBK GB2312的升级版,支持21000+汉字,中文2个字节。Uni
2021-10-18 19:08:25 155
原创 Python - regex 模块
文章目录ExamplesAdded POSIX matching (leftmost longest)Added partial matchesregex.submatchcapturesfullmatchsubf and subfnAdded expandf to match objectfindallBranch reset参考PYPI:https://pypi.org/project/regex/代码:https://bitbucket.org/mrabarnett/mrab-regex/sr
2021-10-18 18:07:50 876
原创 Python - __all__
文章目录https://www.cnblogs.com/wxlog/p/10566628.htmlpython模块中的 __all__,用于模块导入时限制比如,如果模块A定义了 __all__ 属性,使用 from moduleA import * ,则只有 __all__ 内指定的属性、方法、类可被导入;若没定义,则导入模块内的所有公有属性,方法和类。...
2021-10-18 14:54:57 132
原创 Non-Breaking Space
文章目录NBSP:“Non-Breaking Space” ,不间断空格也称为: no-break space,non-breakable space (NBSP), hard space(硬空格), or fixed space在HTML中,被编码为 或  ,宽度和普通空格一致。在 Unicode 码点为 U+00A0 , 命名为Narrow No-Break Space在 js 中是 \xA0NBSP 是常用的编程和网页创建的行,不打破空间上的程序或文
2021-10-16 20:23:36 1810
转载 Python - wsgi
文章目录wsgirefhttps://www.jmjc.tech/tutorial/python/55web 编程就是对HTTP协议的应用。我们能使用 socket 自制 web 服务器,但每次都需要自己处理协议的内容很烦琐,所以可以把 HTTP协议的东西外包给专门的HTTP服务器软件。Apache、Nginx 等 HTTP服务器软件都是只负责处理 HTTP 的请求和响应。python 就只是单纯的负责处理业务,在通过 wsgi 把 Python 和 HTTP 关联起来。类似的这种 “
2021-09-27 11:07:39 135
原创 Python 中的下划线
文章目录https://www.cnblogs.com/yunwangjun-python-520/p/10692851.htmlPEP-8Style Guide for Python Codehttps://www.python.org/dev/peps/pep-0008/中文说明:https://www.jianshu.com/p/ffcc66bab3cehttps://blog.csdn.net/ratsniper/article/details/78954852...
2021-09-27 10:32:33 288
原创 数据清洗 - 特殊符号
文章目录QQ起昵称专用特效字符箭头符号贴图字符大全图形符号本着洗文本的目的,去搜了几个想到的符号,搜到了所有的特殊符号,不得不说,这个家族很大。这里我选择了写我认为常见的,使用 re 将特殊符号替换为空,代码:def clear_special_char(sent): pat = '[★☆◆◇▲△▼▽▶●○〇□■☉⊙◎︻︼︽︾〒↑↓¤▓◣◥◢◤↑↓→←↘↙⌒∮※ㄨ╬▂▃▄▅▆▇█]+' return re.sub(pat, '', sent)QQ起昵称专用特效字符︻︼︽︾〒
2021-09-22 17:07:07 824
原创 TensorBoard
文章目录安装 TensorBoard安装 TensorBoard(base) $ sudo pip install tensorboard==1.15.0tensorflow 1.14.0 requires tensorboard<1.15.0,>=1.14.0, but you have tensorboard 1.15.0 which is incompatible.启动,并修改 tensorboard 端口需要进入 logs 所在根目录tensorboard --lo
2021-09-13 20:47:55 529
原创 PyTorch - 安装
文章目录关于对 macOS 的支持:测试关于显卡前往官方下载界面,选择自己的操作系统和安装方式,可以得到安装命令:https://pytorch.org/get-started/locally/这里我们得到的命令pip install torch torchvision torchaudio由于一般下载比较慢,这里我使用豆瓣的源pip install torch torchvision torchaudio -i https://pypi.douban.com/simple/im
2021-09-13 08:51:38 232
原创 Tensorflow 概览
文章目录相关资料书籍安装TensorFlow 是什么?关于开源TensorFlow和Keras之间的关系基本运算基本概念图 Graphs张量 tensor算子 operation核(kernel)变量命令行参数TF 数据流图会话 Session张量动态形状和静态形状其他资料相关资料官网:https://tensorflow.google.cn/指南:https://tensorflow.google.cn/tutorialsAPI: https://tensorflow.google.cn/ve
2021-08-31 16:18:11 492
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人