人工智能之数据与语言_河南-殷志强的博客-CSDN博客

人工智能之数据与语言

关注

文章平均质量分 79

关注数：文章数：16 文章阅读量：239500 文章收藏量：213

作者: 河南-殷志强

河南大学软件工程学士,常州大学计算机学硕，研究方向为数据挖掘及知识图谱,发表两篇SCI,一篇发明专利。拥有超过两年的高层管理工作及编码经验,曾作为负责人之一完成两个项目，曾作为负责人独立完成4个项目。有需要备注目的，微信联系即可，V:yin2428775304

展开

开发相关的工具及AI算法调研【降本增效】

以下是实现软件开发降本增效的主要流程，将调研涉及该过程的可用工具或方法。按照满足我的核心需求查找：1.必须能快速生成一段完整的业务代码（示例，生成“读取pdf并解析数据”的业务代码）2.能够集成在各个开发工具里自动生成代码另其他的在线AI，均满足1，选其中一种也可。具体如下：文心一言 (baidu.com)讯飞星火认知大模型-AI大语言模型-星火大模型-科大讯飞 (xfyun.cn)智谱清言 (chatglm.cn)通义千问 (aliyun.com)

原创 2024-01-25 12:08:31 · 989 阅读 · 0 评论
高效数组处理的Numpy入门总结

NumPy是Python中一个重要的数学库，它提供了高效的数组操作和数学函数，是数据科学、机器学习、科学计算等领域的重要工具。下面是一个简单的NumPy学习教程，介绍了NumPy的基本用法和常用函数。

原创 2023-12-12 16:36:03 · 981 阅读 · 0 评论
对小工蚁关于LLM的技术总结+个人思考

推理能力？目前还未知晓为何得到结果。

原创 2023-12-04 16:09:21 · 426 阅读 · 0 评论
【数据处理】 -- 【两分钟】了解【最好】的方式 -- 【正则表达式】

r’'表示单引号里字符为其特殊含义，比如.不是句号是匹配符的意思。表示非贪婪模型，匹配最少字符。re.M表示多行，一般默认单行。

原创 2023-11-23 16:17:11 · 9722 阅读 · 0 评论
一定要看看的大模型【评测基准】及【评测报告】

针对于复杂任务，每个模型都要多次测试其对指示模版的适应程度。

原创 2023-10-31 16:26:28 · 12074 阅读 · 2 评论
AI模型训练推理一定要知道的事情

模型训练需要大量计算资源，包括CPU(Central Processing Unit)、GPU(Graphical Processing Unit)、TPU(Tensor Processing Unit)等，其中GPU是最为常见的硬件加速器。另外还可以通过算法优化提高模型训练效率。例如分布式训练技术（将数据和模型参数分配到多台机器上进行计算）、还可以采用模型压缩技术，将模型的大小压缩到最小。

原创 2023-03-25 21:26:01 · 10274 阅读 · 1 评论
算法顶级比赛汇总

时间：每年各个季度很多类型都会出题（比赛总时间大概为两个月）内容：各个类型的算法题都会出、奖金上万不等形式：在线提交（提交后在线检查结果）、离线测试。每队每天有1次提交结果的机会时间：每个时间段都有题，一次小比赛大概（2个月时间）内容：本地训练、在线提交（一等奖5万）形式：在线提交（提交后在线检查结果）、离线测试。每队每天有1次提交结果的机会时间：春季赛四月到七月、七月到九月有三场；秋季赛雷同。平均每个小赛题（两个月的时间）

原创 2023-02-10 17:50:35 · 12397 阅读 · 0 评论
轨迹预测算法vectorNet调研报告

传统的行为预测方法是规则的，基于道路结构的约束生成多个行为假设。最近，很多基于学习的预测方法被提出。他们提出了对于不同行为假设的进行概率解释的好处，但是需要重构一个新的表示来编码地图和轨迹信息。有趣的是，虽然高精度地图是高度结构化的，但是目前大多数预测方法选择将高精度地图渲染成颜色编码的属性，并且采用感受野有限的卷积神经网络对场景信息进行编码。这带来一个疑问：能否直接从结构化的高精度地图中学习到有意义的场景信息表示？

原创 2023-02-10 17:36:58 · 11930 阅读 · 0 评论
pointpillars Paper学习总结

PointPillars提出了一种新的点云编码方式和3D转2D的方法，用2D卷积的方式实现目标检测而没有采用耗时的3D卷积，在速度和精度上达到了很好的平衡，其速度快、精度高、易于部署的特点使得其在工业界得到了广泛的应用。处理思路是3d转2d，在2d伪图像上进行目标检测。数据增强。

原创 2023-02-10 17:18:43 · 9603 阅读 · 0 评论
目标检测算法之voxelNet与pointpillars对比

目前检测主流算法VoxelNet与Pointpillars对比比较

原创 2023-02-10 17:11:16 · 10939 阅读 · 0 评论
自然算法 - AI面试基础补全

面经回复项目连接

原创 2022-11-30 15:09:06 · 26043 阅读 · 0 评论
NLP-了解BERT下游任务

MNLI：大规模分类任务，目标是预测第二个句子相对于第一个句子是包含，矛盾还是中立。QQP：二分类任务，预测Quora在两个语义问题上是否等效。STS-B：语义文本相似性基准，从新闻头条或者其他来源提取句子对的集合。然后按分值标注，表示两个句子在语义上多相似。MRPC：自动从在线新闻源中提取句子对组成，并带有人工标注，以说明句子对中的句子在语义上是否等效。SWAG: 对抗生成的情境数据集包含113k个句子对完整示例，用于评估扎实的常识推理。给定一个句子，任务是在四个选择中选择最合理的连续性。

原创 2022-11-30 15:05:31 · 27859 阅读 · 4 评论
算法优化总结 - Transofomer避免显存不足及训练时间过长

自BERT出现以来，nlp领域已经进入了大模型的时代，大模型虽然效果好，但是毕竟不是人人都有着丰富的GPU资源，在训练时往往就捉襟见肘，出现显存out of memory的问题，或者训练时间非常非常的久，因此，这篇文章主要解决的问题就是如何在GPU资源受限的情况下训练transformers库上面的大模型。

原创 2022-11-30 15:02:33 · 27224 阅读 · 0 评论
Transformer对接公司需求的调研报告

它们都是有助于计算和理解注意力机制的抽象概念。计算自注意力的第二步是计算得分。假设这个例子中，为第一个词“Thinking”计算自注意力向量，就需要拿输入句子中的每个单词对“Thinking”打分。这些分数决定了在编码单词“Thinking”的过程中有多重视句子的其它部分。这些分数是通过打分单词（所有输入句子的单词）的键向量与“Thinking”的查询向量相点积来计算的。所以如果我们是处理位置最靠前的词的自注意力的话，第一个分数是q1和k1的点积，第二个分数是q1和k2的点积。

原创 2022-11-30 14:59:53 · 26595 阅读 · 0 评论
自然语言-知识图谱调研结论

torchTextFeed-Forward Neural Networks（前馈神经网络）FFN在很多TC（文本分类）任务中实现了高精确度。它把文本看做成一袋单词。每个单词都用word2vec或者Glove等嵌入模型表示成词向量，然后将词向量取和或者平均来代表文本，然后通过一层或多层的前馈神经网络（例如：MLPs），然后使用分类器（例：逻辑回归，朴素贝叶斯，或SVM）对最后一层的表示进行分类。RNN-Based Models（基于循环神经网络的模型）

原创 2022-11-30 14:44:17 · 26340 阅读 · 0 评论
知识图搭建- Nebula Graph 3.1 + studio3.3 数据语法试错合集

查询点Person的属性Person.name# 显示图空间统计信息。# 查看所有标签为Person的点，限制100个数# 使用属性name搜索匹配的点。等于 MATCH (v:Person) WHERE v.name == "Aaron Acosta" RETURN v;(后面where在不同版本是有问题的，比如v.name可能是v.tag.name)# 使用id搜索匹配的点# 使用多个id搜索匹配的点# 使用点与点关系搜索点（用户可以在--符号上增加符号指定边的方向。）

原创 2022-11-30 14:39:05 · 26115 阅读 · 0 评论

人工智能之数据与语言

作者: 河南-殷志强

开发相关的工具及AI算法调研【降本增效】

高效数组处理的Numpy入门总结

对小工蚁关于LLM的技术总结+个人思考

【数据处理】 -- 【两分钟】了解【最好】的方式 -- 【正则表达式】

一定要看看的大模型【评测基准】及【评测报告】

AI模型训练推理一定要知道的事情

算法顶级比赛汇总

轨迹预测算法vectorNet调研报告

pointpillars Paper学习总结

目标检测算法之voxelNet与pointpillars对比

自然算法 - AI面试基础补全

NLP-了解BERT下游任务

算法优化总结 - Transofomer避免显存不足及训练时间过长

Transformer对接公司需求的调研报告

自然语言-知识图谱调研结论

知识图搭建- Nebula Graph 3.1 + studio3.3 数据语法试错合集