数据分析
文章平均质量分 52
爬虫、数据清洗、数据可视化
向日葵花籽儿
AI工程师:
NLP+AIGC+LLM+后端+DB(向量/非向量)
深度学习/算法优化/基础提升
Python/C++/(Java/JS/HTML)
近期专注内容:RAG | Langchain
展开
-
#Python基础#JSON 和编码转换方法概述
【代码】#Python基础#JSON 和编码转换方法概述。原创 2024-02-19 16:40:30 · 564 阅读 · 0 评论 -
#PDF2HTML|文档转换#PDF转HTML
PDF转HTML,废话不多说,直接上代码。原创 2024-01-31 17:54:02 · 435 阅读 · 0 评论 -
#RAG|NLP|Jieba|PDF2WORD# pdf转word-换行问题
文档在生成PDF时,文宁都发生了什么。本文讲解了配置对象、resources对象和content对象的作用,以及字体、宇号、坐标、文本摆放等过程。同时,还解释了为什么PDF转word或转文字都是一行一行的以及为什么页眉页脚的问题会加大识别难度。最后提到了文本的编码和PDF中缺少文档结构标记的问题。PDF转word更像是一种逆向工程。原创 2024-01-31 17:32:00 · 1451 阅读 · 3 评论 -
#基础#使用Jupyter进行Notebook的转换 .ipynb文件导出为.md文件
我们在使用jupyter 写代码后,经常遇到一些写完想把文件转成markdown格式的场景,这里就教你怎么处理相关的问题。原创 2024-01-15 15:28:00 · 684 阅读 · 0 评论 -
#向量# 词嵌入算法比较 Word2Vec GloVe FastText
特征Word2VecGloVeFastText训练方法神经网络统计方法神经网络 + 字符级别训练数据类型单词单词单词 + 字符优势可解释性、泛化能力强效率、可扩展性效率、准确性、通用性劣势训练时间较长可解释性较差训练数据量较少时效果较差原创 2024-01-09 15:11:11 · 411 阅读 · 0 评论 -
#向量# 向量距离选择
]曼哈顿距离(Manhattan Distance): 也称为L1范数,表示为两点在各坐标轴上的距离总和。对于两个n维向量x和y,曼哈顿距离表示为:[d(x,y)=∑i=1n∣xi−yi∣d(x, y) = \sum_{i=1}^{n} |x_i - y_i|d(x,y)=∑i=1n∣xi−yi∣]切比雪夫距离(Chebyshev Distance): 也称为L∞范数,表示为两个向量在各个坐标轴上差值的最大值。对于两个n维向量x和y,切比雪夫距离表示为:[d(x,y)=maxi(∣xi−yi原创 2024-01-09 15:09:43 · 838 阅读 · 0 评论 -
#NLP# 知识图谱入门知识,这一篇就够啦!
1 知识图谱基础知识2 知识图谱存储方法3 重点介绍Neo4j4 参考原创 2024-01-09 15:33:27 · 1201 阅读 · 0 评论 -
Python爬虫(B站视频)(非大会员,不影响版权)的后端技术
在本篇博客中,我将介绍如何使用Python编写爬虫代码来爬取Bilibili(B站)的视频并下载保存到本地。通过使用Python的requests库和BeautifulSoup库,我们可以轻松地获取视频的标题、视频链接和音频链接,并将它们下载到本地。以上就是使用Python编写的爬取B站视频并下载的后端技术代码。通过运行该代码,你可以指定视频的bid,获取视频的标题、视频链接和音频链接,并将它们下载到本地。注意,你需要安装所需的Python库,如requests、BeautifulSoup等。原创 2023-07-13 10:49:47 · 3482 阅读 · 6 评论