技术杂谈
文章平均质量分 57
知识不足恐惧症
这个作者很懒,什么都没留下…
展开
-
python多进程读取大量小文件
最近参加一个算法比赛,比赛的数据很大,解压后大约35G左右,由712839个小csv文件组成,每个文件大小在几kb大小不等,每个文件里包含一列、若干行数据,且每个文件的数据长度不一致,甚至会遇到空文件。所以想到可以用json保存数据,每个特征用字典存放,key是特征名称,value为具体的特征数据,一个json文件中包含一个字典,每个字典中用不同的key区分不同特征数据,读取速度也很快。多进程方面,可以将所以的文件路径放到一个list中,利用多进程分别处理其中每个文件。,这还是在没有用全部核的情况下。原创 2023-03-15 11:17:53 · 1070 阅读 · 2 评论 -
openAI API简易使用教程
openAI提供了几种不同场景的模型,主要有text completion、code completion、chat completion、image completion,例如chat completion,则调用方式为。而且请求的token和回复的token数会被加一起计费,例如说输入了10个token,openAI回复了20个token,那么最终收费是按照30个token进行收费。model 是具体的模型,gpt-3.5-turbo是openAI最先进的语言模型,当然也可以用其他模型。原创 2023-03-14 21:09:30 · 20466 阅读 · 2 评论 -
python-matplotlib画图相关
python-matplotlib画图记录原创 2022-11-16 20:42:53 · 123 阅读 · 0 评论 -
Google could避坑记录
Google cloud使用记录原创 2022-11-11 18:57:53 · 135 阅读 · 0 评论 -
python训练保存模型后利用jpmml给Java后端调用预测
Python训练保存模型,Java后端调用原创 2022-09-28 19:25:16 · 1733 阅读 · 4 评论 -
搜索引擎的背后(粗糙入门)
搜索引擎架构搜索引擎大概可分为4步:搜集预处理索引查询搜集利用爬虫搜集信息,初始可以从一些优质网页,然后通过广度优先遍历,不断提取出网页内容和其中的链接,并将链接加入到待爬取队列中,不断迭代爬取更多的网页;问题一:这么多的网页,必然存在重复爬取的网页,如何避免重复爬取?答:利用布隆过滤器。假如有10亿个url,每个URL平均长度为64字节,则10亿个至少需要1 KB = 1024 字节(Byte),所以需要 1 * 10^9 * 64 / 2^30 = 60 G 内存,使用普通存原创 2020-05-18 09:56:46 · 191 阅读 · 0 评论