- 博客(9)
- 收藏
- 关注
原创 pytorch调用不到cuda?
目前来说问题是不是解决了,大no特no真的是解决不了一点啊,安装完成之后import了一下显示找不到我的torch,返回到conda list找了一下,将关于torch,pytorch的东西都卸掉之后,重新安装。因为我使用的是conda环境只安装conda用的是cpu,只安装pip显示torch用不了,重点!尝试了好多种,从各路大神哪里寻找就是解决不了,最简单最暴力的方法!最简单最暴力的方法就是卸掉重新安装切记将pytorch附属组件也卸掉。显示torch可以调用cuda了,太不容易了,都是泪啊。
2024-08-06 15:14:37 405
原创 大数据开窗函数
select 聚合函数 over(partition by 分组字段 order by 排序字段 rows between 上边界 and 下边界)4、select 聚合函数 over(partition by 分组字段 order by 排序字段)2、select 聚合函数 over(partition by 分组字段)3、select 聚合函数 over(order by 排序字段)-unbounded preceding:表示从前面的起点第一行。-unbounded:起点。
2024-04-23 14:01:39 420 2
原创 sampling采样
函数:就是程序员或者服务将一定的功能打包封装起来,用固定的字符组代替该功能,如果我们需要使用时,调用该字符组合名称,即可以使用该功能。如果我们自己提取测试数据一般使用sampling进行采样,数据随机性更高,数据质量更高,数据覆盖更全面。函数部分内容很多,如果死记硬背难度极大,我们要做到的就是听懂,知道有这个功能,如果遇到了回过头来查询。在数据使用过程中,我们需要计数,分类(拆分或合并)的数据我们用字符串存储。创建一个表,什么样的数据要使用字符串接收,什么样的数据要使用数值接受?
2024-04-23 13:42:50 588 2
原创 大数据的数据类型
建表时分桶字段一定是经常用于连接或者查询的字段,有些字段我们不经常连接,偶尔使用一次且想提高连接效率,则可以使用该方法,分桶排序,排序效率比全局排序效率高,所以我们使用分桶排序代替全局排序。2、union联合查询,会在查询后子哦当按照哈希值进行排序,我们无法控制,如果需要排序,在合并完成后排序。2、桶内排序顾名思义就是将一个分桶内的数据按照制定规则排序,所以操作顺序也是先分桶,在排序。4、使用这种方式创建表后,导入的数据会自动分桶并排序,这种排序方式是在自己的桶内进行排序·
2024-04-19 08:53:42 458 1
原创 分区表,多级分区表,分桶表的操作
我们再查询数据内容时,如果对表进行了分区,并且根据分区字段进行了筛选则我们读取文件时只读取对应分区内的数据条目,减少了数据检索方位,提高了执行效率。1,2,3,4,5在一个字段值中包含多个同类型的数据内容就是数组 该数组包含5个元素,元素间分隔符为逗号。注意:如果我们想让分区表的查询效率提升,我们要根据分区字段进行筛选,如果不使用分区表筛选,和普通表无异。它可以指定文件中的字段分隔符,换行符,集合间的分隔符,map间的kv分隔符。3、多级分区表之间必须要有层级从属关系,比如年,月,日,省,市,区等。
2024-04-18 11:28:19 346
原创 hdfs WeBUl的使用
效率更高,因为 create table是DDL语言,而insert into是DML语言,优化方式不一样,但是create table 不能细化的进行表的创建,insert into会先创建表再导入。1、使用insert overwrite directory 进行数据导出,一定要注意谨慎操作,因为会将该目录中原有的数据全部清空,且无法恢复。 3、加上local关键字,我们就是从本地目录中加载数据,如果不加local就是从hdfs中加载数据,在开发中我们一般从hdfs中加载数据。
2024-04-17 08:32:14 932
原创 hive客户端连接
主题:是一个抽象的概念,数据综合体,一个分析的主题可以对应多个数据源,在数仓的开展分析中,首先确定分析的主题,然后基于主题寻找,采集跟主题相关的数据。特点:服务于分析,要能应对海量数据的存储和数据计算,对于响应速度要求不高没我们很少修改数据,所以也不需要对数据的一致性,安全性进行考虑。ODS:源数据层、数据操作层,主要就是将各个数据园中的数据集中到指定的平台中,几乎不对数据做任何处理,只是临时存放等待后续处理。DW:数据仓库层,对于数据进行数据清洗,数据处理,数据转换等,使其满足数据分析的需要。
2024-04-15 13:32:51 1943 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人