- 博客(4)
- 收藏
- 关注
原创 【HADOOP】
此后,Hadoop不断发展,成为处理大数据的主流技术之一。Hadoop Distributed File System (HDFS):HDFS是一个高吞吐量的分布式文件系统,它设计用于运行在廉价的硬件上,能够提供对数据的高可靠性存储。Hadoop Common:Hadoop Common提供了一系列的通用工具和类库,这些工具和类库支持其他Hadoop模块的运行,例如RPC、序列化机制和文件系统抽象等。1.语法:hdfs dfs -put <被上传的文件的路径> <HDFS路径,即文件将被上传到这个路径上>
2024-06-12 20:28:21 1754
原创 【可视化】
1.纵向拼接指将两个列名相同的Dataframe表格对象上下拼接到一起。2.横向拼接指将两个索引相同的Dataframe表格对象左右拼接到一起。
2024-01-05 20:28:42 1661
原创 【网络爬虫】
Selenium是一个开源的、便携式的自动化测试工具、它最初是为网站自动化测试而开发的,Selenium支持与主流浏览器的配合使用。网络爬虫的应用非常广泛。然后,它会解析HTML代码,提取出想要的数据,如标题、内容、链接等。urlopen不支持代理、Cookie等其他的HTTP/HTTPS高级功能,所以如果想要设置代理,不能使用自带的urlopen,而是要自定义opener。上述代码调用了urllib.resquest模块中的urlopen方法,导入了百度首页的url,使用的协议是http。
2024-01-04 00:55:14 1867 1
原创 【java一课一得】
于1995年5月23日由Sun公司推出,后来Sun公司在2009年4月20日被Oracle公司用74亿美元收购了,是面向对象的程序设计语言,拥有安全性、简单性、易用性、平台无关性的特点。java的数据类型分为‘基本数据类型’、‘引用数据类型’两种数据类型。说明:E+x表示是乘以10的x次方。版权到了Oracle公司手中。又称Oak,别称“爪哇岛”;
2023-12-25 10:46:19 793
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人