![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
etl
文章平均质量分 69
殊迟
在校大学生,大数据技术与应用专业️。
展开
-
数据去重(完全去重和不完全去重)
数据去重(完全去重和不完全去重)原创 2022-04-01 21:44:53 · 9228 阅读 · 1 评论 -
抽取文本数据(抽取web数据)
抽取web数据主要是获取网页上的数据。在Kettle新建转换添加控件,通过URL找到数据并通过User-Agent来掩饰为浏览器访问,并通过Java代码来提取需要的数据并连接数据库并把数据存储到数据库中。实现抽取HTTP网页的web数据功能。原创 2022-03-27 17:47:55 · 2396 阅读 · 0 评论 -
抽取文本数据(TSV文件的抽取)
将一个TSV文件运用Kettle工具进行抽取并保存至数据库中的数据表TSV中。实现将一个保存在本地的TSV文件进行抽取1.数据准备与查看数据2.在Kettle新建转换,添加“文本输入”控件“表输出”控件以及Hop跳连线3.配置“文本文件输入”控件(1).双击“文本文件输入”控件,进入“文本文件输入”界面(2).选择数据(3).点击“预览”按钮,选择要抽取的文件tsv_extract.tsv(4).点击“增加”按钮,将要抽取的TSV文件添加到转换中...原创 2022-03-18 22:02:16 · 2419 阅读 · 2 评论