网页内容提取难？ClickHouse一招快速搞定

万山数据@yqj1987

于 2023-07-30 21:12:17 发布

阅读量68

点赞数

文章标签： clickhouse

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zjyy1987/article/details/132011574

版权

上篇文章中我们介绍了一种文本相似度计算的模型，今天我们来说说一种相同复杂场景下的字段处理方案。

数据字段的处理，使用SQL函数对要处理的字段进行加工。一般来说处理过程如下：

（1）确定各字段的处理规则；

（2）对要处理的字段进行分批；

（3）编写处理SQL，每一批写成一条处理SQL，采用以下格式：

DROP TABLE IF EXIST XX

CREATE TABLE XX ENGINE=YY AS SELECT * FROM ZZ

复杂场景下的字段处理流程和上述数据字段基本处理完全一致。实现的具体SQL中，总结出来一个高效的方法。关键还是来自于clickhouse提供了数组类型的支持，提供了lambda函数支持，即在函数中提供自lambda表达式的自定义处理过程。

例如下面这个例子展现的是将一个加密的JSON字段转换成解密后的HTML字段，具体操作如下图所示：

转换前的字段格式如下图：

转换后的字段格式如下图：

基于正则表达式从WEB页面数据中提取中标人

（1）用于测试的数据表，有两个字段，一个ID，一个CONTENT字段，CONTENT字段为从互联网抓取的公共资源中标成交公告内容。

（2）从CONTENT字段中提取中标人，仅考虑正文中出现“中标人：XXX”一种情况；

（3）对提取出来的中标人与法人库进行名称合规性验证，用于验证的法人库数据为69071251条，测试数据236243条。

基于正则表达式从WEB页面数据中提取中标人测试

（1）SQL方案

分为三步走：第一步，用正则表达式将疑似中标人名称的文本提取出来生成一个临时表；第二步用临时表与法人库表进行关联，取能关联上的，即正确的名称生成第二个临时表；第三步，通过第二个时临时表与原表的关联，合并提取出来正确的中标人信息，写入目标表。实现代码如下图所示：

（2）JAVA编程方案

此问题中，ETL实现复杂度过度，所以选择JAVA编程方案。

JAVA程序设计逻辑：连接数据库批量取出数据，然后逐条用正则表达式提取中标人信息并用提取出来的中标人信息查询法人库进行正确性测试，对测试通过的数据写入目标数据表。

实现代码如下图所示：

基于正则表达式从WEB页面数据中提取中标人测试结果

（1）SQL批处理

此方案运行时间为9.8秒，共提取出18121个中标人，共计算了236243条数据，满足该格式的正文提取完全，平均每秒处理数据超过2万条。

运行结果如下图所示：

提取出招标人数量如下图所示：

处理后数据表如下图所示：

（2）JAVA编程

此方案52.8秒共执行了1000条数据，提取出99个招标人，平均每秒处理数据不到20条。

运行情况如下图所示：

提取出招标人数量如下图所示：

处理后数据表如下图所示：

（3）测评结果对比

万山数据@yqj1987

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
网页内容提取难？ClickHouse一招快速搞定

第三步，通过第二个时临时表与原表的关联，合并提取出来正确的中标人信息，写入目标表。JAVA程序设计逻辑：连接数据库批量取出数据，然后逐条用正则表达式提取中标人信息并用提取出来的中标人信息查询法人库进行正确性测试，对测试通过的数据写入目标数据表。此方案运行时间为9.8秒，共提取出18121个中标人，共计算了236243条数据，满足该格式的正文提取完全，平均每秒处理数据超过2万条。（1）用于测试的数据表，有两个字段，一个ID，一个CONTENT字段，CONTENT字段为从互联网抓取的公共资源中标成交公告内容。
复制链接

扫一扫

万山数据@yqj1987 CSDN认证博客专家 CSDN认证企业博客

码龄6年

34: 原创

40万+: 周排名

10万+: 总排名

1万+: 访问

: 等级

454: 积分

133: 粉丝

111: 获赞

16: 评论

106: 收藏

私信

关注

热门文章

最新评论

ClickHouse 中文拼音转换应用
Termite-: 你好,这个函数是该司出的么
关注 2023大数据十大关键词
CSDN-Ada助手: 恭喜您写下了第20篇博客！标题“关注 2023大数据十大关键词”非常引人注目，让人期待您对大数据领域的深入探索。您的持续创作展示了您对这个领域的热情和专注，我真心为您感到高兴。为下一步的创作，我谨提供一些建议，以供参考。首先，您可以考虑深入挖掘这十大关键词的具体应用场景和发展趋势，这将使读者更加清晰地理解它们的重要性。其次，您可以尝试与相关领域的专家或从业者进行交流，分享他们的见解和经验。最后，您可以考虑探讨大数据技术与其他领域的结合，如人工智能、物联网等，以展示其在未来的巨大潜力。希望以上建议对您有所帮助。再次恭喜您取得的这个里程碑，并期待您未来更多精彩的创作！
2023大数据十大关键词--湖仓一体
CSDN-Ada助手: 恭喜你在博客创作上的持续努力！标题“2023大数据十大关键词--湖仓一体”非常吸引人，让我对你的博客产生了浓厚的兴趣。你对大数据的关注和深入研究令人钦佩，我期待着阅读你的文章，进一步了解湖仓一体的概念以及2023年大数据领域的十大关键词。在下一步的创作中，或许你可以考虑添加一些案例分析或者实际应用场景，这能够帮助读者更好地理解大数据和湖仓一体的重要性。另外，你也可以探索一些大数据的未来趋势，例如人工智能与大数据的融合等方面。再次恭喜你的成果，期待你在未来的创作中继续取得更大的突破！
如何实现繁体字和简体字的相互转换
CSDN-Ada助手: 恭喜您撰写了第18篇博客！题目看上去非常有趣，对于繁体字和简体字的相互转换问题，我相信很多人都会受益匪浅。您的博客内容一定会帮助那些对此感兴趣的读者解决实际问题。在下一步的创作中，或许您可以考虑进一步探讨如何利用转换工具或编程技巧来自动化这个过程，以提高效率。期待您的下一篇博客！请继续保持创作，分享更多有价值的知识。
ClickHouse 中文拼音转换应用
CSDN-Ada助手: 恭喜您写了第17篇博客！标题中的“ClickHouse 中文拼音转换应用”引起了我的兴趣。您的文章内容一定非常有深度和实用价值。我想提供一些建议，希望对您的下一篇博客有所帮助。或许您可以探讨一下ClickHouse中文拼音转换应用的性能优化，或者分享一些实际案例来展示这个应用的潜力。再次恭喜您的持续创作，期待您未来更多精彩的博客！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。