kettle中与jsoup结合解析html页面

作业

  1. 生成记录
    在这里插入图片描述
  2. Http Rest
    在这里插入图片描述
  3. Java代码
    特别注意:Element在这里用不了,报错,必须用Elements
    在这里插入图片描述
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;

public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException {
  if (first) {
    first = false;
  }

  Object[] r = getRow();

  if (r == null) {
    setOutputDone();
    return false;
  }

  r = createOutputRow(r, data.outputRowMeta.size());

		String url = "https://policy.smejs.cn/frontend/policy-service/7eb3545b15ee474a96af7b34d24ab807";


      	try {
            // Jsoup解析处理
            Connection conn = Jsoup.connect(url);

            Document doc = conn.timeout(10000).get();

			Elements ul = doc.select("div.policy-info-detail-page__main__top__line__value");

			get(Fields.Out, "doc").setValue(r, ul.get(2));

        } catch (IOException e) {
            e.printStackTrace();
        }
		
		
	
  // Send the row on to the next step.
  putRow(data.outputRowMeta, r);
	
  return true;
}

  1. 写日志
    在这里插入图片描述

  2. 结果
    成功~
    在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值