AI关键词分析并存入数据库

任务

实现个性化推荐功能。经过之前的开发,已经实现了根据关键词查询网页的Selenium脚本、Selenium的Flask化形成一个接口服务、Frp将本地服务映射到远程也能访问。但是Selenium的反应过慢,大约需要5分钟才能爬取完毕,这显然不可能作为一个用户功能。

本次开发的任务是根据爬取的标题,调用AI提取出关键词、存入数据库,调用推荐功能时可以根据关键词进行推荐,也可以随机推荐一些内容、增加推荐内容的多样性。

后续再实现根据用户点击内容分析用户的兴趣、提取关键词、推荐热点等功能。

取得爬虫结果

JSONArray urls = null;
if (keyword == null) return;
try {
    // debug了好久 应该是汉字出现的错误,先转成UTF8再搞
    String encodedString = URLEncoder.encode(keyword, StandardCharsets.UTF_8.toString());
    // 目标URL
    String urlString = "http://ip:5000/search?keyword=" + encodedString;
    // 用真的会等很久 开发使用mock出来的接口
    //String urlString = "http://ip:5000/mock";
    // 创建URL对象
    URL getUrl = new URL(urlString);
    // 打开连接
    HttpURLConnection connection = (HttpURLConnection) getUrl.openConnection();
    // 设置请求方法为GET
    connection.setRequestMethod("GET");
    // 获取响应码,200表示成功
    int responseCode = connection.getResponseCode();
    if (responseCode == HttpURLConnection.HTTP_OK) {
        // 读取响应内容
        BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
        StringBuilder content = new StringBuilder();
        String inputLine;
        while ((inputLine = in.readLine()) != null) {
            content.append(inputLine);
        }
        in.close();
        // 解析JSON字符串为JSONArray
        urls = new JSONArray(content.toString());
        // test
        // System.out.println(urls);
    } else {
        System.out.println("GET request not worked, response code: " + responseCode);
    }
    connection.disconnect(); // 关闭连接
} catch (Exception e) {
    e.printStackTrace();
}
  1. String encodedString = URLEncoder.encode(keyword, StandardCharsets.UTF_8.toString());

    测试时一直出现问题,但是通过GET接口访问的Java后端,参数正常传递,但是传入后端失败,可能是汉字的编码导致的。改成UTF8编码,运行正确。

  2. urls = new JSONArray(content.toString());调用Maven Repository: org.json » json (mvnrepository.com)包,将String的返回结果转换为JSON数组串,便于后续的处理。

处理JSON数组

// 拿到了urls 开始处理
if (urls == null) return;
int step = 4;
int times = urls.length() / step + 1;
for (int j = 0; j < times; j++) {
    String message = "";
    for (int i = 0; i < step; i++) {
        int index = j * step + i;
        if (index >= urls.length() - 1) break;
        JSONArray url = new JSONArray(urls.get(index).toString());
        if (url.get(0).toString().startsWith("http") && !recommendService.isExists(url.get(0).toString()))
            message += "{title:" + url.get(1) + ",url:" + url.get(0) + "}\n";
    }
  1. 首先检查 urls 是否为 null,然后将每 step 个 URL 分成一组进行处理。

  2. 数据清洗:确保每个连接可以访问且不重复。对于每个 URL,如果它以 "http" 开头且不在 recommendService 中存在,才进行处理这个URL。

  3. 满足条件的标题和 URL,以{title:{title},url:{url}}的格式加入 message 字符串中,留着后续处理。

AI处理关键词

Prompt提示词

你是一个归纳概括的专家,接下来我将按照固定格式给你一个关键词和若干标题和网址:
关键词:{关键词}
{title:{标题},url:{网址}}
...
{title:{标题},url:{网址}}
请根据以上的标题和关键词分析,提取关键词,关键词尽可能多,按照JSON数组格式输出(此外一定不要输出任何多余的开头、结尾、注释!!)
[
    {
        "title":{原来的标题},
        "keywords"::[{提取的关键词1},...,{提取的关键词2}],
        "url":{原来的网址}
    },
...
    {
        "title":{原来的标题},
        "keywords"::[{提取的关键词1},...,{提取的关键词2}],
        "url":{原来的网址}
    }
]
(每一条产生一行,若标题信息不足,该行可删去)

代码

String role = {prompt提示词};
message = "关键词:" + keyword + "\n" + message;
String answer = callWithMessageAndRole(message, role);

callWithMessageAndRole是调用之前的AI接口,同时设置角色和消息。拼接message,得到JSON字符串。

存入数据库

处理如下的数据:

```json
[
    {
        "title":{原来的标题},
        "keywords"::[{提取的关键词1},...,{提取的关键词2}],
        "url":{原来的网址}
    },
...
    {
        "title":{原来的标题},
        "keywords"::[{提取的关键词1},...,{提取的关键词2}],
        "url":{原来的网址}
    }
]
```

首先将前后的代码注释标记符去掉,可以直接使用String的replace即可。继续使用JSONArray类解析。

反复地改变Step的值,发现当Step大于4时,返回的结果发生格式错误,无法作为JSON解析。

尽管Step等于4,处理速度比较慢,但是都是存入数据库,这里慢一些没有太多影响。

answer = answer.replace("```json", "");
answer = answer.replace("```", "");
JSONArray jsonObjs;
try {
jsonObjs = new JSONArray(answer);
} catch (Exception e) {
continue;
}
for (int i = 0; i < jsonObjs.length(); i++) {
JSONObject jsonObject = jsonObjs.getJSONObject(i);
Recommend recommend = new Recommend();
recommend.setTitle(jsonObject.getString("title"));
recommend.setKeywords(jsonObject.getJSONArray("keywords").toString());
recommend.setUrl(jsonObject.getString("url"));
recommendService.add(recommend);
}

最后使用jsonObjectget方法,取到了JSON结果,再存如数据库。

体会和后续

经过本次的开发,实现了AI的数据清洗并存入数据库。实现了功能,但效率有提升的空间。本次开发的实现代码都写入了AiController这个类,后续准备将一些功能提取成方法,写入Service中并在ServiceImpl中实现,比较符合开发规范。调用通义千问API对本地机器负荷不大,这一块循环调用在后续考虑改成多线程请求,或许可以提高开发效率。此外,在本次关键词提取时,AI是根据关键词和标题进行关键词分析,我们在传参时也传入了URL,返回了原本的URL,这造成了一些Token的浪费,但是AI有可能对链接进行删除,如果简单的对应,可能会造成URL和标题错位,后续可能需要更改传参方式和Prompt提示词增加Token的利用率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值