任务
实现个性化推荐功能。经过之前的开发,已经实现了根据关键词查询网页的Selenium脚本、Selenium的Flask化形成一个接口服务、Frp将本地服务映射到远程也能访问。但是Selenium的反应过慢,大约需要5分钟才能爬取完毕,这显然不可能作为一个用户功能。
本次开发的任务是根据爬取的标题,调用AI提取出关键词、存入数据库,调用推荐功能时可以根据关键词进行推荐,也可以随机推荐一些内容、增加推荐内容的多样性。
后续再实现根据用户点击内容分析用户的兴趣、提取关键词、推荐热点等功能。
取得爬虫结果
JSONArray urls = null; if (keyword == null) return; try { // debug了好久 应该是汉字出现的错误,先转成UTF8再搞 String encodedString = URLEncoder.encode(keyword, StandardCharsets.UTF_8.toString()); // 目标URL String urlString = "http://ip:5000/search?keyword=" + encodedString; // 用真的会等很久 开发使用mock出来的接口 //String urlString = "http://ip:5000/mock"; // 创建URL对象 URL getUrl = new URL(urlString); // 打开连接 HttpURLConnection connection = (HttpURLConnection) getUrl.openConnection(); // 设置请求方法为GET connection.setRequestMethod("GET"); // 获取响应码,200表示成功 int responseCode = connection.getResponseCode(); if (responseCode == HttpURLConnection.HTTP_OK) { // 读取响应内容 BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream())); StringBuilder content = new StringBuilder(); String inputLine; while ((inputLine = in.readLine()) != null) { content.append(inputLine); } in.close(); // 解析JSON字符串为JSONArray urls = new JSONArray(content.toString()); // test // System.out.println(urls); } else { System.out.println("GET request not worked, response code: " + responseCode); } connection.disconnect(); // 关闭连接 } catch (Exception e) { e.printStackTrace(); }
-
String encodedString = URLEncoder.encode(keyword, StandardCharsets.UTF_8.toString());
测试时一直出现问题,但是通过GET接口访问的Java后端,参数正常传递,但是传入后端失败,可能是汉字的编码导致的。改成UTF8编码,运行正确。
-
urls = new JSONArray(content.toString());
调用Maven Repository: org.json » json (mvnrepository.com)包,将String的返回结果转换为JSON数组串,便于后续的处理。
处理JSON数组
// 拿到了urls 开始处理 if (urls == null) return; int step = 4; int times = urls.length() / step + 1; for (int j = 0; j < times; j++) { String message = ""; for (int i = 0; i < step; i++) { int index = j * step + i; if (index >= urls.length() - 1) break; JSONArray url = new JSONArray(urls.get(index).toString()); if (url.get(0).toString().startsWith("http") && !recommendService.isExists(url.get(0).toString())) message += "{title:" + url.get(1) + ",url:" + url.get(0) + "}\n"; }
-
首先检查
urls
是否为 null,然后将每step
个 URL 分成一组进行处理。 -
数据清洗:确保每个连接可以访问且不重复。对于每个 URL,如果它以 "http" 开头且不在
recommendService
中存在,才进行处理这个URL。 -
满足条件的标题和 URL,以
{title:{title},url:{url}}
的格式加入message
字符串中,留着后续处理。
AI处理关键词
Prompt提示词
你是一个归纳概括的专家,接下来我将按照固定格式给你一个关键词和若干标题和网址: 关键词:{关键词} {title:{标题},url:{网址}} ... {title:{标题},url:{网址}} 请根据以上的标题和关键词分析,提取关键词,关键词尽可能多,按照JSON数组格式输出(此外一定不要输出任何多余的开头、结尾、注释!!) [ { "title":{原来的标题}, "keywords"::[{提取的关键词1},...,{提取的关键词2}], "url":{原来的网址} }, ... { "title":{原来的标题}, "keywords"::[{提取的关键词1},...,{提取的关键词2}], "url":{原来的网址} } ] (每一条产生一行,若标题信息不足,该行可删去)
代码
String role = {prompt提示词}; message = "关键词:" + keyword + "\n" + message; String answer = callWithMessageAndRole(message, role);
callWithMessageAndRole
是调用之前的AI接口,同时设置角色和消息。拼接message
,得到JSON字符串。
存入数据库
处理如下的数据:
```json [ { "title":{原来的标题}, "keywords"::[{提取的关键词1},...,{提取的关键词2}], "url":{原来的网址} }, ... { "title":{原来的标题}, "keywords"::[{提取的关键词1},...,{提取的关键词2}], "url":{原来的网址} } ] ```
首先将前后的代码注释标记符去掉,可以直接使用String的replace即可。继续使用JSONArray类解析。
反复地改变Step的值,发现当Step大于4时,返回的结果发生格式错误,无法作为JSON解析。
尽管Step等于4,处理速度比较慢,但是都是存入数据库,这里慢一些没有太多影响。
answer = answer.replace("```json", ""); answer = answer.replace("```", ""); JSONArray jsonObjs; try { jsonObjs = new JSONArray(answer); } catch (Exception e) { continue; } for (int i = 0; i < jsonObjs.length(); i++) { JSONObject jsonObject = jsonObjs.getJSONObject(i); Recommend recommend = new Recommend(); recommend.setTitle(jsonObject.getString("title")); recommend.setKeywords(jsonObject.getJSONArray("keywords").toString()); recommend.setUrl(jsonObject.getString("url")); recommendService.add(recommend); }
最后使用jsonObject
的get
方法,取到了JSON结果,再存如数据库。
体会和后续
经过本次的开发,实现了AI的数据清洗并存入数据库。实现了功能,但效率有提升的空间。本次开发的实现代码都写入了AiController
这个类,后续准备将一些功能提取成方法,写入Service
中并在ServiceImpl
中实现,比较符合开发规范。调用通义千问API对本地机器负荷不大,这一块循环调用在后续考虑改成多线程请求,或许可以提高开发效率。此外,在本次关键词提取时,AI是根据关键词和标题进行关键词分析,我们在传参时也传入了URL,返回了原本的URL,这造成了一些Token的浪费,但是AI有可能对链接进行删除,如果简单的对应,可能会造成URL和标题错位,后续可能需要更改传参方式和Prompt提示词增加Token的利用率。