搜索引擎
文章平均质量分 91
海燕技术栈
既然巅峰留不住,那就重走来时路
展开
-
浏览器环境与BOM
当用户在网页上进行各种操作(例如点击、输入、滚动等)时,浏览器会生成相应的事件,使开发者能够捕获这些事件并执行特定的操作。当事件触发时,浏览器会创建一个事件对象,其中包含关于事件的信息。事件首先在最外层的父元素上触发捕获阶段的事件,然后再在目标元素上触发事件,最后在父元素上触发冒泡阶段的事件。是浏览器对象模型(BOM)中常用的功能,用于在预定的时间间隔执行一段代码。虽然不是严格的 BOM 对象,但它们是 Web Storage API 的一部分,在浏览器端存储键值对数据,分别在本地会话中和持久性存储中。原创 2023-08-31 16:51:10 · 82 阅读 · 0 评论 -
什么是浏览器同源策略?如何处理同源策略带来的跨域问题?
浏览器的同源策略(Same-Origin Policy)是一种安全机制,用于限制一个网页文档或脚本如何与来自不同源的资源进行交互。同源是指两个 URL 的协议、主机和端口号都相同。同源策略的目的是保护用户的隐私和安全。它可以防止恶意网站通过脚本访问其他网站的敏感信息或进行恶意操作。同源策略主要限制以下几个方面的交互:跨域资源读取:在浏览器中,一个网页只能通过 AJAX、WebSocket 或 Fetch API 等方式来请求同源网站的数据。原创 2023-07-19 22:02:08 · 1190 阅读 · 0 评论 -
简化生活之让AI以指定格式输出
今天京东也宣布即将发布了自己的大模型,那么使用AI大模型进行工作或者生活将是必不可少的步骤。原创 2023-07-12 13:26:03 · 1083 阅读 · 0 评论 -
用Java实现网站聚合工具
互联网上有数以万亿计的网站,每个网站大都具有一定的功能。搜索引擎虽然对互联网上的部分网站建立了索引,但是其作为一个大而全的搜索系统,无法很好的定位到一些特殊的需求,基于这样的背景,我尝试了写了一个网站数据聚合的程序。现在将原理和实现代码分享给大家。原理可以把互联网上的网站看做一张巨大的连通图,不同的网站处于不同的连通块中,然后以广度优先算法遍历这个连通块,就能找到所有的网站域名,利用广度优先算法遍历该连通块的结构可以抽象为:然后,我们对该网站的返回内容进行分词,剔除无意义的词语和标点符号,就得原创 2022-01-27 11:09:12 · 2031 阅读 · 0 评论 -
实现搜索引擎之流媒体内容提取
流媒体内容提取内容检索可用于内容过滤音频流内容提取语音识别利用大词汇语音识别技术进行检索基于识别关键词进行检索-关键词的发现基于说话人的辨认进行分割-声纹识别Sphinx-4 隐马尔科夫模型视频流内容提取帧、镜头、情节、节目建模底层内容建模颜色、纹理、形状、空间关系、运动信息中层内容建模视频对象MPEG-4高层内容建模...原创 2019-12-10 10:44:18 · 385 阅读 · 0 评论 -
实现搜索引擎之建立普通文档的索引
pdf-加密后文字不能复制提取文本-pdfbox提取标题如果pdf元数据中已经存储了文档标题,可以通过元数据获取文档标题利用颜色和字体来做,不需要分析文本首页没有文字(比较少),则文字较多的部分就是标题首页有正文,挨着正文往上可能是标题深入了解Pdf规范-adobe官网有word-poidocument 文档section 一个doc文档包含多个section...原创 2019-12-10 10:12:09 · 212 阅读 · 0 评论 -
实现搜索引擎之建立html文档索引
HTML1、识别编码-减少乱码2、ISO 10464-四字节,所以类型的字符3、UTF-8-实现unicode,包含使用1个字节或3个字节来显示字符,中文使用三个字节4、汉字编码GB2312-国标简体汉字6763-2字节BIG5-国标繁体汉字13053GBK-简繁字集21003GB18030-大一统字符集5、识别编码content-type 如果是GB2312应该当做GB...原创 2019-12-09 18:23:37 · 586 阅读 · 0 评论