自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

精益求精

因为专业,所以卓越!

  • 博客(13)
  • 资源 (19)
  • 收藏
  • 关注

转载 基于hadoop搜索引擎实践——生成倒排表文件(四)

2.3 建立倒排表文件(下面原理引用刘鹏hadoop实战)    在分析完分词,Rank值得计算等问题的解决方案之后,就可以设计相应的MapReduce算法,来建立倒排表,计算,保存Rank和Position等附属信息。    首先定义倒排表存储信息格式,这是算法的输出目标,也是查询程序从倒排表中获取信息的接口。本系统倒排表的存储格式定义如下:    (1)倒排表文件(INVERT

2017-08-27 11:45:12 403

转载 基于hadoop搜索引擎实践——网页爬取(二)

基于hadoop搜索引擎——网页爬取本系统抓取的是某网站的bbs论坛,具体情况可以根据自己的需求选择。1.爬取思路    爬取策略是深度优先爬取。算法思想如下:    从网站主页开始,执行如下步骤:    (1)选择一个尚未爬取的频道(比如有社会,人文,娱乐);如果所有频道都已经爬完,算法结束    (2)在已选择的频道中,选择一个尚未爬取的板块(比如有八卦

2017-08-25 17:37:36 726

转载 基于hadoop搜索引擎实践——总体概述(一)

1.系统工作原理    搜索引擎是为用户提供信息检索服务的工具。在整个搜索系统中可以分为在线处理和离线处理两部分。搜索引擎的离线处理主要是在接受用户查询的请求之前需要处理的一系列工作。主要包括抓取并整理网页信息,建立倒排索引文件,建立二级索引文件等。离线处理涉及海量的数据,实时性要求不高。    在线处理主要是用户输入查询请求,搜索引擎为用户响应查询结果所完成的一系列工作。这部分主要包括:

2017-08-24 21:55:30 1755

转载 Lucene创建索引

//Lucene创建索引package com.lunces;import java.io.IOException;import java.nio.file.Paths;import java.util.Date; import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analys

2017-08-24 17:57:24 318

转载 Lucene查询索引(优化一)

package com.lunces;import java.io.IOException;import java.nio.file.Paths; import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.standard.StandardAnalyzer;import

2017-08-24 17:56:24 462

转载 Lucene查询索引

package com.lunces;//Lucene查询索引import java.io.IOException;import java.nio.file.Paths; import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.standard.StandardAnal

2017-08-24 17:55:49 407

转载 JSOUP实践:解析和遍历HTML文档

一、jsoup简介               jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下:        1. 从一个URL,文件或字符串中解析HTML;        2. 使用DOM或CSS选择器来查找、取出数

2017-08-24 17:54:40 1277

转载 Lucene索引数据库实践

一、Lucene索引数据库基本思路       1、写一段传统的JDBC程序,将每条的用户信息从数据库读取出来       2、针对每条用户记录,建立一个lucene document 。Document doc = new Document(); 并根据你的需要,将用户信息的各个字段对应luncene document中的field 进行添加,如: doc.add(new Field

2017-08-24 17:52:59 210

转载 Lucene5.x简单示例教程

package zmx.lucene.test;    import org.apache.lucene.analysis.Analyzer;  import org.apache.lucene.analysis.standard.StandardAnalyzer;  import org.apache.lucene.document.Document;  import org

2017-08-24 17:51:40 291

转载 Lucene实践(二):Lucene总体设计架构

Lucene总的来说是:一个高效的,可扩展的,全文检索库。全部用Java实现,无须配置。仅支持纯文本文件的索引(Indexing)和搜索(Search)。不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。       在Lucene in action中,Lucene 的构架和过程如下图,        说明Lucene 是有索引和搜索的两个过程,包含索引创建,索引,搜索

2017-08-24 17:50:18 272

转载 Lucene实践(一):全文检索的基本原理

一、总论根据http://lucene.apache.org/java/docs/index.html 定义:"Apache Lucene(TM) is a high-performance, full-featured text search engine library written entirely in Java. It is a technology suitable fo

2017-08-24 17:42:06 271

转载 Java Socket 实现HTTP与HTTPS协议发送POST/GET请求

JAVA Socket 实现HTTP与HTTPS客户端发送POST与GET方式请求        哇,一看标题怎么这么长啊,其实意思很简单,哥讨厌用HTTP Client做POST与GET提交觉得那个毕竟是别人写得API库,所以我就自己实现了一个简单的HTTP客户端,支持POST方式提交数据,GET方式查询数据,是测试Restful API比较方便点,然后支持form与JSON两种

2017-08-24 17:39:48 1178

转载 汉字Unicode表

这是第二篇,由于篇幅过大,拆成两篇。查看第一篇 或查看完整篇幅注意:下面这两段是代理区。即第1——16平面的间接表示,四个字节的汉字就在这里表示D800-DBFF:High-half zone of UTF-16      DC00-DFFF:Low-half zone of UTF-16 本篇中包含了所有常用汉字27973个,剩余汉字使用代理区标识欢迎查看字符编码

2017-08-20 23:04:09 258819

web学习笔记

web学习之路的笔记,主要从web兴起和历史演变总结。主要讲解 了浏览器、服务器、网络http协议和相关web自动化等

2018-08-15

Scala学习技术教程

一本很好的Scala学习教程,带有丰富的课后习题,是一本初学者的知识指导!

2017-10-29

scale编程技术

学习Scala的必备书籍,能快速入门学习相关核心技术,书中降到很多实用的编程技巧和方法论,是一本入门的好资料

2017-10-29

日历黄历源码

体积最新的万年历源码,左右滑动换月份,支持黄历,非常不错的代码,希望大家能够喜欢。

2014-02-26

天气预报源码

中国城市天气预报源码,支持定位分享功能。支持PM2.5天气实时数据,代码简介欢迎大家下载使用。

2014-02-26

天气PM2.5源码

中国天气PM2.5客户端源码,支持目前中国主要城市。

2014-02-26

OPlayer依赖的库文件

Vitamio 是一个针对Android和iOS的开源framework类库。

2014-02-26

android jqueryMobile 类库和实例源代码

android下的Jquery源代码实例和类库!希望对你有所帮助!

2011-11-28

android 经典项目--跑步机源代码

一款android跑步机源代码,现在分享给大家,希望对大家有所帮助!

2011-11-28

android 火车票查询源代码

这是一款android版的火车查询源代码,包好所剩下车票的多少。到达每站的时刻,内容很全,实时刷新! 现在供选出源代码,希望对开发者有所帮助!

2011-11-28

android 把图片切成正方形

主要是android版本对所有图片转化为正方形。

2011-07-18

javaMe LWUIT使用教程

此教程帮助新手更快的学习javaMe GWUIT插件,里面有很多经典的例子,是新手的首选资料

2010-11-29

javaMe LWUIT源码 很好使用的j2MeUI插件

此插件主要使用Me下的UI开发,提供的接口,可以让开发者开发漂亮的UI展示图。使用很方便

2010-11-29

java写的围棋程序源码

一个使用java写的,围棋程序。 很适合初学者学习,研究。

2010-10-12

c#写的桌面提醒程序

使用C#写的一个桌面小应用程序,定时提醒,任务计划列表。可以修改时间和计划内容。 非常适合初学者或刚学不就的新手。有源代码,请研究使用!

2010-10-12

JAVA桌面截图程序

用Java做的桌面截图精灵,含源代码。 代码执行效率高,在jdk下即可运行。

2010-04-07

Java学生管理系统

用Java写的结合Java多媒体程序设计,带有声音按钮的学生管理系统。

2010-01-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除