Nutch学习心得

最新推荐文章于 2021-01-19 15:41:13 发布

wxx19840805

最新推荐文章于 2021-01-19 15:41:13 发布

阅读量795

点赞数

文章标签： lucene 数据库相关 eclipse path 正则表达式 variables

本文链接：https://blog.csdn.net/wxx19840805/article/details/3023958

版权

1.初始化url里面输入实际的的url，（不会自动发生跳转的url)

分词相关问题：
1.NUTCHDocumentAnalyzer.java：修改这个文件可以达到对抓取结果进行分词。我们所要做的只是需要使用自己的分

词方法替换他原本的分词方法，即在返回的时候返回<my分词.tokenStream(fieldName, reader)>

（该文件在：NUTCH/src/java/org/apache/nutch/analysis下）

2.NUTCHAnalysis.java：修改这个文件可以达到查询关键字的分词。通过研究发现，该文件中的查询，最终都归结到

parse方法中处理，也就是说，我们更改parse方法，即能达到分词效果。

（该文件在：NUTCH/src/java/org/apache/nutch/analysis下）

IndexerWriter 最后一个参数是否新文件 false就是增量 true就是新写。

数据库相关问题：

1.首先确认你日志是否启用了
mysql>show variables like 'log_bin';
2.如果启用了，即ON
那日志文件就在mysql的安装目录的data目录下
3.怎样知道当前的日志
mysql> show master status;


4.看二进制日志文件用mysqlbinlog
shell>mysqlbinlog mail-bin.000001
或者shell>mysqlbinlog mail-bin.000001 | tail

cmd下运行：
mysqldump --tab=D:/yiso -u root -p yiso 将yiso数据库中的文件导出到D:/yiso下
mysqldump -u root -p yiso > yiso.sql                              yiso.sql

导入：mysql 下
use database
source sqlfilepath

高亮相关问题：

关键字高亮,俺用的是这种方法:
.split("   ");
.replaceAll();
lucene的摘要默认只返回文章开头的一段话,如果被搜到的文章的开头那一段话不含关键词,那就失去高亮的作用了.

使用Lucene的Highlighter实现文件摘要的自动提取

SELECT模糊查询
http://hi.baidu.com/jb_0111/blog/item/15586cc60986871e9c163d42.html

中文页面问题：
1. 根据正则表达式直接到页面寻找需要的信息。（因为如果消除多余信息，用中文来直接处理，字符识别容易出问题

）
2.不同关键字用&分割，精确度高的关键字放在前面 eg:厂家价格&价格&价格

3。struts中属性文件中文乱码的解决
http://blog.sina.com.cn/s/blog_49cc672f010005yy.html

把你要显示的中文放在ApplicationResources_cn.properties里，在cmd里用JDK的命令：
native2ascii   -encoding   gb2312   ApplicationResources_cn.properties

ApplicationResources.properties

4.编码心得
a,elipse 控制台的输出内容与eclipse编码无直接关系也就是说相同的内容，在不同eclipse编码下输出一样。但是有些编码不支持中文显示，所以会显示乱码。（输出内容来自其他地方，譬如页面抓取过来的数据，或者本地本地文件读取的数据）
b，从页面抓取过来的数据，用系统默认编码进行编码，如果指定了解析编码，则用指定编码编码
对数据进行编码，要与数据原来的编码方式保持一直，不然容易出现乱码。
譬如：www.baidu.com上的数据使用ISO-8859-1进行编码，把网页数据源抓去过来时是二进制字节流，对字节流进行编码时也要使用ISO-8859-1，不然打印出来的就有很多乱码,中文尤其。
c，在eclipse控制台输入的数据，用系统默认编码进行编码，

http://blog.csdn.net/fbysss/archive/2006/06/20/816639.aspx
将中文转换为url可以识别的字符：
ex: URLEncoder.encode(queryStr,"gbk");

所有的用户请求（打开动态文件，如JSP）都是先由ActionServlet处理，然后再由ActionServlet把请求转发给其他组

建,静态文件如：.html文件可以通过添加指定ActionServlet处理，

        <action path="/index" type="com.soso.action.SearcherAction">
            <forward name="list" path="/list.jsp" />
            <forward name="index" path="/index.jsp" />
        </action>
中path表明，所有以以/index结尾的url（如：http://localhost:8080/soso/index.html）请求
都转发到SearcherAction类进行处理,"/"表示soso系统的组目录，所以不接受类似
http://localhost:8080/soso/index/index.html的请求，
path = “*/index”,则可以接受改请求。

wxx19840805

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nutch学习心得

1.初始化url里面输入实际的的url，（不会自动发生跳转的url)分词相关问题：1.NUTCHDocumentAnalyzer.java：修改这个文件可以达到对抓取结果进行分词。我们所要做的只是需要使用自己的分词方法替换他原本的分词方法，即在返回的时候返回（该文件在：NUTCH/src/java/org/apache/nutch/analysis下） 2.NUTCHAnalysis.java：
复制链接

扫一扫