采集Google搜索结果

采集网址:http://www.google.com.hk/search?num=100&hl=zh-CN&tbm=nws&q=搜索引擎

各参数含义:

num:返回100条结果(最多100条)

hl:语言

tbm:搜索类别(nws表示搜索新闻类别)

q:搜索的关键词


打开SourceViewer,点击左下角的“原始文件”标签,在弹出的窗口中输入下面配置

<?xml version="1.0" encoding="UTF-8"?>

<config charset="UTF-8">    
    <var-def name="url">
       <template>$$URL$$</template>
    </var-def>

	<var-def name="content">
		<http url="${url}">
			<http-header name="User-Agent">Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1</http-header>
			<http-header name="Accept">*/*</http-header>
			<http-header name="Accept-Charset">GBK,utf-8;q=0.7,*;q=0.3</http-header>
			<http-header name="Accept-Language">zh-CN,zh;q=0.8</http-header>
		</http>
	</var-def>

	<file action="write" type="text" path="$$OUTHTML$$">
		<template>${content}</template>
	</file>
</config>

点击“确认”按钮关闭配置窗口,重新打开SourceViewer,即可看到采集到的数据


返回主窗口,在配置编辑窗口输入如下配置:

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
  <xsl:template match="/">
	<news>
	  <xsl:for-each select="//li[@class='g']">
		<item>
		  <datetime>
			<xsl:value-of select=".//div[@class='slp']/span/text()" />
		  </datetime>
		  <url>
			<xsl:value-of select=".//h3[@class='r']/a/@href" />
		  </url>
		  <title>
			<xsl:for-each select=".//h3[@class='r']/a//text()">
			  <xsl:value-of select="concat(.,'')" />
			</xsl:for-each>
		  </title>
		</item>
	  </xsl:for-each>
	</news>
  </xsl:template>
</xsl:stylesheet>
点击运行,即可看到结果窗口



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值