xml系列（二）------获取土豆网的【无广告】视频地址

最新推荐文章于 2015-12-02 10:21:00 发布

wuming19900801

最新推荐文章于 2015-12-02 10:21:00 发布

阅读量950

点赞数

分类专栏： XML学习系列文章标签： php xml 土豆网视频广告

本文链接：https://blog.csdn.net/wuming19900801/article/details/40347917

版权

XML学习系列专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一直想着能把土豆网上的广告去掉，研究了一下实现方法。

以前经常给公司写网络爬虫项目，一般的小偷程序 1.file_get_contents/curl/socket -->页面的HTML 2.正则分析视频地址

缺点：

1.慢 html页面比较大,有大量的信息是“杂志”信息

2.如果页面改版了，采集规则可能失效

解决办法：（目前各大网站都有自己的开放接口 application programing interface ，应用程序接口，利用网站的 API 就可以查询信息，如豆瓣的书籍信息，土豆的视频信息。）

利用土豆的API 得到XML信息

1.XML是纯数据，内容少，获取快

2.纯数据，比如标题，时长等，这些不会变的，很难失效

写程序获得xml文件

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<script type="text/javascript" language="javascript" src="./jquery-1.4.2.min.js"></script>
<style type="text/css">
</style>
<script type="text/javascript">
	
</script>
</head>
<body>
		<?php 
		if($tudou=$_POST['tudou']){
			$itemCode=basename($tudou);
			$key='1f3918053ff6bc04';
			$api='http://api.tudou.com/v3/gw?method=item.info.get&appKey='.$key.'&format=xml&itemCodes='.$itemCode;
			echo $api;
			/*
			  echo $api  得到的是一个xml文档，内容是视频的标题，时长，封面等等信息
			  接下来  我们要做的是用PHP把XML的节点信息  解析出来
			  
			  知识：DOMDocument类来解析
			  
			  当前我们暂时用字符串操作 来得到地址
			  
			  
			*/
			$source=file_get_contents($api);
			$start=strpos($source,'<html5Url>');
			$end=strpos($source,'</html5Url>');
			$noad=substr($source,$start,$end-$start);
			echo $noad;
		}
		?>
		<!--key=1f3918053ff6bc04-->
		<!--http://api.tudou.com/v3/gw?method=item.info.get&appKey=myKey&format=json&itemCodes=yg8CVootoAc
		-->
		<pre>
				第28集http://www.tudou.com/programs/view/Dc6P2egJA4w/
		</pre>
		<form method="post">
				<p>
				土豆地址:<input type="text" name="tudou"/>
				</p>
				<h1>这个地址需要支持html5的播放器才能观看</h1>
				<p>
						<input type="submit" value="获取地址"/>
				</p>
		</form>
				<p>
				无广告地址:<?php echo $noad;?>
				</p>
		
</body>
</html>

效果如下：