如何直接提取HTML文档的title

在C#中,一般我们在使用HTML的时候,都是直接使用WebBrower控件将去显示HTML,这很简单,唯一要注意的地方就是Navigate某个URL的时候,有可能我们并没有加载成功就开始使用了。因为navigate是异步的,一调用之后,不等待页面加载完毕就直接返回了.
比如:

 

此时,通过webBrowser.DocumentTitle取到的值是空字符串。
要想取得该加载的URL的title元素,最简单的方式就是处理WebBrowser的DocumentCompleted事件。代码如下。

 

现在有一个简单的需求,我们要取得某个已知的HTML文档里面的内容,如何不使用WebBrowser而直接通过读取HTML文件取得。
我们需要用到一个COM组件:Microsoft HTML Object Library. 通过使用该组件中的IHTMLDocument2就能够获取很多信息。
Tip: 右击工程->Add Reference->COM中选择该COM组建,在工程中就能看到MSHTML的引用,实际上,该COM组件最终使用的是X:/Windows/System32下的mshtml.dll。

下面的代码取得了某个.html文件的title元素。如果你想要获取其它信息,可以很简单的修改一下该函数即可。

 

下面的这种方式除了能够直接加载某个.html文档外,还能加载某个网站,如:http://www.google.com.hk/

 

Reference: http://capsulecorp.studio-web.net/tora9/cs/mshtml/HTMLDocument.html

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值