给初学者:VB如何操作WEB页的浏览提交———五:如何对网页内容进行解析?

无聊中,写一段

当我们获取到网页以后,可以通过Document对象来获取其源文件:

假设在WebBrowser2中打开的网页,(如果是其他形式,例如上一篇中提到的获取后的对象,只需要修改WEBBROWER2为相应对象即可.)

WebBrowser2.Document.body.createtextrange().htmltext就是网页的源码了!怎么处理呢?如下:

思路:源码是一个字符串,我们将其分割即可,一般利用以下办法:

Dim mTextArr() As String  '接受分割后的字符串

Dim mTextHtml as string '网页源码

mTexthtml=WebBrowser2.Document.body.createtextrange().htmltext

mTextArr() = Split(mText, vbcrlf)  '按行分离,实际上,我们只需要将vbcrlf替换为"特征字符"即可简化操作,例如

'mTextArr() = Split(mText, "IMG height=12 alt=")

'到这里,我们就得到了被分离后的源代码,接下来历遍它,提取出我们需要的字符即可,这里介绍两个技巧

1、利用多个变量,来过滤无关字符,简化代码注意特征字符(分割符)的设置,适当的设置可以滤掉很多字符,如下面代码

mTextArr() = Split(mText, "IMG height=12 alt=")

2、利用INSTR函数识别字符串,

3、将结果保存到LIST控件,以便排序(直接设置按字符大小排序即可)

4、利用Right等函数进行格式化字符,如某格式化字符代码:

tmp2 = Right("00000000" & Left(mTextArr(i), InStr(1, mTextArr(i), "票") - 1), 8)

 关于字符处理就写这些,

再写点其他的,某些情况下,一个页面(FORMS)里面有很多个FORM,导致我们打开指定页后发现没有需要的部分,这时你只需要打开你要浏览的页面,在你需要的部分最近的空白处点右键,选择"属性"即可看到真正的页面,有些情况下某部分页面无法直接显示,那么我们调用相应的页面内函数即可,例如百度贴吧里面的验证字符串,只有点了输入框才出现,实际上,我们只需要调用页面内的check_img等函数即可显示,另例:在前面的跑跑卡丁车那个示例中:

WBDocument.body.All("chkemail").onclick     '以下两句同本句功能
'WBDocument.body.All("chkemail").Checked = 1
'WBDocument.parentWindow.execScript "showEmailOrNot(userReg)", "javascript"

也体现了如何显示出一个"隐藏"的项目:

或者调用相应事件或者调用相应JAVA程序.

 

没了,先写这些.

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清晨曦月

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值