基于上次blog文章里写的那个关于blog的想法,于是乎本人就想实际研究研究网络中blog之间的关系怎样,具体而言就是做做数据挖掘,看看一个人被多少人所引用,其实样本不用多有几万,几十万估计就像话了。。。
这样的活用Perl正合适,Perl很容易写网络扒虫的原形,反正我又不用效率高....但是写好后也扒下东西了,发现一个问题,我看是需要一个数据库来存存连接了,否则判断重复以及以后的apriori算法都很麻烦用上。我用的是XP,没着,只能是用sqlserver了 access也能对付着用,Perl是有OLE包。但是问题一,巨慢。二,最严重的是,我无法查得到OLE对象的具体名字,从而也无法调用!上msdn,ADO都是老皇历了,哪找去啊。找到了,发现n个版本,一个类好几个叫法,试了几个都run不了,折腾了一下午.....毫无收获。
而如果直接用微软的DHTMLEdit的COM组件分析的话,又大文档又晦涩,我就不明白为什么连.DHTMLEdit组件里连个Parser关键字都没有。。。。。
结论一:做好的东西如XMLDOM好用,但是人家早给你圈好地了,跑不出去的。
二:这年头难的不是跨语言编程而是跨厂商编程。