如何抓取JS动态输出(非ajax)的电话号码

最新推荐文章于 2021-05-22 11:05:58 发布

xakzp

最新推荐文章于 2021-05-22 11:05:58 发布

阅读量700

点赞数

分类专栏： Web数据采集文章标签： python 数据爬虫脚本

Web数据采集专栏收录该内容

3 篇文章 0 订阅

订阅专栏

很多网站为了防止用户的隐私信息（电话、手机、邮箱等）被爬虫抓取，对这些信息作了特殊处理。例如，采用JS输出、采用Ajax动态加载、以图片的形式显示等等。

其中最为常见的就是采用JS输出，这种方法实现的成本最低，同样也最好被抓取。

例如这个页面：

http://www.tripadvisor.com/Hotel_Review-g34859-d1526306-Reviews-Holiday_Inn_Express_Hotel_Suites-Columbus_Georgia.html

电话号码是采用JS输出的，JS代码如下：

<script>

<!--

function escramble_751(){

var a,b,c

a='877'

b='-5'

a+='-85'

b+='095'

c='9'

document.write(a+c+b)

}

escramble_751()

//-->

</script>

PS：更BT的是这个函数名“escramble_751()”还是不断变化的。

不过利用强大的字符串匹配工具“正则表达式”，还是可以很方便地将其提取出来的：

# Python code

phone_re = re.compile("a='([ \+\-\d]+?)'.*?b='([ \+\-\d]+?)'.*?a\+='([ \+\-\d]+?)'.*?b\+='([ \+\-\d]+?)'.*?c='([ \+\-\d]+?)'", re.DOTALL)

match = phone_re.search(html)

if match:

a, b, c, d, e = match.groups()

telephone = a + c + e + b + d

else:

telephone = None

 
   原文作者：西安鲲之鹏（http://www.site-digger.com） 
  

 
   原文链接：http://www.site-digger.com/html/articles/20110316/3.html  点击打开链接 
  

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。