Linux获取网页源码的几种方法 linux爬虫程序

第一个为利用linux下的工具来获取网页源码,我用的是Wget,也可以使用Curl,curl的话更加的灵活,可以设置很多参数
C++代码 复制代码  收藏代码
  1. //通过Wget来获取网页   
  2. string GetHtmlByWget(string url)   
  3. {   
  4.     //获取待下载网页文件名   
  5.     string fileName = url.substr((int)url.find_last_of("/") + 1);   
  6.     if(fileName != "")   
  7.     {   
  8.         string strCom = "wget -q "//wget命令,-q表示不显示下载信息  
  9.         strCom.append(url);   
  10.         system(strCom.c_str()); //执行wget   
  11.   
  12.         ifstream fin(fileName.c_str());   
  13.         if(!fin)   
  14.         {   
  15.             return "";   
  16.         }   
  17.         string strHtml = "";   
  18.         char chTemp[1024] = "";   
  19.         //读取网页文件到内存中   
  20.         while(fin.getline(chTemp , 1024))   
  21.         {   
  22.             strHtml.append(string(chTemp));   
  23.             strcpy(chTemp , "");   
  24.         }   
  25.         fin.close();   
  26.         strCom = "rm -f ";  //删除文件命令,-f表示直接删除不做任何提示  
  27.         strCom.append(fileName);   
  28.         system(strCom.c_str()); //删除刚才下载下来的文件  
  29.         return strHtml; //返回网页源码  
  30.     }   
  31.     else  
  32.     {   
  33.         return "";   
  34.     }   
  35. }  
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值