分别使用Python和Java抓取百度搜索结果

    最近有了点空闲学习了下Python的语法,还别说,Java学习了一段时间之后看Python的语法简单多了。记得当时主要用C语言开发的时候,看Python的代码有点困难。


    看了下Python的语法后,试着写了个简单地爬虫程序抓取百度搜索的结果。然后用Java也写了一个相同功能的爬虫对比了一下,代码如下:


Python代码:

# coding=utf-8
import urllib.request
import urllib
import urllib.parse
from bs4 import BeautifulSoup

def get_html(url):

   page = urllib.request.urlopen(url)
   req = page.read()
   return req


def get_news(html_text, num):

   bs = BeautifulSoup(html_text, "html.parser")
   body = bs.body
   data = body.find('div', {'id': 'content_left'})

   for i in range(1, num+1):
       result = data.find('div', {'id': str(i)})
       a = result.find("a")

       print('------------------------------------- ' + str(i) + '------------------------------------- ')
       print(a.contents)
       print(a.get('href'))
       print()


def getresult(num, question):

   url = "http://www.baidu.com/s?wd=" + urllib.request.quote(question.encode('utf-8')) + "&rn=" + str(num)
   html_doc = get_html(url)
   get_news(html_doc, num)


if __name__ == '__main__':

   q = "王宝强"
   n = 20
   getresult(n, q) 


Java代码:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.net.URLEncoder;


public class Spider {

   private static String urll = "http://www.baidu.com/s?wd=";

   private static void getNews(String url, int num){
       try {
           Document doc = Jsoup.connect(url).get();
           Element element = doc.getElementById("content_left");

           for(int i = 1; i < (num + 1); i++){
               Element result = element.getElementById(String.valueOf(i));
               Elements add = result.select("a");

               System.out.println("--------------------- " + i + " ---------------------");
               System.out.println(add.first().text());
               System.out.println(add.first().attr("href"));
               System.out.println();
           }
       } catch (IOException e) {
           e.printStackTrace();
       }
   }

   private static void getResult(int num, String question){

       String url = "";
       try {
           url = urll + URLEncoder.encode(question, "utf-8") + "&rn=" + num;
       } catch (UnsupportedEncodingException e) {
           e.printStackTrace();
       }

       getNews(url, num);

   }

   public static void main(String[] args){
       getResult(20, "王宝强");
   }
   
} 


    后来我偶然用Python的爬虫搜索了下“老虎”,结果打印到第十一条的时候报错了,一脸懵逼,搜王宝强就好好地。后来查看网页源代码发现搜索结果中id为11的标签是“ table”。而在python中是按标签“div”找的,所以报错了,大bug啊。但是项目又来了,又得忙了。这个先放着吧。


     总结:python代码写起来就是清爽,刚学的时候由于Java写习惯了,python中有类型转换的问题总是被忽略。python很好用也很简单,以后有时间还要多写写。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值