分别使用Python和Java抓取百度搜索结果

最新推荐文章于 2024-05-17 17:41:08 发布

呆萌的我

最新推荐文章于 2024-05-17 17:41:08 发布

阅读量2.8k

点赞数

分类专栏： Python学习笔记

本文链接：https://blog.csdn.net/zjutzmh/article/details/53207305

版权

Python学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近有了点空闲学习了下Python的语法，还别说，Java学习了一段时间之后看Python的语法简单多了。记得当时主要用C语言开发的时候，看Python的代码有点困难。

看了下Python的语法后，试着写了个简单地爬虫程序抓取百度搜索的结果。然后用Java也写了一个相同功能的爬虫对比了一下，代码如下：

Python代码：

# coding=utf-8
import urllib.request
import urllib
import urllib.parse
from bs4 import BeautifulSoup

def get_html(url):

   page = urllib.request.urlopen(url)
   req = page.read()
   return req


def get_news(html_text, num):

   bs = BeautifulSoup(html_text, "html.parser")
   body = bs.body
   data = body.find('div', {'id': 'content_left'})

   for i in range(1, num+1):
       result = data.find('div', {'id': str(i)})
       a = result.find("a")

       print('------------------------------------- ' + str(i) + '------------------------------------- ')
       print(a.contents)
       print(a.get('href'))
       print()


def getresult(num, question):

   url = "http://www.baidu.com/s?wd=" + urllib.request.quote(question.encode('utf-8')) + "&rn=" + str(num)
   html_doc = get_html(url)
   get_news(html_doc, num)


if __name__ == '__main__':

   q = "王宝强"
   n = 20
   getresult(n, q)

Java代码：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.net.URLEncoder;


public class Spider {

   private static String urll = "http://www.baidu.com/s?wd=";

   private static void getNews(String url, int num){
       try {
           Document doc = Jsoup.connect(url).get();
           Element element = doc.getElementById("content_left");

           for(int i = 1; i < (num + 1); i++){
               Element result = element.getElementById(String.valueOf(i));
               Elements add = result.select("a");

               System.out.println("--------------------- " + i + " ---------------------");
               System.out.println(add.first().text());
               System.out.println(add.first().attr("href"));
               System.out.println();
           }
       } catch (IOException e) {
           e.printStackTrace();
       }
   }

   private static void getResult(int num, String question){

       String url = "";
       try {
           url = urll + URLEncoder.encode(question, "utf-8") + "&rn=" + num;
       } catch (UnsupportedEncodingException e) {
           e.printStackTrace();
       }

       getNews(url, num);

   }

   public static void main(String[] args){
       getResult(20, "王宝强");
   }
   
}

后来我偶然用Python的爬虫搜索了下“老虎”，结果打印到第十一条的时候报错了，一脸懵逼，搜王宝强就好好地。后来查看网页源代码发现搜索结果中id为11的标签是“ table”。而在python中是按标签“div”找的，所以报错了，大bug啊。但是项目又来了，又得忙了。这个先放着吧。

总结：python代码写起来就是清爽，刚学的时候由于Java写习惯了，python中有类型转换的问题总是被忽略。python很好用也很简单，以后有时间还要多写写。

呆萌的我

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分别使用Python和Java抓取百度搜索结果

最近有了点空闲学习了下Python的语法，还别说，Java学习了一段时间之后看Python的语法简单多了。记得当时主要用C语言开发的时候，看Python的代码有点困难。看了下Python的语法后，试着写了个简单地爬虫程序抓取百度搜索的结果。然后用Java也写了一个相同功能的爬虫对比了一下，代码如下：Python代码：# coding=utf-8import u
复制链接

扫一扫