用 Ruby 的 Nokogiri 库抓取全国企业信用信息

最新推荐文章于 2023-12-11 10:33:18 发布

q56731523

最新推荐文章于 2023-12-11 10:33:18 发布

阅读量244

点赞数

文章标签： ruby 开发语言后端爬虫 scala c++

本文链接：https://blog.csdn.net/weixin_44617651/article/details/134307766

版权

以下是一个使用 Ruby 的 Nokogiri 库编写的爬虫程序，用于爬取全国企业信用信息抓取网站上的内容。这个程序使用了一个爬虫ip服务器，爬虫ip服务器的地址是 duoip:8000。

在这里插入图片描述

require 'nokogiri'
require 'open-uri'

# 定义一个爬虫ip服务器
proxy_host = 'duoip'
proxy_port = 8000

# 定义要爬取的 URL
url = 'gsxt.gov/cn/index.html'

# 使用 open-uri 库打开 URL 并获取网页内容，使用爬虫ip服务器
doc = Nokogiri::HTML(open(url, proxy: {http: "#{proxy_host}:#{proxy_port}"})

# 找到网页中所有的企业信息
companies = doc.css('div.item')

# 遍历每一个企业信息
companies.each do |company|
  # 获取企业名称
  name = company.css('.name').text

  # 获取企业地址
  address = company.css('.address').text

  # 输出企业名称和地址
  puts "#{name}，#{address}"
end

以下是每行代码的解释：

第 1 行：导入了 Nokogiri 和 open-uri 库。Nokogiri 是一个非常强大的 Ruby 库，用于解析 HTML 和 XML 文件。open-uri 是一个用于打开 URL 的 Ruby 库。
第 3 行：定义了爬虫ip服务器的地址。这个地址是一个 HTTP 爬虫ip服务器，它用于隐藏你的真实 IP 地址，从而避免被网站屏蔽。
第 4 行：定义了要爬取的 URL。在这个例子中，我们想要爬取全国企业信用信息抓取网站的首页。
第 6 行：使用 Nokogiri 库打开 URL 并获取网页内容。同时，我们指定了使用爬虫ip服务器。
第 8 行：使用 CSS 选择器找到了网页中所有的企业信息。这些信息都是在一个名为 div.item 的 HTML 元素中。
第 10 行：遍历每一个企业信息。
第 11 行：获取了企业的名称。
第 12 行：获取了企业的地址。
第 13 行：输出了企业的名称和地址。