老板要Java做闲鱼采集 套用模版又摸一天鱼

本文介绍了如何使用Java编写一个闲鱼爬虫程序,通过HttpURLConnection发送GET请求,结合Jsoup解析网页内容,实现自动筛选出价格优惠的商品并保存至本地文件的过程。作者仅花费两小时完成项目,剩余时间享受闲暇时光。
摘要由CSDN通过智能技术生成

咸鱼上面商品繁多让人眼花缭乱,如果遇到自己喜欢的商品如何筛选出来价格便宜又实惠的东西,如果不看上半天筛选估计很难找到,带着这样的问题,老板让我写个咸鱼采集的程序,然后需要什么类型商品直接让程序自动筛选出来让我们自己选择对比,不说了,打算利用三两个小时完成项目,剩余的就看看电视,摸一天鱼。

在这里插入图片描述

我这里是一个用Java编写的闲鱼爬虫程序。我们首先需要创建一个HttpURLConnection对象,然后通过这个对象向闲鱼网站发送一个GET请求,并获取返回的网页内容。然后,我们可以使用Jsoup库解析返回的网页内容,提取出我们感兴趣的信息。最后,我们将提取到的信息保存到本地文件中。

import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class QianyuCrawler {
    // 提取免费IP jshk.com.cn/mb/reg.asp?kefu=xjy&csdn
    public static void main(String[] args) {
        String proxy_host = "duoip";
        int proxy_port = 8000;

        try {
            URL url = new URL("xianyu");
            HttpURLConnection connection = (HttpURLConnection) url.openConnection();
            connection.setRequestMethod("GET");
            connection.setConnectTimeout(5000);
            connection.setReadTimeout(5000);
            connection.setRequestProperty("User-Agent", "Mozilla/5.0");
            connection.setRequestProperty("Proxy-Host", proxy_host);
            connection.setRequestProperty("Proxy-Port", "" + proxy_port);
            connection.setRequestProperty("Proxy-Authorization", "Basic " + encodeBasicProxyAuth());

            int responseCode = connection.getResponseCode();
            System.out.println("Response Code : " + responseCode);

            if(responseCode == HttpURLConnection.HTTP_OK) {
                BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
                String inputLine;
                StringBuffer response = new StringBuffer();

                while ((inputLine = in.readLine()) != null) {
                    response.append(inputLine);
                }
                in.close();

                Document doc = Jsoup.parse(response.toString());

                Elements elements = doc.select("div.content");

                for (Element element : elements) {
                    System.out.println(element.text());
                }

                doc.select("div.content").save("qianyu.html");
            }
            else {
                System.out.println("Failed to connect to server");
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    private static String encodeBasicProxyAuth() {
        String proxyAuth = "username:password";
        String proxyAuthEnc = proxyAuth.replace(":", "").replaceAll("\\s", "").getBytes("UTF-8");
        return Base64.encodeToString(proxyAuthEnc, Base64.DEFAULT);
    }
}

首先,我们创建了一个URL对象,其中的字符串是闲鱼网站的地址。然后,我们使用这个URL对象创建了一个HttpURLConnection对象,用于向闲鱼网站发送请求。
接着,我们设置了HttpURLConnection对象的一些属性,包括请求方法(GET)、连接超时和读取超时、User-Agent头信息(用于模拟浏览器)、代理主机和端口、以及代理认证信息(如果需要的话)。
然后,我们发送一个GET请求,并获取返回的网页内容。
最后,我们使用Jsoup库解析返回的网页内容,并提取出我们感兴趣的信息。然后,我们将提取到的信息保存到本地文件中。

其实说实在的,爬虫也不难,了解一些库的使用以及语法,在通过套用模版,写一段其实挺简单的,只花了两小时就完成工作,下面的时间就由我自己自有分配,摸摸鱼,这一天也就过来了。

采集闲鱼游泳卡转让信息,可自己在url中自定义要采集的二手商品信息以及筛选商品价格,采集完成并发送邮件通知 虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 虫的工作流程包括以下几个关键步骤: URL收集: 虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反虫机制,虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反虫应对: 由于虫的存在,一些网站采取了反虫措施,如验证码、IP封锁等。虫工程师需要设计相应的策略来应对这些挑战。 虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 虫的工作流程包括以下几个关键步骤: URL收集: 虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反虫机制,虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反虫应对: 由于虫的存在,一些网站采取了反虫措施,如验证码、IP封锁等。虫工程师需要设计相应的策略来应对这些挑战。 虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值