深入理解Java中的并行流（Parallel Stream）

๑҉ 晴天

于 2024-08-05 09:09:40 发布

阅读量140

点赞数 5

分类专栏： java 文章标签： java

本文链接：https://blog.csdn.net/weixin_53840353/article/details/140917535

版权

java 专栏收录该内容

139 篇文章 0 订阅

订阅专栏

Java 8引入了Stream API，为开发者提供了一种处理集合数据的高效方式。Stream API不仅简化了集合操作，还支持并行处理，这极大地提升了处理大规模数据的效率。在本文中，我们将深入探讨并行流（Parallel Stream）的使用及其注意事项，通过详细的解释和代码示例，让读者充分理解并行流的强大功能和潜在的陷阱。

1. 什么是并行流？

并行流是Stream API的一种特殊实现，它通过拆分数据源，将多个任务分配给不同的线程并行执行，从而加速数据处理。并行流利用了多核处理器的优势，通过分治策略（divide-and-conquer）和Fork/Join框架，显著提高了处理大规模数据的效率。

2. 创建并行流

可以通过几种方式创建并行流，最常见的是在已有的流上调用parallel()方法，或者直接调用集合的parallelStream()方法。

import java.util.List;
import java.util.stream.Collectors;
import java.util.stream.IntStream;

public class ParallelStreamDemo {
    public static void main(String[] args) {
        List<Integer> numbers = IntStream.rangeClosed(1, 100).boxed().collect(Collectors.toList());

        // 使用parallel()方法将顺序流转换为并行流
        List<Integer> parallelList1 = numbers.stream().parallel().collect(Collectors.toList());

        // 直接创建并行流
        List<Integer> parallelList2 = numbers.parallelStream().collect(Collectors.toList());

        // 打印结果
        System.out.println(parallelList1);
        System.out.println(parallelList2);
    }
}

3. 并行流的优势

并行流的最大优势在于其可以提高大规模数据处理的效率。以下是一个利用并行流计算1到1亿的和的示例。

import java.util.stream.LongStream;

public class ParallelStreamSum {
    public static void main(String[] args) {
        long startTime = System.currentTimeMillis();
        long sum = LongStream.rangeClosed(1, 100_000_000).parallel().sum();
        long endTime = System.currentTimeMillis();

        System.out.println("Sum: " + sum);
        System.out.println("Time taken with parallel stream: " + (endTime - startTime) + "ms");
    }
}

4. 并行流的注意事项

尽管并行流有很多优点，但在使用时也需要注意以下几点：

a. 线程安全

并行流在多线程环境下处理数据，因此要求操作是线程安全的。例如，使用forEach操作时，如果操作不是线程安全的，可能会导致数据不一致。

import java.util.ArrayList;
import java.util.List;
import java.util.stream.IntStream;

public class ThreadSafetyDemo {
    public static void main(String[] args) {
        List<Integer> list = new ArrayList<>();

        IntStream.rangeClosed(1, 1000).parallel().forEach(list::add);

        System.out.println("Size of list: " + list.size());
    }
}

在这个示例中，由于ArrayList不是线程安全的，可能会导致数据不一致的情况。可以通过使用线程安全的集合（例如Collections.synchronizedList或CopyOnWriteArrayList）来解决这个问题。

b. 性能开销

并行流并不总是比顺序流快。在某些情况下，并行流的性能甚至可能更差。需要考虑以下几点：

数据量：并行流在处理大数据量时表现更好。
数据分割：数据容易分割且每个片段的处理时间相近。
线程开销：线程的创建和上下文切换会带来额外的开销。

import java.util.List;
import java.util.stream.Collectors;
import java.util.stream.IntStream;

public class ParallelStreamPerformance {
    public static void main(String[] args) {
        List<Integer> numbers = IntStream.rangeClosed(1, 100).boxed().collect(Collectors.toList());

        long startTime = System.currentTimeMillis();
        numbers.stream().mapToInt(ParallelStreamPerformance::process).sum();
        long endTime = System.currentTimeMillis();
        System.out.println("Time taken with sequential stream: " + (endTime - startTime) + "ms");

        startTime = System.currentTimeMillis();
        numbers.parallelStream().mapToInt(ParallelStreamPerformance::process).sum();
        endTime = System.currentTimeMillis();
        System.out.println("Time taken with parallel stream: " + (endTime - startTime) + "ms");
    }

    private static int process(int number) {
        try {
            Thread.sleep(10); // 模拟耗时操作
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        return number;
    }
}

在这个示例中，由于每个元素的处理时间较长，并行流相较于顺序流表现更好。但如果处理时间较短，线程的开销可能会抵消并行带来的优势。

c. 正确性

并行流中的某些操作可能会改变预期结果。例如，使用reduce操作时，需要确保操作的结合性和无序性，否则可能导致错误结果。

import java.util.stream.IntStream;

public class ParallelStreamReduce {
    public static void main(String[] args) {
        int sum = IntStream.rangeClosed(1, 10).parallel().reduce(0, (a, b) -> a - b);
        System.out.println("Sum with parallel stream: " + sum); // 结果可能不正确
    }
}

在这个示例中，由于减法操作不满足结合律，导致并行流的结果不正确。

5. 如何优化并行流的使用

为了更好地利用并行流，需要进行一些优化：

使用正确的数据结构（如线程安全的集合）。
确保操作是无状态的（stateless）。
避免共享可变状态。
通过ForkJoinPool调整并行流的线程数。

import java.util.concurrent.ForkJoinPool;
import java.util.stream.IntStream;

public class ParallelStreamOptimization {
    public static void main(String[] args) {
        ForkJoinPool customThreadPool = new ForkJoinPool(4); // 自定义线程池

        customThreadPool.submit(() -> {
            long startTime = System.currentTimeMillis();
            int sum = IntStream.rangeClosed(1, 100_000).parallel().sum();
            long endTime = System.currentTimeMillis();
            System.out.println("Sum: " + sum);
            System.out.println("Time taken with custom thread pool: " + (endTime - startTime) + "ms");
        }).join();
    }
}

在这个示例中，通过自定义线程池，控制并行流的线程数，从而更好地优化性能。

6. 结论

并行流是Java 8引入的一个强大工具，可以显著提高大数据量处理的效率。然而，在使用并行流时，需要注意线程安全、性能开销和正确性等问题。通过合理的优化和正确的使用方式，可以充分发挥并行流的优势，编写高效的Java程序。

๑҉ 晴天

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
深入理解Java中的并行流（Parallel Stream）

并行流是Stream API的一种特殊实现，它通过拆分数据源，将多个任务分配给不同的线程并行执行，从而加速数据处理。并行流利用了多核处理器的优势，通过分治策略（divide-and-conquer）和Fork/Join框架，显著提高了处理大规模数据的效率。
复制链接

扫一扫