TowardsDataScience 2023 博客中文翻译(三百六十四)

原文:TowardsDataScience

协议:CC BY-NC-SA 4.0

什么是 dbt(数据构建工具)以及何时使用它?

原文:towardsdatascience.com/what-is-dbt-data-build-tool-and-when-should-you-use-it-9dc1566d960d

发现 dbt 的隐藏优点和缺点

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 Khuyen Tran

·发表于 Towards Data Science ·8 分钟阅读·2023 年 4 月 30 日

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

动机

如果您的组织正在寻求创建数据驱动的产品,您应该考虑拥有高效的数据管道,以:

  1. 保持竞争力: 通过高效的数据管道快速访问数据及其分析加快决策过程,使您在竞争中保持领先。

  2. 降低成本: 通过高效的数据管道,可以显著减少收集和转换数据所需的时间和精力,这可以降低成本,并使员工能够专注于需要人类智慧的更高层次任务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

近年来,dbt(数据构建工具)在数据管道管理方面越来越受欢迎。

虽然 dbt 在管理和建模数据方面可以提供显著的好处,但它可能不是每种情况的最佳工具。在本文中,我们将探讨 dbt 的使用案例,以确定 dbt 是否适合您的组织。

随意播放并分叉本文的源代码:

[## GitHub - khuyentran1401/dbt-demo: dbt 演示

目前您无法执行此操作。您在另一个标签或窗口中登录了。您在另一个标签或…

github.com](https://github.com/khuyentran1401/dbt-demo?source=post_page-----9dc1566d960d--------------------------------)

什么是 dbt?

dbt 是一个用于在数据仓库中转换数据的开源工具。通过 dbt,用户可以编写 SQL 查询以转换数据,并创建可重复的工作流程,这些工作流程可以轻松地进行测试和自动化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

何时考虑使用 dbt

当您需要考虑使用 dbt 时:

  1. 你有一个数据仓库: dbt 是一个有效的工具,用于在数据仓库环境中组织、转换和测试数据。

  2. 你的数据管道很复杂: dbt 的模块化方法可以帮助将复杂的管道分解为更小的部分,使调试、测试和修改管道变得更容易。

  3. 你的数据经常变化: dbt 的快照功能可以让你跟踪数据随时间的变化。

  4. 透明度对你的组织至关重要: dbt 可以自动生成管道的文档。它还通过数据血缘提供对数据转换过程的洞察。

  5. 数据质量对你的组织至关重要: dbt 可以测试你的模型,帮助你早期发现错误并确保数据准确。

在深入了解 dbt 的一些有用功能之前,我们需要先设置 dbt 环境。这将帮助你更轻松地跟随讨论。

设置 dbt

安装 dbt

本文使用 BigQuery 作为 dbt 的数据仓库,要安装 dbt 的 BigQuery 适配器,请输入:

pip install dbt-bigquery

如果你想使用其他 dbt 适配器,请遵循此说明

创建项目

要初始化一个名为dbt_demo的 dbt 项目,请输入以下内容:

dbt init dbt_demo

以下是项目目录。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

模块化

dbt 的模块化方法允许你将复杂的管道拆分为更小的部分。

为了演示这一点,我们将使用来自BigQuery 公共数据集austin_bikeshare数据集。

models目录下创建一个名为models/trips_per_property.sql的新 SQL 文件,文件内容如下:

-- models/trips_per_property.sql

WITH stations AS (
  SELECT
    station_id, council_district,
    CASE
      WHEN property_type IN ('parkland', 'sidewalk', 'nonmetered_parking') THEN 'free_parking'
      ELSE property_type
    END AS property_type,
  FROM
    `bigquery-public-data.austin_bikeshare.bikeshare_stations`
  WHERE
    property_type IN (
      'parkland',
      'sidewalk',
      'nonmetered_parking',
      'paid_parking'
    )
),
trips AS (
  SELECT
    start_station_id
  FROM
    `bigquery-public-data.austin_bikeshare.bikeshare_trips`
  WHERE
    start_station_id is NOT NULL
)
SELECT
  stations.property_type,
  COUNT(*) AS trips,
FROM
  trips
  JOIN stations ON trips.start_station_id = stations.station_id
GROUP BY
  stations.property_type

由于该模型包含多个数据转换,因此可能很难维护和测试。

我们可以通过以下方式将模型分成不同的模型:

  • models目录下创建两个文件stg_stations.sqlstg_trips.sql

  • 用以下 SQL 代码替换现有的stations CTE 和trips CTE:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

  • stg_trips.sql文件中,编写原始模型中trips CTE 的 SQL 代码。
-- models/stg_trips.sql

SELECT start_station_id
FROM `bigquery-public-data.austin_bikeshare.bikeshare_trips`
WHERE start_station_id is NOT NULL
  • stg_stations.sql文件中,编写原始模型中stations CTE 的 SQL 代码。
-- models/stg_stations.sql

SELECT
    station_id, council_district,
    CASE
        WHEN property_type IN ('parkland', 'sidewalk', 'nonmetered_parking') THEN 'free_parking'
        ELSE property_type
    END AS property_type,
FROM
    `bigquery-public-data.austin_bikeshare.bikeshare_stations`
WHERE
    property_type IN ('parkland', 'sidewalk', 'nonmetered_parking', 'paid_parking')

通过将模型拆分为多个模型,你现在可以在其他模型中重用这些数据模型:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

你的团队成员也可以同时在项目的不同部分工作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

因为每个模块都是自包含的,所以可以轻松进行测试和验证。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

代码重用性

使用 dbt 中的宏可以简化在各种模型中重用 SQL 代码片段的过程。

为了演示,我们将在macros/get_end_time.sql文件中创建一个名为get_end_time的宏。这个宏基于开始时间和持续时间获取结束时间。

# macros/get_end_time.sql
{% macro get_end_time(start_time, duration_minutes) %}
    (SELECT TIMESTAMP_ADD({{ start_time }}, INTERVAL {{ duration_minutes }} MINUTE) AS end_time)
{% endmacro %}

get_end_time宏视为一个可以重复使用的 Python 函数,用于根据提供的输入生成一个值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者

现在,另一个模型可以使用这个宏,并指定start_timeduration_minutes的具体值:

SELECT
    start_station_id,
    start_time,
    end_station_id,
    {{ get_end_time('start_time', 'duration_minutes') }} AS end_time
FROM
    `bigquery-public-data.austin_bikeshare.bikeshare_trips`
WHERE
    start_station_id IS NOT NULL AND end_station_id IS NOT NULL 

测试

使用 dbt,您可以轻松验证模型的正确性。例如,要确保stg_stations模型正确,您可能需要检查:

  • station_id列不能为空,并且具有唯一值。

  • property_type列仅有‘free_parking’或‘paid_parking’值。

要测试stg_stations模型,请在models目录中创建一个新的 YAML 文件,命名为models/schema.yml,并包含以下内容。

version: 2

models:
  - name: stg_stations
    columns:
    - name: station_id
      tests: 
        # Should not contain null values.
        - not_null
        # Should be unique
        - unique
    - name: property_type
      tests:
        # Should be either 'free_parking' or 'paid_parking'.
        - accepted_values:
            values: ['free_parking', 'paid_parking']

然后运行dbt test以执行所有测试。

通过在转换过程中尽早捕捉潜在错误,测试可以降低下游应用程序和分析中的错误风险。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者

此外,测试提供了一种跟踪数据随时间变化的方法,并确保在底层数据变化时转换逻辑保持正确。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者

文档

使用 dbt,您可以轻松地记录模型并与团队共享文档。

要为您的模型创建文档,请遵循以下步骤:

  • 在您的models/schema.yml文件中添加描述。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者

查看完整文件。

  • 运行dbt docs generate以生成项目文档。

  • 运行dbt docs serve命令以启动文档。

  • 通过在您的网页浏览器中导航到localhost:8080来访问文档。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者

记录您的数据模型有助于确保每个与模型工作的人都能理解其功能和目的。

您还可以通过点击“查看血缘图”来检查文档中的数据血缘。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者

跟踪数据变化

使用 dbt,您可以通过快照跟踪数据随时间的变化。

要了解这为何有用,请想象您有一个subscriber_type表,其中subscriber_type字段经常被覆盖,因为订阅者修改其会员状态。

如果用户将其会员资格从“试用”更改为“高级”,那么用户拥有“试用”会员资格的记录将丢失。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者

如果我们想将这个记录用于其他评估,如计算用户更改订阅所需的平均时间,丢失这个记录可能会有问题。

dbt 可以快照这些更改,以帮助你了解行中值随时间的变化。以下是前面示例的快照表:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

查看关于如何创建快照的教程。

你不应该使用 dbt 的情况

虽然 dbt 在管理和建模数据方面可以提供显著的好处,但在以下情况下你不应使用 dbt:

  1. 你没有数据仓库: dbt 专为数据仓库(如 Snowflake、Redshift 或 BigQuery)设计。如果你没有数据仓库,dbt 可能不是适合你的工具。

  2. 你想要一个一站式 ETL 解决方案: 尽管 dbt 是一个出色的数据转换工具,但它并不提供完整的 ETL(提取、转换、加载)解决方案。数据提取、数据清洗和数据加载等任务需要其他工具。

  3. 你想可视化你的数据: dbt 不是数据可视化工具。如果你想创建可视化,你需要使用其他工具或库,如 Tableau、Looker 或 PowerBI。

  4. 你想进行超出 SQL 语法限制的高级特征工程: 由于 SQL 是 dbt 的主要语言,在特征工程方面存在一些限制。如果你需要执行超出 SQL 能力的高级特征工程任务,可能需要使用 Python 或 R 等其他工具或语言。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供

结论

在这篇文章中,我们介绍了 dbt 的一些有用功能,并学习了何时使用和不使用 dbt。希望这篇文章能提供足够的知识,帮助你决定 dbt 是否是你的数据管道的正确解决方案。

我喜欢写关于数据科学概念的文章,并玩弄不同的数据科学工具。你可以在LinkedInTwitter上与我联系。

如果你想查看我写的文章的代码,可以给这个仓库点个星。关注我在 Medium 上的账号,以便获取最新的数据科学文章通知:

## DVC 简介:机器学习项目的数据版本控制工具

就像 Git 一样,但用于数据!

towardsdatascience.com [## 4 个预提交插件,用于自动化 Python 中的代码审查和格式化

使用 black、flake8、isort 和 interrogate 编写高质量的代码

4 个预提交插件以自动化代码审查和格式化 [## 使用 Pandera 验证您的 pandas DataFrame

确保您的数据符合预期

使用 Pandera 验证您的 pandas DataFrame [## pytest 为数据科学家

pytest 为您的数据科学项目提供全面指南

pytest 对数据科学家的指南

什么是 EDI?电子数据交换

原文:towardsdatascience.com/what-is-edi-electronic-data-interchange-92f7215bb699?source=collection_archive---------2-----------------------#2023-08-29

探索电子数据交换(EDI)如何促进现代供应链管理。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 Samir Saci

·

关注 发表在 Towards Data Science ·10 分钟阅读·2023 年 8 月 29 日

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(图片由作者提供)

电子数据交换(EDI)是一种标准化的在计算机系统之间自动传输数据的方法。

随着供应链变得越来越数字化,有效的数据交换已成为任何大型公司的必备条件。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 EDI 进行通信的供应链系统示例 — (图片由作者提供)

在复杂的供应商和分销商网络中,高效的数据通信至关重要。

作为分析专家,我们如何利用 EDI 技术支持组织的数字化转型?

它们确保了重要交易数据的顺畅流动,例如采购订单、发票、装运通知等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

EDI 在采购管理中的应用 — (图像由作者提供)

在这篇文章中,我们将揭示**电子数据交换(EDI)**在推动供应链操作中的关键作用,以及它如何增强数据分析能力。

我们将使用 Python 脚本展示 EDI 消息如何在仓库操作中转化为实际行动。

💌 免费接收最新文章到您的邮箱:新闻通讯

📘 供应链分析的完整指南:分析备忘单

Summary
I. EDI for Supply Chain Management
1\. A must-have for any large business
2\. More than 60 years of history
3\. EDI Standards
4\. Supply Chain Processes that use EDIs
II. Data Interchange & Operational Management
1\. Warehouse Operations Simulation Model
2\. Build a simulation model with Python
III. Why is Business Intelligence Significant?
1\. What is the environmental impact of our operations?
2\. Become a data-driven green organization
IV. What's Next?
1\. EDI for ESG Reporting and GreenWashing
2\. Conclusion

什么是供应链管理中的 EDI?

这是任何大型企业的必备工具。

电子数据交换(EDI)旨在促进高效、可靠和安全的数据交换。

几十年来,它已经深刻地成为任何大型现代企业的必备工具。

它促进了以标准化格式自动传输业务文档。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

应用示例 — (图像由作者提供)

这使得不同系统可以使用共同的语言进行通信。

  • 一家公司希望向供应商发送包含项目信息、数量和预计交货日期的采购订单。

  • 一个仓库希望通知承运人一个托盘已经准备好进行取件

  • 一家商店向中央配送中心发送补货订单

超过 60 年的历史

发展于 1960 年代末期,EDI 最初用于传输运输和物流文档。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

电子数据交换的简要历史 — (图像由作者提供)

多年来,EDI 扩展了其能力,涵盖了各个行业,目前有超过 15 万家企业专注于供应链管理。

考虑到每天的巨大交易量,很难想象没有 EDI 的国际供应链如何运作。

EDI 标准是什么?

EDI 基于不同地区多个行业使用的既定标准进行操作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按行业和地理位置列出的一些标准 — (图像由作者提供)

然而,存在两种主要标准

  • ANSI X12:主要在北美使用

  • EDIFACT:由联合国创建并在国际上使用

这些标准定义了 EDI 消息中的字符串格式和包含的信息。

它们确保了在各种系统间数据解释的一致性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个采购订单转换为 EDI 消息的示例 — (图像由作者提供)

在上面的示例中,采购订单被转换为 EDI 消息进行传输。

  • 订单由采购团队创建并由供应商接收

  • 订单信息包括客户、供应商、交货地址和日期、发票地址以及关于订购物品的详细信息。

  • 发票、交付和公司信息通过使用 ID(公司 ID、位置 ID 等)进行映射。

哪些供应链流程使用 EDI?

随着供应链操作的复杂化,EDI 消息成为关键事件(如)通信的支柱。

  • 入库货物到达仓库。

  • 正在进行入库的托盘。

  • 正在执行的拣货订单。

  • 一个已取消的出库发货。

EDI 消息使物流操作的运转得以维持。

为了说明这个想法,我们将使用 Python 来模拟创建和传输 EDI 消息以进行仓库操作管理。

数据交换与运营管理

仓库操作仿真模型的设计。

在我们的 Python 脚本中,我们将从 EDI 消息交换的角度复制多个仓储过程。

  • 包含 SKU 和数量等详细信息的入库发货消息。

  • 入库确认包括 SKU 和入库位置。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

物流操作 — (作者提供的图片)

这些消息实现了ERP和**仓库管理系统(WMS)**的同步,提升了效率并减少了错误。

  • 消息 1:通知仓库团队通过 WMS 即将到来的入库发货(ERP -> WMS)。

  • 消息 2:仓库团队通知分销规划团队托盘已入库并准备好进行订单(WMS -> ERP)。

让我们使用 Python 构建我们自己的 EDI 消息仿真工具。

使用 Python 构建仿真模型。

让我们使用 EDI 规范 ANSI X12 模拟这些消息交换。

  1. 入库:货物在仓库接收。

    EDI 消息(仓库发货订单 — 940)通知仓库即将到来的发货及其详细信息。

  2. 入库:收到货物后,货物存放在特定位置。

    确认 EDI 消息(仓库库存转移收据通知 — 944)被返回到 ERP,以确认入库。

  3. 拣货:根据订单,从存储位置挑选物品。

    该 EDI 消息(仓库发货订单 — 940)可以指示仓库要挑选哪些物品。

  4. 出库:发运给客户。

    EDI 消息(仓库发货通知 — 945)被发送到 ERP,以确认货物已被发运。

这是 Python 脚本的简化版本,

# Author: Samir Saci
# Note: this script has been simplified for educational purposes.

class EDIMessage:
    def __init__(self, message_id):
        self.message_id = message_id
        self.content = ""

    def add_segment(self, segment):
        self.content += segment + "\n"

    def get_message(self):
        return f"ST*{self.message_id}*1\n{self.content}SE*2*1"

class Warehouse:
    def __init__(self):
        self.inventory = {}

    def receive_inbound(self, message):
        lines = message.content.split("\n")
        for line in lines:
            if line.startswith("N1"):
                _, _, sku, quantity, unit = line.split("*")
                self.inventory[sku] = self.inventory.get(sku, 0) + int(quantity)
        print("Received Inbound Shipment:\n", message.content)

    def process_putaway(self, sku):
        message = EDIMessage("944")
        if sku in self.inventory:
            message.add_segment(f"N1*ST*{sku}*{self.inventory[sku]}*units")
            print("Putaway Confirmation:\n", message.get_message())
            return message
        else:
            print("SKU not found in inventory.")

    def process_picking(self, message):
        lines = message.content.split("\n")
        for line in lines:
            if line.startswith("N1"):
                _, _, sku, quantity, unit = line.split("*")
                if self.inventory[sku] >= int(quantity):
                    self.inventory[sku] -= int(quantity)
                else:
                    print(f"Insufficient quantity for SKU {sku}")
        print("Processed Picking Order:\n", message.content)

    def process_outbound(self, picking_message):
        message = EDIMessage("945")
        lines = picking_message.content.split("\n")
        for line in lines:
            if line.startswith("N1"):
                _, _, sku, quantity, unit = line.split("*")
                message.add_segment(f"N1*ST*{sku}*{quantity}*boxes")
        print("Outbound Shipment Confirmation:\n", message.get_message())
        return message

启动模型并创建您的入库订单。

  • 两种不同的 SKU 以纸箱形式收到。

  • {数量 1:50 箱,数量 2:40 箱}

# Initiate the model
warehouse = Warehouse()

# Inbound Process
inbound_message = EDIMessage("940")
inbound_message.add_segment("N1*ST*SKU123*50*boxes")
inbound_message.add_segment("N1*ST*SKU124*40*boxes")
warehouse.receive_inbound(inbound_message)
print("Inventory of {}: {} boxes".format("SKU123",warehouse.inventory["SKU123"]))
print("Inventory of {}: {:,} boxes".format("SKU124",warehouse.inventory["SKU124"]))

输出如下,

N1*ST*SKU123*50*boxes
N1*ST*SKU124*40*boxes

Inventory of SKU123: 50 boxes
Inventory of SKU124: 40 boxes
  • 已传输的两个消息。

  • 收到的物品清单已根据收到的数量进行了更新。

入库确认

# Putaway Process
warehouse.process_putaway("SKU123")
  • 该消息发送“SKU123”的入库确认。
ST*944*1
N1*ST*SKU123*50*units
SE*2*1

拣货订单和出库发货

  • 这两个 SKU 的拣货数量低于其库存水平。
# Picking Process (Picking goods for an order)
picking_message = EDIMessage("940")
picking_message.add_segment("N1*ST*SKU123*10*boxes")
picking_message.add_segment("N1*ST*SKU124*5*boxes")
warehouse.process_picking(picking_message)
print("Inventory of {}: {} boxes".format("SKU123",warehouse.inventory["SKU123"]))
print("Inventory of {}: {:,} boxes".format("SKU124",warehouse.inventory["SKU124"]))

# Outbound Process (Sending out goods)
warehouse.process_outbound()

输出,

N1*ST*SKU123*10*boxes
N1*ST*SKU124*5*boxes

Inventory of SKU123: 40 boxes
Inventory of SKU124: 35 boxes

ST*945*1
N1*ST*SKU123*10*boxes
N1*ST*SKU124*5*boxes
SE*2*1
  • 对“SKU123”和“SKU124”进行的 2 个拣货订单,分别包含 10 和 5 个箱子

  • 库存已更新

  • 出库订单正在处理拣货的数量

我们如何确保传输顺畅?

错误检测与处理

我们引入这个模型并非仅为编码目的。

这个想法是理解如何创建各种检查以处理写入或读取消息时的错误。

EDI 也不免存在数据质量问题,比如

  • 缺失数据、数据格式不正确、无效代码,…

  • 逻辑不一致导致显著的操作中断

因此,实施强大的数据检查和验证对确保电子数据交换的准确性和可靠性至关重要。

接收订单的错误处理示例

def receive_inbound(self, message):
    lines = message.content.split("\n")
    for line in lines:
        if line.startswith("N1"):
            try:
                _, _, sku, quantity, unit = line.split("*")

                # SKU or quantity is missing
                if not sku or not quantity:
                    print("Error: SKU or quantity missing.")
                    return

                # Quantity is an integer
                quantity = int(quantity)

               # Negative or zero quantities
                if quantity <= 0:
                    print("Error: Quantity must be positive.")
                    return

                self.inventory[sku] = self.inventory.get(sku, 0) + quantity
            except ValueError:
                print("Error: Incorrect data format.")
                return

    print("Received Inbound Shipment:\n", message.content)

这段代码是:

  • 检查数量是否缺失或不符合整数格式

  • 验证所有数量是否为正数

  • 如有必要,提出错误

下一步是什么?

使用 Python,你可以支持你的基础设施团队自动化测试,以开发新的 EDI 消息。

EDI 对数据分析的强大作用是什么?

通过连接多样的计算机系统,EDI 支持日常操作,并成为数据分析的真正宝库。

每个 EDI 交易都携带有价值的信息,

  • 时间戳、位置和原因代码提供了对你的货物的可追溯性,并衡量流程的表现

  • 可用于建模物料、财务和信息流的数量、定价和项目信息

生成交易数据以监控和改进供应链网络。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

什么是供应链分析? — (作者提供的图片)

这个宝贵的数据来源可以用来

  • 描述过去的事件:描述性分析

  • 分析缺陷和事件:诊断性分析

  • 预测未来事件:预测性分析

  • 设计最佳流程和决策:规范性分析

让我们深入探讨每种分析类型,以了解它如何依赖于良好的 EDI 基础设施。

描述性和诊断性分析

描述性分析是关于理解过去发生了什么。

通过正确设置 EDI 消息,我们可以将历史交易数据映射到以获取过去表现的见解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过时间戳跟踪的分销过程示例 — (作者提供的图片)

例如,EDI 消息可以在你的分销链的每个阶段更新状态。

  1. 每个事件都带有时间戳(从订单创建到商店交付)

  2. 实际时间戳可以与预期时间戳进行比较

  3. 然后可以分析延迟以找到根本原因

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每个流程的预期时间与实际时间 — (作者提供的图片)

  • 使用与运营团队商定的目标交货时间计算预期时间

  • ERP、WMS、货运代理系统和商店管理系统都使用 EDI 通信时间戳

您可以收集和处理这些时间戳,创建自动化报告,跟踪分销链路上的货物运输。

💡 获取更多详细信息

## 什么是供应链控制塔?

使用 Python 优化您的供应链网络,采用自动化解决方案跟踪您的货物并评估…

towardsdatascience.com

如果我们想要模拟物流链中的事件或故障会怎样?

供应链管理中的数字孪生

这些计算机模型代表各种供应链组件,包括配送中心、运输网络和制造设施。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 Python 创建简单的数字孪生 — (作者提供的图片)

EDI 交易可以帮助您提供保持数字孪生更新的实时数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 Python 创建的简单数字孪生的示例 — (作者提供的图片)

假设您已经建立了一个包括以下内容的简单数字孪生

  • 模拟运输、商店、仓库和工厂运营的模型

  • 沿着链条复制信息和货物流动的连接

我们如何利用这些数据?

您可以将您的 EDI 流程与以下内容连接:

  • 仓库模型用于估算接收到 EDI 消息中订单批次的拣货时间

  • 工厂模型将订单数量与实际生产能力进行比较

这是一个很好的工具,可以使用通过 EDI 通信的真实订单来模拟和分析不同的场景,而不会影响实际运营。

💡 获取更多详细信息

## 什么是供应链数字孪生?

使用 Python 发现数字孪生:建模供应链网络,增强决策能力和优化运营。

towardsdatascience.com ## 什么是供应链分析?

使用数据分析提高运营效率,通过数据驱动的诊断和决策在战略和…

towardsdatascience.com

结论

理解电子数据交换(EDI)在供应链管理中的作用,让我们了解数据传输对现代商业运营的重要性。

这一关键技术为各种计算机系统之间的高效通信提供了基础。

报告的影响是什么?

对可持续性报告的影响:ESG 与绿色洗涤

环境、社会和治理(ESG)报告是公司用来披露其治理结构、社会影响和环境足迹的一种方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ESG 支柱展示 — (图像来源:作者)

这一非财务报告已成为公司的战略方面,因为它可能影响消费者的感知和投资的可达性。

电子数据交换如何确保数据一致性并支持审计?

ESG 报告可能会因为缺乏标准化和确保数据准确性的困难而变得具有问题。

如果你的 ESG 报告输入了错误的数据,会发生什么?

审计可能成为任何希望正式报告这一分数的公司的风险

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ESG 报告所需的分析能力 — (图像来源:作者)

高级商业智能解决方案可以支持数据处理自动化;EDI 能力可以帮助确保数据的可追溯性。

这可以支持对抗绿色洗涤。

绿色洗涤是通过对产品环境效益做出误导性声明来传达虚假的可持续性形象的做法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

绿色洗涤的五大罪 — (图像来源:作者)

随着公众意识的提高,公司必须更加努力以确保计算的准确性。

这依赖于 EDI 技术支持的交易数据的适当收集、传输和处理。

关于 ESG 报告和绿色洗涤的更多信息,

什么是 ESG 报告?

利用数据分析进行全面有效的环境、社会和治理报告

towardsdatascience.com](/what-is-esg-reporting-d610535eed9c?source=post_page-----92f7215bb699--------------------------------) ## 什么是绿色洗涤?以及如何利用分析来检测它?

探索数据分析如何帮助我们检测和防止绿色洗涤,并推动真正的可持续性。

towardsdatascience.com

参考文献

  • 什么是供应链数字双胞胎?,Samir Saci,数据科学前沿

  • 什么是供应链分析?,Samir Saci,数据科学前沿

什么是 ESG 报告?

原文:towardsdatascience.com/what-is-esg-reporting-d610535eed9c?source=collection_archive---------4-----------------------#2023-08-22

利用数据科学实现公司环境、社会和治理(ESG)报告的全面与有效

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 Samir Saci

·

关注 发表在 Towards Data Science · 13 分钟阅读 · 2023 年 8 月 22 日

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

什么是 ESG 报告——(作者提供的图像)

环境、社会和治理(ESG)报告是一种公司披露其治理结构、社会影响和环境足迹的方法。

作为数据科学家,你如何通过分析支持组织提升其 ESG 评分?

随着利益相关者对公司社会责任(CSR)的要求不断增加,ESG 报告已成为公司长期战略中的关键部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ESG 支柱展示——(作者提供的图像)

在本文中,我们将深入探讨 ESG 报告的细节,以突出其相关挑战,并探讨数据分析如何提高其准确性

📘 您的供应链分析完整指南:分析备忘单

💌 免费直接发送到您的收件箱的新文章:通讯

Summary
I. Understanding ESG Reporting
**1\. What is ESG Reporting?
2\. ESG Reporting supported with Data**
II. Advanced Analytics for ESG Reporting
**1\. Lack of Standardization
2\. Accuracy and Reliability of ESG Data
3\. Fighting Greenwashing with Data Science**
III. Data Science as a Game Changer
**1\. Sustainable Sourcing
2\. ESG-Friendly Budget Planning
3\. Supply Chain Network Optimization
4\. Circular Economy for Fashion Industry**
IV. Conclusion
Open the window on Business Intelligence and Sustainable Development Goals
**1\. Business Intelligence to Automate the Process
2\. Beyond ESG, Towards Sustainable Development Goals (SDGs)**

利用数据分析自动化 ESG 报告

什么是 ESG 报告?

ESG 报告是一种非财务报告形式,组织向利益相关者传达其环境表现(E)、社会责任(S)和治理结构的实力(G)

三个维度提供了对公司可持续性和伦理影响的深入了解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

报告类别示例 — (图像由作者提供)

例如,一家公司可能会报告

  • 其供应链的碳排放**(E)**

  • 社区发展倡议**(S)**

  • 董事会成员的多样性**(G)**

我们从数据分析的角度来看看这份报告。

你是一家时尚零售公司的数据科学家。

数据支持的 ESG 报告

我们可以考虑一个假设的全球时尚零售商:I&N

I&N是一家快时尚零售商**,在亚洲的工厂生产服装、包袋**和配饰。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

I&N 的供应链网络 — (图像由作者提供)

(位于欧洲的)商店直接补给的本地仓库发货。

I&N 致力于可持续实践*(循环经济、可再生能源)*,并通过透明度建立与利益相关者的信任。

因此,它定期在年度可持续发展报告中披露其ESG 表现

在其最新报告中,I&N披露了几个关键的 ESG 指标。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

I&N ESG 指标 — (图像由作者提供)

(E):对于环境部分,I&N 报告

  • 总温室气体排放量**(kg CO2eq)**

  • 可再生能源的使用百分比**(%)**

这些指标,需要先进的数据处理,使利益相关者能够理解

  • 销售产品的环境足迹。

  • 向更清洁能源来源过渡的努力。

如何衡量这些环境指标?

**产品生命周期评估(LCA)**是一种数据驱动的方法,用于评估产品视角下的环境影响。

这个想法是分析每个过程,从原材料提取到产品处置。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

生命周期评估 — (图像由作者提供)

对每个过程,我们进行审视

  • 自然资源、原材料和能源的消耗

  • 污染物和 CO2 的排放

  • 产生的废物

💡 欲了解更多关于这些分析解决方案的详情,

## 什么是生命周期评估?LCA

了解生命周期评估如何帮助企业评估产品在其整个生命周期中的环境影响……

[towardsdatascience.com ## 使用 Python 进行供应链可持续性报告

4 个步骤来构建有关分销网络 CO2 排放的 ESG 报告。了解如何测量和减少您的碳排放……

[towardsdatascience.com

社会评分怎么样?

(S):对于社会组件,公司详细说明

  • 社区发展计划 的数量

  • 平均员工满意度评分指示了员工的福祉。

我们公司如何披露平均员工满意度评分?

组织传统上依赖调查来获取这个指标,这通常会产生主观和偏见的结果。

因此,I&N 决定使用 自然语言处理(NLP)和社会情感分析 来分析来自 Glassdoor 或内部沟通渠道的员工评论文本数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

社交媒体情感分析 — (作者提供的图片)

它也可以用于社交媒体上。

ESG 情感分析 是一种有价值的工具,投资者用来追踪利益相关者对 ESG 问题的态度,并了解这些因素如何影响公司的股票价格。

市场上有 工具 可以对社交媒体和招聘平台进行审计。

他们使用先进的 NLP 技术来获得客户和员工对关键公司话题的看法。

(G):对于治理领域,I&N 披露

  • 独立董事的数量

  • 董事会中的女性代表百分比。

这帮助审计员和投资者评估I&N对公平和负责任治理的承诺。

董事会组成分析是对董事会成员和管理层的多样性和经验的基于数据的评估。

这可以通过分析与被认为是公司战略关键的选定经理相关的数据来完成。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

董事会组成分析的虚拟数据示例 — (作者提供的图片)

例如,可以构建可视化图表来分析劳动力多样性,通过种族分布来进行。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

种族分布示例 — (作者提供的图片)

如果 I&N 想要促进性别平等,我们可以分析男性和女性管理者的部门分布。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

性别分布示例 — (图像来源作者)

这些可视化图表帮助识别潜在的改进领域,并有力支持多样性和包容性,这是良好治理的关键方面。

在下一部分中,我们将看到高级分析如何帮助公司克服 ESG 报告的挑战。

高级分析用于 ESG 报告

ESG 报告可能很复杂,因为报告实践缺乏标准化,而且确保数据准确性存在困难。

你如何支持这一工作?

标准化缺乏

首先是缺乏标准化报告框架,这可能导致不同公司在报告其 ESG 表现时出现不一致

例如,两家公司可能采用完全不同的方法来衡量它们的环境影响

  • 公司 1 是一家塑料玩具制造商

  • 公司 2 在便利店销售新鲜水果

这两家公司报告减少塑料使用

  • 通过对某些物品使用纸箱包装,公司 2 减少了-55%

  • 通过改变玩具的设计,公司 1 减少了-10%

当第一家公司使用塑料作为其产品的原材料时,你能评估其努力和影响吗?

不,我们需要标准化。

💡 数据分析如何支持标准化?

  • 政府实体可以使用按行业划分的公司数据库以及其产品的环境方面 (例如: 世界银行数据库)

  • 自动化数据管道可以提取、处理并部署标准化报告,使用来自不同来源的数据。

我们如何确保数据的可靠性?

ESG 数据的准确性和可靠性

维护质量可能很艰难,因为数据来自多个来源。

商业智能(BI)提供处理和分析来自不同系统的大量数据的能力,以支持 ESG 报告。

  • 来自外部供应商、公共事业账单或运营文件的平面文件

  • 来自工厂管理系统的制造数据

  • 来自ERPWMSTMS 的物流和零售操作数据

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

生命周期评估所需的分析能力 — (图像来源作者)

在上面的例子中,这种数据架构用于提取、处理和存储数据,以进行生命周期评估

这个想法是估算销售商品的影响

  • 将生产输出数量与能源和资源使用联系起来

  • 估算从生产到运输的 CO2 和污染物排放

  • 包括来自供应商和物流操作的额外非财务指标

终极目标是自动化计算 ESG 指标,从原材料提取到处置的产品生命周期。

💡 额外见解 这也可以支持报告中数据的可追溯性。

例如,我实施了一个系统,使用 文件哈希 证明数据源 (来自货运代理) 在 CO2 排放计算过程中未被修改。

由于可能会进行审计,展示数据来源并证明结果尚未被篡改是很重要的。

对于那些进行欺诈的公司怎么办?

用数据科学对抗绿色洗涤

绿色洗涤是指对产品的环境效益做出误导性声明,以传达虚假的可持续形象。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

绿色洗涤的五大罪行 — (作者图片)

组织使用这种不诚实的做法来创造对环境责任的虚假印象。

然而,数据分析可以显著提升通过使用

  • 公开的数据 在可持续发展报告、社交媒体中

  • 高级分析模型, 包括 NLP、预测或统计模型用于欺诈检测

💡 更多关于数据分析的详细信息,

## 什么是绿色洗涤?以及如何使用分析检测它?

探索数据分析如何帮助我们检测和防止绿色洗涤,并促进真正的可持续性。

[towardsdatascience.com

我们可以通过分析实现调和和检测欺诈。

我们能支持公司的转型吗?

数据科学作为游戏规则改变者

除了测量和报告,这些技术还可以帮助你的组织利用系统生成的数据

  • 指示性见解 支持决策:选择供应商、预算分配、供应链网络设计

  • 预测分析 帮助公司预测和减轻未来的 ESG 风险

你听说过线性规划吗?

示例 1: 可持续采购

这是在选择产品或服务供应商时整合社会、伦理和环境绩效因素的过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用数据评估供应商 — (作者图片)

对于每个供应商,I&N 有一套衡量的分数

  • 自然资源的使用(水、棉花)

  • 污染物和 CO2 排放

  • 社会和治理合规

利用先进的分析技术,你可以自动化整个过程

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过三个步骤选择供应商 — (作者提供的图像)

  • 收集供应商数据

    例如:可持续性 KPI(CO2、自然资源、环境足迹)、社会和治理指标

  • 供应商评估 基于 ESG业务指标 例如:固定和变动成本、质量、社会责任

  • 决策 使用线性规划

    例如:决定一组供应商,以最小化利润,同时尊重 ESG 评分的最低水平

这是一场真正的游戏规则改变者,因为它可以帮助采购团队 使其采购策略与公司的 ESG 路线图对齐

💡 关于可持续采购分析的更多细节,

## 可持续采购的数据科学

如何使用数据科学来选择最佳供应商,考虑可持续性和社会指标…

towardsdatascience.com

使用线性规划来帮助决策。

示例 2:ESG 友好的预算规划

线性规划还可以帮助你 指导你的投资,选择支持公司 ESG 路线图的项目。

让我们设想一下国际物流公司的预算分配场景。

一位区域总监收到 17 位仓库经理 的预算申请,这些项目将影响未来三年。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

物流公司预算规划的示例 — (作者提供的图像)

对于每个预算申请,经理包括

  • 项目描述(设备采购、翻新等)

  • 未来三年的年度预算

  • 投资回报率 = (成本减少 + 额外收入)— (总成本)

  • 影响业务发展、生产力或 ESG 指标 的附加收益

我们的主管必须根据财务方面(投资回报率)和 ESG 标准来决定将预算分配给哪个项目。

如何在满足 ESG 要求的同时最大化投资回报率?

通过线性规划,我们可以 自动化 选择那些在尊重 CSR、HSE 或可持续性约束的情况下最大化投资回报率的项目。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

决策过程 — (作者提供的图像)

  • 参数: 每个项目的布尔值(1:已选择,0:未选择)

  • 约束条件: 业务发展和 ESG 收益

  • 目标函数: 最大化投资回报率

通过设置高层管理规定的 ESG 目标,我们的主管可以确保所选项目将支持公司的长期战略。

💡 关于 ESG 友好型预算规划的更多细节,

## 使用线性规划自动化预算规划

选择那些最大化投资回报的项目,同时遵循管理指南并尊重预算…

[towardsdatascience.com

你需要一个供应链优化应用程序吗?

示例 3:供应链网络优化

提升您的 ESG 评分的一个好方法是推动您的绿色和伦理转型。

可持续供应链优化是一种结合了成本效益与可持续性的激动人心的方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可持续供应链优化问题——(图片由作者提供)

您可以,

  1. 每个市场位置的需求(单位/月)

  2. 一组具有不同生产成本环境影响、社会治理评分的潜在制造地点

  3. 每单位的环境足迹限制、社会和治理评分

最可持续(且经济上可行)的组合是什么?

通过先进的分析工具,您可以设计一个工具来测试多个场景

  • 如果我想最小化成本怎么办?

    我能达到我的 ESG 目标吗?

  • 如果我想最小化 CO2 排放怎么办?

    我能保持盈利水平吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

比较不同场景——(图片由作者提供)

我已经在网上部署的网页应用程序中实现了这样的模型:

  1. 上传您的市场需求数据**(单位)每市场**

  2. 添加您的制造足迹数据:按位置划分的工厂,包括*(成本、CO2 排放、资源使用和社会评分)*

  3. 选择目标函数:最小化成本、CO2 排放或资源使用

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

三种具有不同目标函数的场景——(图片由作者提供)

您可以快速从一个目标切换到另一个目标,以决定最可行的解决方案。

💡 如果您想尝试这个工具,我已分享一个可在线访问的 POC

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可持续供应链优化应用程序——(图片由作者提供)

您听说过循环经济吗?重复使用或租赁以代替浪费。

示例 4:循环经济的模拟

循环经济是一种旨在减少废物和最大化资源效率的经济模式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

循环经济的订阅模式 — (作者提供的图像)

一些公司实施了订阅模式,顾客支付定期费用,以在特定时间内访问产品或服务。

一位顾客希望租用一件连衣裙 2 周。

  • 连衣裙可以在商店取货。

  • 该物品使用两周。

  • 顾客归还物品,物品随后被收集。

  • 在收集后,物品会被检查和清洁,然后再送回商店。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

案例研究的参数 — (作者提供的图像)

因此,一件制造过一次的连衣裙可以被多个顾客使用。

使用此模型我们可以减少多少 CO2 排放?

我开发了一个基于销售数据的模拟模型,估算了不同租赁周期下的 CO2 节省量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

研究结果 — (作者提供的图像)

结果令人震惊,

  • 短期租赁的减排率为 75%

  • 长期租赁周期会影响网络的效率。

💡 欲了解更多关于本研究的详细信息

## 可持续发展的数据科学 — 模拟循环经济

使用数据科学模拟循环模式对快速时尚的 CO2 排放和水使用的影响…

towardsdatascience.com

这些示例让你了解了数据分析如何帮助你改善 ESG 报告,并实现高层管理设定的目标。

结论

随着 ESG 报告的普及,数据分析在提高其准确性和效率方面的作用预计将不断增长。

未来可能会开发专门针对 ESG 报告的高级解决方案。

如何自动化数据收集和处理?

商业智能自动化过程

商业智能是一种利用软件和服务将数据转化为可操作的智能,支持决策制定的过程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

商业智能的 5 个步骤 — (作者提供的图像)

这些解决方案可以自动化 ESG 报告过程,从数据收集到分析和决策。

💡 欲了解更多信息

什么是商业智能?

探索应用于供应链优化的数据驱动决策工具。

towardsdatascience.com

通过利用这些工具,公司可以改善其 ESG 报告,并获得宝贵的见解以推动其可持续发展战略。

超越 ESG,迈向可持续发展目标(SDGs)

可持续发展目标(SDGs)是联合国制定的17 个目标,旨在应对全球挑战。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这 17 个目标可以分为 5 个类别 — (作者提供的图片)

将这些目标融入我们的操作框架是道德上的必要性,也是推动创新和提高效率的绝佳机会。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

面向以人为本的先进分析工具 — (作者提供的图片)

通过数据分析,我们可以支持这些 17 个目标的设计和实施,从而提升你的 ESG 评分。

要深入了解数据分析如何支持这些目标,

## 可持续发展目标是什么? (SDGs)

将全球可持续发展倡议与公司供应链数字化转型通过数据科学相结合

s-saci95.medium.com

关于我

让我们在 LinkedinTwitter 上联系。我是一名供应链工程师,利用数据分析来改善物流运营和降低成本。

如果你对数据分析和供应链感兴趣,可以查看我的网站。

## Samir Saci | 数据科学与生产力

一个专注于数据科学、个人生产力、自动化、运筹学和可持续发展的技术博客

samirsaci.com

💡 关注我在 Medium 上的文章,获取更多有关 🏭 供应链分析、🌳 可持续发展和 🕜 生产力的内容。

参考文献

什么是生成性 AI?全面指南

原文:towardsdatascience.com/what-is-generative-ai-a-comprehensive-guide-for-everyone-8614c0d5860c

了解机器学习在生成性 AI 中的作用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 Mary Newhauser

·发布于 Towards Data Science ·15 分钟阅读·2023 年 10 月 3 日

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供。

本文最初发表于 GPTech

乍一看,生成性 AI 看起来像纯粹的魔法。但一旦你开始揭开这个迷人技术背后的层层面纱,你会发现它本质上是一个统计过程,既有令人印象深刻的结果,也有关键的局限性。

从最广泛的意义上讲,生成性 AI 是一种人工智能,它基于从现有数据中学习到的模式创建新内容。也许生成性 AI 最明显的例子是预测搜索。谷歌在用户多年来输入的数十亿个搜索查询上训练了一个大型语言模型(LLM),然后尝试预测你自己搜索查询中的下一个词。

但与最近在生成性 AI 方面的进展相比,预测搜索显得有些过时,甚至原始。生成性 AI 现在可以用来编写从新的 《宋飞传》剧集学术文章 的一切,基于文本提示合成图像,甚至 制作歌曲 以著名艺术家的风格。

尽管有很多炒作,但仍然存在令人担忧的原因。由生成性 AI 驱动的聊天机器人可能产生不准确和有毒的回应,政治家和公众人物的深度伪造视频可能被用来传播虚假信息,而各种模型也可能被用来加深现有的人类偏见。

很明显,生成性 AI 将会影响劳动、工业、政府,甚至是人类的定义。为了与生成性 AI 共存,我们需要了解它是如何工作的以及它所带来的风险。本文将解释什么是机器学习模型,讨论判别模型与生成模型的区别,探索生成模型的一些实际应用,并涉及它们的风险和局限性。

机器学习模型

人工智能是一个广泛的术语,描述了一种能够执行模仿人类智能的任务的技术,例如需要推理、问题解决、决策或语言理解的任务。

机器学习是 AI 的一个分支,其中“机器”(算法)从数据中“学习”模式和关联,以执行特定任务。这就是它的工作原理:

  1. 定义任务。 我们需要做的第一件事是定义我们希望模型执行的任务。这可能是将来邮件分类为垃圾邮件或非垃圾邮件,基于销售数据预测未来收入,根据客户行为将客户分组,基于购买历史向客户推荐新产品,或者根据给定的文本提示创建图像。

  2. 选择模型。 影响我们选择哪种类型模型的因素有很多。我们在前一步定义的任务,加上可用数据的性质和数量,以及模型在现实世界中的使用方式(以及使用者)都会影响我们选择的模型类型。

  3. 收集(和清理)数据。 接下来,我们收集希望模型学习的数据。我们通过删除异常值和损坏的数据来清理数据,并将其组织成表格格式。

  4. 可选:拆分数据。 在从数据中学习时,我们通常会留出一部分(通常是 80%)来构建我们的知识,这被称为训练数据。然后我们使用剩下的部分(通常是 20%),这被称为验证数据,来检查我们学习的效果。这个过程帮助我们查看我们对训练数据的理解是否能够适应新信息。

  5. 训练模型。 接下来,我们将空模型投入使用,让它尽可能从训练数据中学习。这被称为训练过程,因为模型正在被训练(即学习、研究和分析数据中的关系)。我们可以通过选择参数来稍微指导模型,并在某些方向上推动它。

  6. 评估模型。 在将模型发布到实际应用之前,我们希望通过查看它在某些指标上的得分,如准确率、精确率、召回率和 F1 分数,来了解它的表现。如果我们有验证集,我们可以要求模型在验证集上执行所选任务,并查看其准确性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图像。

机器学习是一个复杂的、迭代的、不断发展的过程。大多数关注集中在模型训练步骤上,但实际花费的大部分时间在于数据收集和清理步骤。就像石油和天然气等化石燃料通过复杂的管道系统从一个地方运输到另一个地方一样,数据也有自己的管道系统。一旦管道建立并运行,它们需要持续的监控和维护,但达到这一点需要大量的工作。

但是,为了本文的目的,我们将专注于机器学习模型本身。为了有效理解生成式 AI,我们必须了解生成式和判别式机器学习模型之间的区别。

判别模型与生成模型

模型的工作是利用从数据集中学到的关联和模式来预测其他数据点的结果。这些预测以介于 0 和 1 之间的概率形式出现。由于概率是对不确定性的测量,并且在现实世界的情况下总是存在一定程度的不确定性,因此预测的概率永远无法等于确切的 0 或 1。

机器学习模型在生成数据点的预测概率方面的方法各异。在生成式 AI 的背景下,理解判别模型和生成模型生成这些预测概率之间的区别是很重要的。

判别模型

判别模型通过识别之前见过的例子之间的组或类别差异来学习预测数据的概率。

例如,逻辑回归模型可以预测二元结果的概率,例如,基于出勤率、学习时间、以前的考试成绩以及过去学生的通过/未通过状态,预测学生通过课程的概率。

参考下图,其中每个点被可视化为来自去年每个学生的出勤率、学习时间、以前的考试成绩和最终通过/未通过状态。给定每个学生的个体特征和最终结果,模型绘制了一个决策边界

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图像。

当面对新学生及其数据时,模型使用决策边界来预测他们是否会通过课程,该预测表示为 0(不及格)和 1(及格)之间的概率。数据点距离决策边界越远,模型对其预测的信心越大。

虽然判别模型在分类和回归等任务中可以很简单有效,但它们仅在能够访问足够的标记结果数据时才表现良好(过去学生的及格/不及格状态)。在现实任务中,这可能是一个严重的限制。这正是生成模型发挥作用的地方。

生成模型

生成模型通过仅学习输入数据的基础结构来预测数据的概率。

生成模型在研究和学习训练数据时非常出色,以至于它们不需要标记的结果数据,如上述示例所示。这意味着两件事:

  1. 生成模型可以预测数据的概率(就像判别模型一样,只是使用不同的方法)。

  2. 生成模型可以生成看起来与之前见过的数据(即训练数据)非常相似的新数据。

考虑一下确定一条亚马逊产品评论通常是正面还是负面的任务。在下面的插图中,每个点都被可视化为一个单独的评论,具有自己的风格、语气以及词汇和短语的独特组合。生成模型研究所有这些数据点,捕捉每条评论中的模式、结构和语言变化以及它们之间的关系

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自作者。

给定所有评论中的词汇和模式,生成模型计算这些词汇和模式在正面评论与负面评论中出现的概率。这个概率称为联合概率,定义为一组特征在数据中一起出现的概率。例如,模型可能会学到“broken”和“disappointed”这两个词经常一起出现在负面评论中,而“highly recommend”和“very satisfied”这两个词则经常一起出现在正面评论中。

最终,模型将运用它从训练数据中学到的所有知识来确定新未见过的评论被分类为正面或负面的可能性。生成模型与判别模型的不同之处在于,它们不仅能执行分类任务,还能在被提示时生成全新的数据。这意味着我们的亚马逊评论模型不仅能分类现有评论,还能撰写新评论。

在进行生成任务时,模型需要被提示。在这种情况下,已经训练过的评论模型会收到一个文本提示,并被要求猜测接下来哪些词汇出现。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自作者。

尽管在机器学习社区中仍有争议,解释模型生成新文本的最简单方式是说它根据模型训练时的文本和提示中的文本预测下一个词。在下面的例子中,模型预测“smoothies”是最有可能出现在回应中的词。这受到了模型从训练数据中学到的“smoothies”和“shakes”与“blender”相关的事实的影响,以及我们的提示要求模型在回应中提到“smoothies”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来自作者。

鉴于在训练数据中“自行车”很少与“搅拌机”一起出现,并且我们的提示中没有提到“自行车”,模型可以安全地假设“自行车”不会是下一个词。

总结来说,生成式机器学习模型捕捉输入数据中的模式、结构和变化,这使得它们能够计算特征共同出现的联合概率。这使得它们能够预测现有数据属于某个类别(例如,正面或负面评论)的概率,并生成类似于训练数据的新数据。但这种“新数据”究竟是什么样的呢?事实是,机器学习模型生成的数据可以有多种形式,并服务于多种目的。

现实世界中的生成式 AI

自机器学习诞生以来,生成模型就被用于建模和预测数据。然而,近年来领域的进展,如 2014 年变分自编码器(VAE)和生成对抗网络(GAN)模型的出现,将生成技术提升到了新的高度,使模型能够合成完全新颖的图像。同样,2017 年首个生成预训练变换器(GPT)模型的推出标志着语言生成能力的重大飞跃,导致了一系列不断改进的语言模型,能够生成与人类编写的文本难以区分的文本。

尽管像 Meta 和 Google 这样的主要科技公司早已投资于 AI 研究,并且不断尝试通过每个发布的大型语言模型超越彼此,初创公司界也见证了对探索 AI 潜力,特别是生成模型的浓厚兴趣。根据 Dealroom 的数据,生成式 AI 初创公司总共筹集了超过 170 亿美元的资金,Dealroom 维护了一个极佳的 资金可视化图谱

让我们来看看这些公司如何通过生成文本、图像和音频的产品来利用 AI。

生成文本

生成文本是指使用 AI 模型生成连贯且上下文相关的句子。这些模型在大量文本数据上进行训练,能够模仿人类语言模式并生成新的文本。实际应用包括:

  1. AI 聊天机器人: OpenAI 的 ChatGPT 是迄今为止最强大的个人助手聊天机器人。它可以用于多种任务,包括文档摘要、文本风格转移、语言翻译和内容生成。虽然它是一个出色的通用工具,但许多公司进一步优化了 ChatGPT 的底层模型,以创建在完成特定下游任务方面更好的产品。

  2. 内容生成: Jasper AI 提供了一个可定制的生成式 AI 平台,满足企业的特定需求,提供与公司品牌一致的量身定制内容,并支持在各种平台和应用程序中访问,包括将其技术直接集成到企业产品中的选项。

  3. 语言纠正: Grammarly 提供了一系列应用程序,提供跨许多应用和网站的集成写作辅助,特别强调确保无错误写作。他们的服务无缝集成到各种应用中,如 Microsoft Office、Google Docs 和 Gmail,通过其便捷的插件。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供。

生成图像

生成图像涉及通过 AI 模型创建新的、原创的图像,通常通过从现有图像的数据集中学习。这个艺术与技术的迷人交汇点有许多应用,包括:

  1. 艺术图像生成: Adobe Firefly 利用传统 Adobe 产品的能力,包括 Illustrator 和 Photoshop,通过简单的文本提示让用户创建、编辑和操控图像。Stability AI 提供了类似的图像编辑和生成产品 Clipdrop,该产品最近推出了令人着迷的 Uncrop 工具,它利用生成 AI 扩展照片的背景。

  2. 演示和视觉叙事: Tome 使你能够轻松制作引人入胜的现代演示文稿,顺畅地整合来自各种来源的文本和图像,如提示、创意简报,甚至不同的文档格式,如网站。

生成音频

生成声音是指使用 AI 模型生成新的音频元素,包括音乐、语音和音效。这些模型可以从现有的音频数据中学习并生成新的、独特的声音。以下是一些现实世界的应用案例:

  1. 音乐制作: Soundraw 是一个由 AI 驱动的音乐生成器,提供了一个免版税曲目库,让创作者能够为他们的内容项目制作原创歌曲,同时确保对他们的音乐作品拥有完全的所有权和许可控制。

  2. 语音合成: Wellsaid 允许你自动生成高质量的文本语音,并提供一个头像语音库以及创建你自己声音的机会。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片由作者提供。

生成 AI,通过变分自编码器 (VAE) 和生成对抗网络 (GAN) 等模型显著进步,正在重塑多个领域,投资超过 170 亿美元。现实世界的应用包括文本生成,AI 可以生成类人语言模式,图像创建,提供生成新颖图像的能力,以及音频制作,新声音可以被合成。这些应用标志着生成 AI 在生产风格和质量日益接近人类生成内容的潜力不断扩展。尽管最近 AI 的进展确实令人兴奋,但同样重要的是要认识到其固有的风险和局限性。

生成 AI 的风险和局限性

尽管关于生成 AI 与原子武器一样危险甚至更危险的担忧被夸大和渲染,但这项新技术确实给公众带来了真实的危险,并且具有严重的伦理影响。一些最关键的问题包括数据隐私、模型准确性以及生成有害内容的倾向,和 LLM 及其他生成模型的不道德使用。

数据隐私

关于生成 AI 的主要关注点之一是数据隐私。这些 AI 模型是在大量数据上进行训练的,其中一些可能包括敏感或受版权保护的信息。尽管通常会采取措施在训练模型之前对数据进行匿名化和清理,但无意中泄露数据的潜在风险仍然是一个重大关注点。此外,生成 AI 几乎总是需要一个提示才能开始,而提示中包含的信息可能是敏感的或专有的。这令人担忧,因为一些 AI 工具如 ChatGPT 会将你的提示反馈到基础语言模型中。2023 年 4 月,三星禁止在公司内部使用 ChatGPT,因为发现几名员工不小心泄露了用于测量半导体设备的软件源代码。

[## 彭博社

编辑描述

www.bloomberg.com](https://www.bloomberg.com/news/articles/2023-05-02/samsung-bans-chatgpt-and-other-generative-ai-use-by-staff-after-leak?ref=gptechblog.com&leadSource=uverify+wall&source=post_page-----8614c0d5860c--------------------------------)

准确性与有害内容

关于生成模型实施的另一个关注点是模型的准确性。LLM(大型语言模型)有产生幻觉的倾向,这意味着它们以完全令人信服的方式提供虚假信息。这些幻觉有可能在全球范围内传播虚假信息,并削弱公众对人工智能系统的信任。由于开源模型通常经历的后期模型调整过程较少(如果有的话),它们尤其容易“脱轨”,不仅仅是产生幻觉,还可能生成彻底有害的内容。2023 年 3 月,国家饮食失调协会关闭了其人工操作的电话热线,并用一个聊天机器人替代,但该机器人在上线后给一位独立测试机器人的心理学家提供了有问题的减肥建议。

[## 一款健康聊天机器人因其‘有害’的减肥焦点而下线

人工智能工具 Tessa 由国家饮食失调协会推出,旨在…

www.nytimes.com](https://www.nytimes.com/2023/06/08/us/ai-chatbot-tessa-eating-disorders-association.html?ref=gptechblog.com&source=post_page-----8614c0d5860c--------------------------------)

不道德使用

截至本文发布时,还没有通过任何重要的立法来规范 AI 的创建和应用。因此,恶意行为者在利用这些工具进行恶意行为时似乎拥有完全自由

生成视频技术的滥用很快显现出来,当它被用于通过传播深度伪造色情内容来骚扰和威胁女性时。在 2023 年 3 月,联邦贸易委员会发布了一份声明,提醒大家警惕,因“语音克隆”技术的出现,钓鱼骗局变得更加复杂。语音克隆是一种训练在短音频片段上的 AI,可以通过文本让其说几乎任何内容。

[## 深度伪造色情内容给受害者带来了创伤,但大多数人无能为力

深度伪造色情内容的受害者正在发声,呼吁对施虐者缺乏保护。一项新法案可能会改变这种状况。

www.teenvogue.com](https://www.teenvogue.com/story/deepfake-porn-victims-are-seeking-federal-protections-through-a-new-bill?ref=gptechblog.com&source=post_page-----8614c0d5860c--------------------------------)

总之,尽管生成 AI 已经取得了令人惊叹的进展并充满了巨大潜力,但我们必须意识到其风险和局限性,特别是在目前缺乏立法监管其创建和使用的情况下。这意味着要花时间认真权衡使用生成 AI 的潜在好处与不良后果,考虑伦理问题。以下是一些提示,帮助你更安全、更谨慎、更加道德地使用生成 AI 产品:

  • 阅读(或至少浏览)隐私政策。

  • 不要上传任何私人内容(文本、图片、视频),以免这些内容被反馈到产品的基础模型中。

  • 如果你在商业中使用预训练的生成模型,务必阅读模型的许可证。

  • 验证聊天机器人的响应是否符合主要来源。

  • 研究基础模型的特定偏见和局限性。

结论

在本文中,我们讨论了生成机器学习模型的关键方面,特别是它们区分各种数据类型的能力以及创建与现有数据非常相似的新数据的能力。生成模型的质量在过去十年中显著提高,导致对生成 AI 背后的公司和技术的投资激增,特别是在生成文本、图像和音频方面。

然而,随着这种兴起也带来了诸如数据隐私、模型准确性和创建有害内容等伦理问题。我们必须继续监控这些问题,并在使用生成式 AI 产品时保持个人警惕和意识。

这篇文章最初发布在 GPTech

如果您想保持最新的数据科学趋势、技术和工具,考虑成为 Medium 会员。您将获得对像 Towards Data Science 这样的文章和博客的无限访问,并支持我的写作。 (每个会员我会获得小额佣金)。

[## 通过我的推荐链接加入 Medium - Mary Newhauser

作为 Medium 会员,您的会员费的一部分会分配给您阅读的作者,并且您可以完全访问每个故事……

medium.com](https://medium.com/@mary.newhauser/membership?source=post_page-----8614c0d5860c--------------------------------)

想要联系吗?

  • 📖 在 Medium 上关注我

  • 💌 订阅 以便每次我发布新内容时收到邮件

  • 🖌️ 查看我关于生成式 AI 的新 博客

  • 🔗 查看我的 作品集

  • 👩‍🏫 我还是一名数据科学 教练

我还写过:

## 理解 ChatGPT 插件:优势、风险和未来发展

期待进步,而非完美。

towardsdatascience.com ## 从数据分析师转变为数据科学家的指南 2023

您需要的技能和资源,以便从数据分析师转变为数据科学家职位。

towardsdatascience.com ## 清洁 Pandas 代码的终极参考

清洁文本数据的简洁方法

towardsdatascience.com

参考文献

  1. Parrish, A. (2023 年 2 月 1 日). 这个 AI Seinfeld 直播到底是怎么回事? The Verge.

  2. Williams, A. (2023 年 3 月 23 日). 使用 ChatGPT 撰写的论文展示了 AI 在学术界的机遇和挑战科学日报.

  3. Coscarelli, J. (2023 年 4 月 19 日). 虚假的“Drake”和“The Weeknd”AI 音乐震撼音乐界纽约时报.

  4. IBM. (无日期). 什么是人工智能(AI)?IBM.

  5. IBM. (无日期). 什么是机器学习? IBM.

  6. Ngo, T. (2023 年 2 月 26 日). ChatGPT 并不仅仅是“预测”下一个词LinkedIn.

  7. Kingma, D. P., & Welling, M. (2014). 自编码变分贝叶斯。在国际学习表征会议中。

  8. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). GAN(生成对抗网络)日本模糊理论与智能信息学会期刊, 29(5), 177。

  9. Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). 通过生成预训练提高语言理解。预印本。

  10. Ullmer, F. & Chiavarini, L. (2023 年 6 月 9 日). 生成性 AI 初创公司Deal Room

  11. Gurman, M. (2023 年 5 月 2 日). 三星禁止员工使用 AI 后发现 ChatGPT 数据泄露彭博社.

  12. McCarthy, L. (2023 年 6 月 8 日). 一款健康聊天机器人因关注体重减轻而下线纽约时报.

  13. Latifi, F. (2023 年 6 月 7 日). 深度伪造色情受害者通过立法寻求联邦保护Teen Vogue.

  14. Puig, A. (2023 年 3 月 20 日). 骗子利用 AI 提升他们的家庭紧急情况骗局FTC 消费者建议。

  15. Evans, K. (2023 年 5 月 10 日). AI 最佳实践:如何安全使用像 ChatGPT 这样的工具信息安全.

什么是绿色洗涤,我们如何利用分析检测它

原文:towardsdatascience.com/what-is-greenwashing-and-how-to-use-analytics-to-detect-it-15b8118031?source=collection_archive---------2-----------------------#2023-08-10

探索数据分析如何帮助我们检测和防止绿色洗涤,以促进真正的可持续发展。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 Samir Saci

·

关注 发表在 Towards Data Science ·9 分钟阅读·2023 年 8 月 10 日

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用数据检测绿色洗涤 — (图片由作者提供)

绿色洗涤是指对产品或服务的环境益处做出误导性声明,以传达虚假的可持续性形象。

我们如何利用分析帮助世界对抗绿色洗涤?

这种修饰或掩盖虚假信息的行为已经成为一个普遍的挑战,因为公司们寻求环保意识强的消费者的关注。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

绿色洗涤的五大罪恶 — (图片由作者提供)

在这篇文章中,我们将深入探讨绿色洗涤及其表现形式。

我们将通过案例研究展示如何使用数据分析来检测和防止这些不道德的做法。

💌 免费直接发送到你的收件箱的新文章:Newsletter

📘 你的供应链分析完整指南:Analytics Cheat Sheet

Summary
I. Understanding Greenwashing
1\. What is Greenwashing?
2\. Examples of Greenwashing
3\. Greenwashing x Data Analytics
II. Data Analytics for Greenwashing Detection
1\. The difficult task of detection
2\. Natural Language Processing (NLP)
3\. Change Point Analysis
4\. Regression Analysis
5\. Network Analysis
III. Conclusion

理解绿色洗涤

我在进行第一次 supply chain sustainability project.时发现了绿色洗涤。

作为供应链解决方案经理,我的任务是估算客户物流操作的环境足迹。

一家销售一次性塑料产品的公司怎么可能声称自己是碳中和的?

看到一些竞争对手的主张令人惊讶,因为他们生产和销售的产品类似。

这篇文章旨在展示分析工具如何帮助你检测这种虚假声明。

绿色洗涤是什么?

绿色洗涤是“绿色”和“粉饰”的合成词。

组织利用这种不诚实的做法来制造虚假的环保责任印象。

目标是利用客户和投资者对环保产品日益增长的需求。

最常见的绿色洗涤形式包括,

  • 模糊性:使用没有明确定义或证据的未定义术语,如**“环保”“全自然”**。

    例如,一家公司将产品标记为“100%天然”,却没有透露这些天然材料是以不可持续的方式获取的。

  • 无关性:突出显示一种对产品环境影响不重要或无关的环保特性。

    例如,一家公司强调其产品“无 CFC”,而氯氟烃已被禁止了几十年。

  • 隐性权衡:宣传产品的一个环保方面,同时忽视其他重大影响。

    例如,一家纸业公司宣传其使用回收纸,但没有提到生产和物流过程中的能源消耗和碳排放。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

绿色洗涤是什么? — (图片来源:作者)

当你看到广告宣传天然来源的回收 T 恤时,请考虑:

  • 获取这些“天然原材料”所使用的能源、电力和水的数量。

  • 回收过程产生的额外二氧化碳排放和废物。

通过生命周期评估 (LCA),你可以使用数据驱动的方法来评估这些影响,通过考虑整个产品生命周期并避免这种陷阱。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你的“100%天然”回收 T 恤的生命周期评估 — (图片来源:作者)

这个想法是估算特定产品或服务的采购、生产和使用的环境影响。

这需要使用商业智能工具从多个来源收集和处理数据。

💡 更多详情,

## 什么是生命周期评估?LCA

了解生命周期评估如何帮助企业评估产品在整个生命周期中的环境影响……

towardsdatascience.com

让我们分析一些实际的例子。

绿色洗白的例子

几个引人注目的案件将绿色洗白问题推到了风口浪尖。

  • 一家大型汽车制造商被发现使用软件在其标榜为“环保”的车辆中作弊排放测试。

  • 一家著名的水公司将其产品宣传为“碳负”而未承认从斐济岛运输瓶装水到全球市场的环境成本。

第二种情况可以通过基本的供应链分析和公开可用的数据轻松揭穿

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

供应链流动分析 — (图片来源:作者)

如何?

  1. 使用财务报告估算市场销售量

  2. 使用温室气体协议计算每瓶的排放量,从制造工厂到市场

  3. 将结果与公司发布的图表进行比较

💡 有关如何使用分析来估算 CO2 排放的更多细节

## 使用 Python 进行供应链可持续性报告

建立一个关于配送网络 CO2 排放的 ESG 报告的 4 个步骤。学习如何测量和减少你的碳……

towardsdatascience.com

除了报告之外,数据分析如何帮助我们检测这种欺诈行为?

绿色洗白与数据分析

了解绿色洗白的各种形式和影响,对于实施主动措施应对这一问题至关重要。

虽然监管机构和有意识的消费者在这场斗争中发挥了重要作用,但数据分析可以作为额外的推动力来自动化欺诈检测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用数据分析检测绿色洗白 — (图片来源:作者)

这个想法是利用……

  • 公开可用的数据:财务和可持续性报告、足迹数据库、社交媒体

  • 高级分析模型,包括 NLP、预测或统计模型以检测欺诈行为

以下部分将探讨如何使用这些工具来促进一个更透明和可持续的企业环境。

数据分析用于检测绿色洗白

检测的艰巨任务

鉴别绿色洗牌是一个复杂的任务,鉴于其表现的复杂性和可用信息的庞大量。

数据分析可以提供强大的工具,用于过滤大型数据集,识别模式和异常,以及提取有价值的见解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据分析用于绿色洗牌检测 — (作者提供的图像)

在接下来的章节中,我们将通过潜在欺诈的例子来探讨如何使用这些解决方案。

让我们开始文本分析。

自然语言处理(NLP)

NLP 在绿色洗牌检测中的主要应用是 情感分析

让我们考虑主要石油公司的例子。

他们定期发布可持续性报告和新闻稿,突出他们对环境保护的承诺。

我们手头的数据包括这些在其网站上的 PDF 文档。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

报告中的情感分析与二氧化碳排放 — (作者提供的图像)

一个 NLP 情感分析模型可以评估这些陈述背后的情感。

💡 如何检测绿色洗牌?

如果这些陈述传达了过于乐观的情感,而这些情感在实际环境表现指标中没有反映出来,这可能是绿色洗牌的迹象。

例如,上述例子

  • 2020 年二氧化碳总排放量激增:+26k 吨 CO2eq

  • 然而,情感评分却不断增加

实际的 可持续性表现 和报告中出售的叙述之间存在矛盾。

那么,关于可持续性指标呢?我们可以利用它们的趋势。

变点分析

变点分析识别数据序列中统计属性变化的点。

例如,一家主要的汽车制造商报告了二氧化碳排放量的突然减少。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

生产输出与排放的相关性潜在异常示例 — (作者提供的图像)

可用数据将包括公司报告的排放量和生产输出的时间序列。

💡 如何检测绿色洗牌? 变点分析可以检测这些减少是否与

  • 合法且持续的可持续性努力

  • 临时情况下这可能暗示绿色洗牌

我使用了一个二氧化碳排放虚拟数据集,并应用了 Python 库 ruptures

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

变点检测示例 — (作者提供的图像)

它检测到了第 9 年的重大变化,我们应该对此进行调查。

这是一个初步评估,减少可能是由于实际举措的影响。

你可以在可持续性报告中共享的详细举措中验证这一点。

💡 查看代码以获取此视觉效果,

你听说过相关性吗?

回归分析

回归分析可以帮助确定不同变量之间的关系。

例如,一家主要时尚品牌报告了可持续发展支出(欧元)和废料生产水平(吨)。

💡 如何检测绿色洗刷? 回归模型可以识别可持续发展支出增加是否导致废料生产的相应减少。

如果没有,这可能是绿色洗刷的迹象,需进行深入调查

  • 这**不是一个单变量问题,因为废料可能受到许多其他参数的影响(产品设计、原材料等)

  • 以产品为中心的方法(LCA)更适合追踪支出如何影响整个供应链的环境足迹

我们能否将公司与污染的供应商联系起来?

网络分析

网络分析有助于理解网络中实体之间的关系。

一家电子行业公司可能声称其产品来自可持续和道德的供应商。

💡 如何检测绿色洗刷? 数据应包括公司的供应商网络和第三方对供应商实践的报告。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 Python 的 Networkx 进行网络分析 — (图片来源:作者)

使用网络分析,我们可以审查供应商的可持续性关键绩效指标(例如 ESG 评分)及其连接。

如果网络中的节点有可疑的可持续性实践,这可能暗示潜在的绿色洗刷。

💡 了解如何使用 Python 实现网络图的更多细节

## 交通网络分析与图论

利用图论来优化零售公司的公路运输网络

towardsdatascience.com

这让你初步了解如何利用先进分析自动检测绿色洗刷和欺诈,使用公开数据。

结论

绿色洗刷的终结?

随着我们考虑未来的 ESG 法规,绿色洗刷与数据分析之间的联系将显著加深。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

报告类别示例 — (图片来源:作者)

这份非财务报告由组织使用,向利益相关者和金融机构传达其环境绩效(E)、社会责任(S)和治理结构的强度(G)

为什么这很重要?

随着客户和投资者对可持续性认识的提高,公司将发现隐瞒模糊或误导性可持续性声明的风险加大。

因此,在一个日益数据驱动的世界里,绿色洗涤将面临重大挑战。

💡 了解更多关于 ESG 报告的详细信息,

## 什么是 ESG 报告?

利用数据分析进行全面且有效的公司环境、社会和治理报告

[towardsdatascience.com

我们能否利用数据实际支持绿色转型?

足迹减少的数据分析

企业可以利用先进的分析技术设计和实施具有实际效果的举措,而不是制造虚假的声明。

例如,可持续供应链优化是一种数据驱动的方法,结合了成本减少足迹减少

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可持续供应链优化 — (图像来源:作者)

让我们假设你的公司正在全球范围内生产和销售商品。

工厂和配送中心应该设在哪里?

这是一个考虑了以下因素的优化模型,

  • 每个市场位置的需求(单位/每月)

  • 所有潜在的制造地点及其生产成本、环境足迹(CO2,资源)、ESG 评分

  • 环境足迹每单位的约束,社会和治理评分

最可持续(且经济上可行)的组合是什么?

  • 如果你想专注于盈利,如何最小化成本

    我们能尊重环境目标吗?

  • 如果你想专注于可持续性,如何最小化 CO2 排放

    我们能保持盈利水平吗?

💡 了解更多关于此应用程序的信息,

## 创建可持续供应链优化网页应用

帮助你的组织将可持续采购与供应链优化相结合,以减少成本和环境影响……

[towardsdatascience.com

💡 在 Medium 上关注我,获取更多关于🏭供应链分析、🌳可持续性和🕜生产力的文章。

关于我

让我们在LinkedinTwitter上联系。我是一个利用数据分析改善物流运营和降低成本的供应链工程师。

如果你对数据分析和供应链感兴趣,请查看我的网站。

[## Samir Saci | 数据科学与生产力

一个专注于数据科学、个人生产力、自动化、运筹学和可持续发展的技术博客

samirsaci.com

参考文献

  • 使用 Python 进行供应链可持续性报告,Samir Saci,Towards Data Science

  • 使用图论进行交通网络分析,Samir Saci,Towards Data Science

  • 创建可持续供应链优化的网页应用,Samir Saci,Towards Data Science

什么是智能过程自动化(IPA)?

原文:towardsdatascience.com/what-is-intelligent-process-automation-ipa-547d60df0590

人工智能正在改变许多行业,现在也在自动化工具中改变游戏规则。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 Patrick Meyer

·发表于Towards Data Science ·阅读时间 9 分钟·2023 年 2 月 11 日

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:克莱顿·卡尔迪纳利Unsplash

介绍

企业不能再忽视竞争对手和客户的数字化转型。这种数字化意味着掌握自己的流程及其优化状态。此外,人工智能是改变公司运营模式及其向客户提供产品和服务方式的新革命。

将不同的自动化技术与业务服务结合起来,再加上 AI 技术,已成为一种迫切的需求。IPA 解决方案的供应商已完全理解这一问题,因为他们在解决方案中整合了越来越多的 AI。为了理解通过 AI 实现自动化的价值,了解每种技术在自动化过程管道中的贡献至关重要。

内容

  1. 一般的智能过程自动化(IPA)

  2. 任务与过程挖掘(TM/PM)

  3. 机器人过程自动化(RPA)

  4. 业务流程管理(BPM)

  5. 智能自动化(IA)

  6. 智能虚拟助手(IVA)

  7. 智能文档处理(IDP)

  8. 一个例子!

  9. 最终…

1. 一般的智能过程自动化(IPA)

Quadrant Knowledge Solutions 将“智能过程自动化(IPA)定义为将机器人过程自动化(RPA)与过程挖掘、人工智能(AI)、智能字符识别(ICR)、光学字符识别(OCR)和高级分析等技术相结合的解决方案和服务。”

IPA 解决方案和服务也被称为超自动化、智能自动化和数字过程自动化(DPA)。

他们利用 RPA、BPM、人工智能、OCR、ICR 以及任务和过程挖掘,通过端到端自动化业务流程来改善业务运营。

IPA 的解决方案和服务通过能够自主学习和利用分析工具收集的上下文信息在正确的时间采取行动,为客户提供价值。

IPA 还提供了定制的数据挖掘、内容处理和决策模型组件,以实现更智能的业务流程。

2. 任务与过程挖掘(TM/PM)

过程挖掘是一种方法,通过分析信息系统(ERP、CRM 等)生成的事件日志,来实现业务流程的发现、监控和优化。

任务挖掘允许执行与过程挖掘相同的操作,但通过记录任务在用户工作站上的执行,特别是借助人工智能(AI)。

这些技术将使公司流程和操作规则的自动发现成为可能。

其优点包括路径的自动化规范化、过程监控以及实施数字双胞胎的帮助。

这些任务挖掘技术可以通过启用用户操作的发现、规范化和监控,作为 RPA 的良好引导。人工智能在这一层面广泛应用于识别用户操作的元素。人工智能驱动的分析技术也被用来预测自动识别的改进工作流机会的时间和成本影响。

这些解决方案通过引用如用户名、文件夹 ID 等恒定标识符来收集数据(事件日志或屏幕截图)。然后分析这些数据,以生成关于用户行为的报告,并帮助生成过程图。

探索的用例:

  • 过程发现,

  • 合规检查,

  • 过程改进,

  • 变更模拟,

  • 监督。

3. 机器人过程自动化(RPA)

机器人过程自动化是一种用于自动化用户重复性活动的技术。

这些技术是非侵入性的,通常通过软件应用程序的用户界面进行交互。

RPA 场景范围从创建一个自动响应电子邮件,到部署数千个机器人,每个机器人都被编程以在一个或多个系统上自动化工作。

适用于 RPA 的过程包括那些涉及大量重复人工处理的任务,如分类电子邮件、下载附件、将文件中的值输入到业务应用程序中等。

适用性:

  • 现有流程,

  • 体积测量与持续时间,

  • 手动输入,

  • 标准与例外,

  • 时间段。

RPA 解决方案通常配备图形工作室,用于记录用户在其工作站上的工作,录制过程的编辑器,以及用于启动和监督机器人的平台。

RPA 解决方案具有额外功能:规则引擎、文档理解(发票、订单等)、IDP 和智能自动化工具,如图像识别、电子邮件分类、语言检测等。

成熟的 RPA 解决方案已经发展成完整的 IPA 平台。

4. 业务流程管理(BPM)

业务流程管理(BPM)提供了业务流程的概述:它们的组织及其相互作用,以尽可能优化和自动化这些流程。

BPM 通常与 BPMN 形式主义以及通过 BAM 监控流程相关联。

BPMN(业务流程模型和符号)是一种用于描述组织价值链和业务活动的业务流程建模方法,以图形化形式呈现。

BPMN 提供了一种所有自动化利益相关者都能理解的符号:业务分析师、设计师和负责实施自动化流程的开发人员。

业务活动监控(BAM)涉及与业务流程相关的数据的实时获取、汇总、分析和展示。

BAM 仪表板显示关键绩效指标,这些指标总结了关键业务活动的健康状况。

BPM 平台包括:

  • BPMN 和/或规则建模能力,

  • 用于管理建模元数据的流程库,

  • 流程执行引擎,

  • 状态和/或规则管理引擎。

一个用于采购请求业务流程的 BPMN 图示,显示采购和会计部门之间的流程

BPM 允许信息传输自动化,并促进采购部门对请求的批准。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一种具有正常流程的业务流程模型和符号的示例(来源:维基百科 - Mikelo Skarabo — CC BY6SA 4.0)

与 RPA 供应商类似,AI 驱动的工具现在也成为 BPM 解决方案的一部分。

5. 智能自动化(IA)

智能自动化(IA),有时也称为认知自动化,是利用机器学习(ML)技术和自然语言处理(NLP)技术来简化和调整组织中的决策过程。

机器学习和复杂算法可以用来分析结构化和非结构化数据。

这使得公司能够开发知识库并从现有数据中进行预测。

算法解释性和可持续性(绿色计算)的概念在基于 AI 的方法中需要考虑,特别是在 AI 涉及关键系统时。

使用案例的示例:

  • 故障预测,

  • 焊接视觉分析,

  • 下一步最佳行动的推荐,

  • 基于文档的维护协助,

  • 自动回复电子邮件,

  • 简历摘要,

  • 应聘者通信,

  • 需求预测,

  • 诊断协助,

  • 欺诈检测,

  • 路径优化。

6. 智能虚拟助手(IVA)

智能虚拟助手(IVA)是直接与用户互动的计算机程序。在这个类别中,有对话助手,它们是设计用于通过自然对话界面(如语音或文本)实时与用户互动的计算机系统。这些解决方案通常被称为聊天机器人。IVA 使用由机器学习和自然语言处理技术支持的 NLP 技术。目前讨论最多的对话助手是来自 OpenAI 的 ChatGPT。

对话助手可以用于执行各种任务,如回答问题、搜索互联网、安排预约、控制连接设备等。

对话助手通常基于不同的技术,如语音识别、语音生成、自然语言理解、神经网络和深度学习。

尤其是,它们可以在不同的渠道上部署:

  • 移动应用程序,

  • 社交网络,

  • 网站,

  • 连接盒,

  • 接待终端,

  • 元宇宙。

对话助手越来越多地用于改善用户体验、自动化重复的支持任务以及为用户提供自助服务解决方案。

到目前为止,有数百种解决方案允许用户配置自己的助手。

在互联网环境中,用户界面已变得相对标准化,方便用户访问。

对话助手的应用场景不仅限于客户服务,还包括人力资源支持、IT 帮助台、销售、市场营销以及供应链/采购等领域……

7. 智能文档处理(IDP)

智能文档处理解决方案是任何从文档中捕获数据、对数据进行分类并提取相关数据以进行进一步处理的产品或软件解决方案。

文档的示例包括:

  • 电子邮件,

  • 商务文档,

  • 合同,

  • 发票,

  • 订单,

  • 简历……

处理基于计算机视觉、光学字符识别和自然语言处理。处理步骤包括对捕获的图像进行预处理(图像校正)、对文档进行分类、提取数据和验证提取的数据。处理结束后,产品或软件解决方案会返回结构化数据,这些数据可以被计算机程序、RPA 脚本、自动化过程等轻松处理。

处理可能需要人工干预来验证或纠正提取的信息。这种处理被称为“人机协作”。

8. 一个示例!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

照片由 Alex Kotliarskyi 提供,来源于 Unsplash

Chapati 每天接收数千封电子邮件。公司中有几个人负责分类这些邮件,处理订单,然后回答关于某些先前订单状态或产品的问题。这些员工会处理每封包含订单的电子邮件,打开完成的扫描表单,根据指定产品的列表进行检查,在公司的各种工具中提出请求,然后回应请求者。一些请求需要验证,员工会联系决策者以获得各种确认。

这家公司希望减轻员工的繁琐数据录入工作,以便他们能从事更有价值的活动,如帮助客户。因此,Chapati 公司启动了一个转型项目。由于他并未掌控各个流程的所有阶段,转型经理通过在负责分类和答复的工作站上放置代理,使用自动任务探索。生成的地图,利用任务挖掘(TM),随后被转化为包含活动和关联序列的图形表示(BPM)。由于公司内部应用程序没有 API,实施了 RPA 脚本来模拟员工的输入工作。根据订单产品的特征,系统自动向决策者请求验证(“人机互动”)。

在业务工作流中,使用电子邮件连接器来检索请求,基于 AI 的子程序用于对这些请求进行分类(请求分类)。根据排序结果,提取订单,并使用智能文档处理(IDP)提取扫描文档中的信息。最后,智能虚拟助手(IVA)自动回答客户的剩余问题。

原本的分类员工现在进行客户咨询操作,从而增强了他们对公司内部操作和产品知识的了解。

9. 最后…

已经无法忽视消费者的数字化转型,并由此扩展到企业。对于公司而言,这种转型意味着对流程及其优化的控制。人工智能是当前正在深刻改变运营模式和产品及服务交付方式的革命。各种技术的结合,服务于公司,已经成为一种至关重要的需求。

然而,首先定义公司的目标是重要的:收入、成本和风险。这也需要对公司的流程、结构、优化水平以及在任何优化之前需要做出的修正有透彻的了解。

IPA 的贡献在于提供一个组织和技术框架,以汇集所有自动化技术来服务于业务流程。

结论

在考虑自动化时,重要的是首先了解业务流程,将这些流程分解为活动,然后确定哪些 IPA 组件最合适。

自动化解决方案提供商的格局正在发生变化,它们正逐渐成为 AI 丰富的套件。它们越来越多地融入基于机器学习的方法的模型。因此,不再仅仅以 RPA、BPM 等术语来思考,而是要理解 AI 的贡献以及这些技术带来的偏见。

要深入了解

[## 对话 AI:2023 年的 7 个趋势和预测

我提出了七个关于对话助手市场演变的新趋势和预测(通常称为…)。

pub.towardsai.net](https://pub.towardsai.net/conversational-ai-7-trends-and-predictions-for-2023-9a644becb90b?source=post_page-----547d60df0590--------------------------------) ## 14 个选择聊天机器人解决方案的标准

选择自然语言对话助手解决方案时,首先要考虑的标准是什么?

towardsdatascience.com ## 2020 年全球聊天机器人解决方案市场概况

来自我对对话助手市场的积极观察,我给出了一些统计数据和信息…

towardsdatascience.com [## 面向构建者的对话 AI:4 个复杂度等级

当你想要构建一个对话 AI 解决方案时,重要的是要记住对话通常遵循…

ai.plainenglish.io](https://ai.plainenglish.io/conversational-ai-for-builders-the-4-levels-of-complexity-scale-4eb482a862d9?source=post_page-----547d60df0590--------------------------------)

什么是学习排名:学习排名方法的初学者指南

原文:towardsdatascience.com/what-is-learning-to-rank-a-beginners-guide-to-learning-to-rank-methods-23bbb99ef38c

关于如何处理机器学习中的 LTR 问题的指南

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 Ransaka Ravihara

·发表于 Towards Data Science ·7 分钟阅读·2023 年 1 月 17 日

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源于 Possessed Photography,来自 Unsplash

介绍

本文将讨论学习排名究竟是什么。在深入了解内部工作之前,让我们快速了解一下理解所需的基本概念。

首先,让我们探究学习排名的核心直觉。在机器学习中,学习排名(LTR)属于监督学习,我们需要历史数据集来训练模型。但当我开始了解学习排名的概念时,我的第一个困惑是如何区分传统机器学习和 LTR。因为如果我们构建分类或回归模型,我们的因变量和自变量都很简单且更有意义。如果我们需要预测给定客户的贷款违约情况,我们必须将特定的特征向量输入到模型学习的函数 f(x) 中。它会返回客户违约的单一值或类别概率。但在学习排名模型中,这完全不同且令人困惑。

让我们举个简单的例子。

用户 A 访问一个网站并输入查询 q。在这种情况下,我们的系统返回了一些文档,换句话说,就是搜索结果,如下所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片作者

如果我们有一个好的排序模型,这些结果的相关性*®*应该是 r(d1) > r(d2) > r(d3)。在幕后,我们的模型应该为每个与该查询相关的文档返回相关性分数。因此,我们的模型应该学习一个函数,该函数以查询和文档作为参数,并为特定的查询-文档对生成相关性分数。然后我们可以进行一些计算,并以这种方式对文档进行排序,使得高度相关的文档获得更高的排名。

逐点排序

让我们讨论一下实现这一点的一种方法。首先,我们需要数据。为了简化,假设一个假设场景,其中我们有两个查询,q1, q2,以及它们各自的文档列表 [d1,d2,d3], [d5,d6,d7]

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图像

通常,我们知道 d1,d2d3 文档对 q1 是相关的,但对 q2 不相关,反之亦然。因此我们可以按如下方式填充样本。

*示例 1: d1,q1; 标签 :1

示例 2: d2,q1; 标签 :1

示例 3: d3,q1; 标签 :1

示例 4: d4,q2; 标签 :1

示例 5: d5,q2; 标签 :1

示例 6: d6,q2; 标签 :1*

如果你查看上述数据,这个问题现在被简化为一个传统的分类/回归问题,其中输入(查询文档对)与标签之间存在一对一的映射关系。

附加信息

要使用机器学习解决这个问题,你可以对查询数据和文档数据进行特征工程,然后将其输入到模型中,最终得到预测。一些理想且简单的特征工程是获取 john 和 sushi 在查询和文档中出现的次数。

信不信由你,你刚刚学会了一种叫做逐点排序的学习排序方法。

逐点排序是找到一个函数,该函数在给定查询的情况下返回每个文档的相关性。之所以称为逐点排序,是因为每个文档都根据真实目标值独立评分,就像传统的回归和分类任务一样。

让我们讨论一下逐点排序方法的优缺点。一方面,它的优点是简单。但这种简单性也带来了显著的缺陷,例如,

  1. 每个实例被视为一个孤立的点。

  2. 显式的逐点标签是创建训练数据集所必需的。

为了克服这些挑战,我们可以使用对偶排序方法。

对偶排序

在这里,目标是定义一个排序函数,以根据给定的查询对每个文档进行评分。然后将文档按照这些分数的降序排列,表示文档与查询的相对相关性。

在学习过程中,提供多个查询,每个查询都有一对相关文档。使用这些训练数据创建一个排序函数,以便模型可以预测未来查询的相关文档。

让我们以之前的sushi recipe 示例为例。与点对点排序方法不同,我们现在考虑每个查询的两个文档。例如,我们知道d1, d2d3q1相关。在这种情况下,所有可能的查询文档对应如下。

*示例 1: q1, (d1,d2)

示例 2: q1, (d1,d3)

示例 3: q1, (d2,d3)*

其中*(di,dj)表示文档ij的顺序。如果我们对文档ij* 应该如何排序有明确的标签,我们可以推导出*(di,dj)的标签。假设文档j的相关性评分为 3(高度相关),而文档i的相关性评分为 0(较少相关),对于查询q*。在我们的最佳排名中,文档i 应该排在文档j 之前。再次,这被简化为传统的分类任务。但不同于点对点排序,这种方法考虑了排名位置。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

在 LightGBM 的 lambdarank 目标中使用的成对损失函数。使用 LightGBM 的 Python 库,我们可以用几行代码训练这种最先进的 LTR 方法。

由于我们可以将其简化为分类任务,因此可以使用已知的方法论。它还将文档顺序纳入模型中。这也有一些缺点。尽管学习考虑了文档对的顺序,但目标并没有明确设置为对文档进行排序;相反,它试图减少文档对的分类错误。此外,当数据集中包含大量文档和查询对时,训练可能非常昂贵。文档的数量因查询而异,这导致模型对具有大量文档对的查询存在偏差。

列表排序

研究人员引入了一种新颖的列表排序方法,以克服 LTR 中的一些显著缺点。

在这种方法中,我们考虑的是文档的排序列表及其相关性标签,而不是文档对。

为了获得每个查询中文档的相关性标签,我们可以使用人工标注者或某个文档收到的点击次数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

在学习阶段,我们必须根据查询和文档对添加特征。如果i 代表查询的索引,j 代表文档的索引,我们可以定义特征向量如下。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

有了这个,我们可以定义每个文档-查询对的特征以及真实标签。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

最后,我们可以将训练实例表示为,

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者提供的图片

其中 m 是数据集中查询的数量。最后,创建一个排名函数 f,它为每个特征向量 x_ij 输出一个分数。然后获取一个分数列表 z_i

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片来源:作者

学习的目标是最小化相对于训练数据的总损失。当应用排名时,我们可以使用训练好的函数根据特征向量给新文档分配分数。然后按分数的降序对文档进行排序。

得益于这一学习过程,它可以学习列表中项目之间的关系,例如共现或依赖关系。凭借这一优点,它需要大量标记数据来学习列表中项目之间的关系;因此,训练和优化可能会计算量大。此外,listwise 方法在新领域或标记数据稀缺的细分领域中可能存在问题。

让我们总结一下我们在本文中学到的内容。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

LTR 方法的比较 | 图片来源:作者

系列中的下一篇文章: 如何评估学习排序模型

## 如何评估学习排序模型

关于如何评估机器学习中的 LTR 模型的实用指南

towardsdatascience.com

感谢阅读!

参考文献:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值