本文链接：https://blog.csdn.net/wgggfiy/article/details/134263913

北京时间11.7号凌晨2点

被称为首届 AI 春晚的 OpenAI DevDay 在旧金山举办。随着一系列新产品、新功能的发布，OpenAI 初步展示了它在大模型时代的生态布局。

在发布会的开始，Altman 报告了 OpenAI 平台和产品的一些数据：每周使用量达到 1 亿人次, 开发者数量达到 200 万，以及 92% 的财富 500 强企业在使用 OpenAI 产品。

github地址：https://github.com/xing61/xiaoyi-robot

比如：dall-e-3的生成图片

def images_generations():
    response = requests.post(
        # 智增增的API base_url
        "https://flag.smarttrot.com/v1/images/generations",
        headers={
            "Content-Type": "application/json",
            "Authorization": "Bearer "+API_SECRET_KEY  # 用您的智增增api_secret_key替换此处
        },
        json={
            "model": "dall-e-3",
            "prompt": "a dog sit on a plane",  # 图像描述
            "n": 1,  # 生成图像数量
            "size": "1024x1024",  # 图像大小
            "response_format": "url"  # 图像格式
        }
    )
    # 获取图像URL
    print(response.text)
    image_url = json.loads(response.text)["data"][0]["url"]

    # 下载图像
    response = requests.get(image_url)

    # 保存图像
    with open("cat.png", "wb") as f:
        f.write(response.content)

降价

更便宜更快速的 GPT-4 Turbo

OpenAI 发布了新的 GPT-4 Turbo，能力比现在的 GPT-4 更强。

了解截至 2023 年 4 月的互联网知识。
128K 上下文窗口，可以容纳相当于 300 多页的文本。
降价：价格比之前的 GPT-4 便宜，输入侧为 GPT-4 的 1/3 价格，输出侧为 GPT-4 的 1/2 价格。
函数调用更强了，可以一次性调用多个函数，准确性也更高。还有新的输出 json 模式。
GPT-4 Turbo 支持在聊天中输入图片，这也是现在 BeMyEyes 所使用的技术。开发者可以通过 api 使用此功能，gpt-4-vision-preview 定价取决于输入图像大小。例如，将 1080×1080 像素的图像传递给 GPT-4 Turbo 的成本为 0.00765 美元。
开放 Fine-Tune，支持修改模型训练过程的每个步骤，并且训练好后的模型是公司专属。
输出速率更快，每分钟的输出速度增加了一倍。

Assistants API / 助手 API

OpenAI 发布的类 agent 应用，开发者可以使用 Assistants API 执行特定指令、读取额外的知识库、调用模型和工具完成任务。配备了代码解释器、检索以及函数调用等工具。

Assistant API 拥有持久且无限长的线程，允许开发人员将线程状态管理移交给 OpenAI 并解决上下文窗口约束。
代码解释器：在沙盒执行环境中编写和运行 Python 代码，可以生成图形和图表，并处理具有多种数据和格式的文件。允许 Assistants 迭代运行代码来解决具有挑战性的代码和数学问题等等。
检索：利用模型之外的知识来增强助手，例如专有领域数据、产品信息或用户提供的文档。这意味着用户不需要计算和存储文档的嵌入，或实现分块和搜索算法。
函数调用：使 Assistants 能够调用定义的函数并将函数响应合并到其消息中。

16K 上下文的 GPT-3.5 Turbo

OpenAI 同时升级了 GPT-3.5 Turbo，上下文窗口升级到了 16k 长度

输入侧价格为之前的 GPT-3.5 16K 的 1/3，输出价格为 GPT-3.5 16K，Fine-tune 价格也同步进行了下调
支持改进的指令跟踪、JSON 模式和并行函数调用

DALL·E 3、TTS 开放api，可供开发者接入

Snap、可口可乐等公司使用 DALL·E 3 的 api 为客户生成图像，该 api 内置审核功能，可以保护开发者防止程序被滥用。

开发者可以方便地使用 TTS 的 api 将文本生成人类语音，TTS 模型提供六种预设语音、两种性别。

开源 Whisper v3 和 Consistency Decoder

Whisper 是语音转文字的代表软件，这次开源了 V3 版本，马上还要开放 Whisper v3 的 API。Consistency Decoder 是 Stable Diffusion VAE 的替代品，该解码器改进了与 Stable Diffusion 1.0+ VAE 兼容的所有图像，在文本、面部和直线方面有显著改进。