GPT-3后的Codex模型和自训练应用

朴拙数科

已于 2022-08-31 15:47:03 修改

阅读量2.3k

点赞数 1

分类专栏： NLP 数据清洗文章标签： nlp

于 2022-08-31 12:39:10 首次发布

原文链接：https://beta.openai.com/examples?category=code

版权

数据清洗同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

NLP

4 篇文章 0 订阅

订阅专栏

介绍
https://beta.openai.com/examples?category=code

Codex 模型系列是我们GPT-3 系列的后代，该系列经过自然语言和数十亿行代码的训练。它最擅长 Python，精通十多种语言，包括 JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL 甚至 Shell。在这个最初的私人测试阶段，Codex 的使用是免费的。了解更多。

您可以将 Codex 用于各种任务，包括：

将注释变成代码
在上下文中完成您的下一行或功能
为您带来知识，例如为应用程序查找有用的库或 API 调用
添加评论
重写代码以提高效率
要查看 Codex 的运行情况，请查看我们的Codex JavaScript 沙箱或我们的其他演示视频。
Codex JavaScript 沙盒
此示例应用程序使用 Codex 将自然语言指令翻译成 JavaScript。
快速开始
要开始自己使用 Codex，请尝试在Playground中打开这些示例。

说“你好”（Python）

“”"
Ask the user for their name and say “Hello”
“”"
创建随机名称（Python）

“”"

Create a list of first names
Create a list of last names
Combine them randomly into a list of 100 full names
“”"
创建 MySQL 查询 (Python)

“”"
Table customers, columns = [CustomerId, FirstName, LastName, Company, Address, City, State, Country, PostalCode, Phone, Fax, Email, SupportRepId]
Create a MySQL query for all customers in Texas named Jane
“”"
query =
解释代码 (JavaScript)

// Function 1
var fullNames = [];
for (var i = 0; i < 50; i++) {
fullNames.push(names[Math.floor(Math.random() * names.length)]
+ " " + lastNames[Math.floor(Math.random() * lastNames.length)]);
}

// What does Function 1 do?
更多示例
访问我们的示例库，探索更多为 Codex 设计的提示。

最佳实践
从注释、数据或代码开始。您可以在我们的操场上尝试使用其中一种 Codex 模型（需要时将样式说明作为注释。）

为了让 Codex 创建一个有用的补全，考虑程序员执行任务需要哪些信息是有帮助的。这可能只是一个清晰的注释或编写有用函数所需的数据，例如变量的名称或函数处理的类。

Create a function called ‘nameImporter’ to add a first and last name to the database

在这个例子中，我们告诉 Codex 调用什么函数以及它将执行什么任务。

这种方法甚至可以扩展到您可以向 Codex 提供注释和数据库模式示例以使其为各种数据库编写有用的查询请求的地步。

Table albums, columns = [AlbumId, Title, ArtistId]

Table artists, columns = [ArtistId, Name]

Table media_types, columns = [MediaTypeId, Name]

Table playlists, columns = [PlaylistId, Name]

Table playlist_track, columns = [PlaylistId, TrackId]

Table tracks, columns = [TrackId, Name, AlbumId, MediaTypeId, GenreId, Composer, Milliseconds, Bytes, UnitPrice]

Create a query for all albums by Adele

当您向 Codex 展示数据库架构时，它能够对如何格式化查询做出明智的猜测。

指定语言。Codex 了解数十种不同的编程语言。许多人对注释、函数和其他编程语法有相似的约定。通过在注释中指定语言和版本，Codex 能够更好地为您想要的内容提供补全。也就是说，Codex 在样式和语法方面相当灵活。

R language

Calculate the mean distance between an array of points

Python 3

Calculate the mean distance between an array of points

提示 Codex 执行您希望它执行的操作。如果您希望 Codex 创建网页，请将第一行代码放在 HTML 文档 ( ) 中，然后在您的评论告诉 Codex 下一步应该做什么。func相同的方法适用于从注释创建函数（在注释之后以or开头的新行def）。

放置在我们的评论之后可以让 Codex 非常清楚我们想要它做什么。

Create a function to count to 100

def counter
如果我们开始编写函数 Codex 将了解它接下来需要做什么。

指定库将帮助 Codex 了解您想要什么。Codex 了解大量的库、API 和模块。通过告诉 Codex 要使用哪些，无论是从评论中还是将它们导入到您的代码中，Codex 将根据它们而不是替代方案提出建议。

通过指定版本，您可以确保 Codex 使用最新的库。

注意：Codex 可以建议有用的库和 API，但请务必自行研究以确保它们对您的应用程序是安全的。

注释样式会影响代码质量。对于某些语言，注释样式可以提高输出质量。例如，在使用 Python 时，在某些情况下，使用文档字符串（用三引号括起来的注释）可以提供比使用井号 (#) 符号更高质量的结果。

“”"
Create an array of users and email addresses
“”"
在函数中添加注释会很有帮助。推荐的编码标准通常建议将函数的描述放在函数内部。使用这种格式有助于 Codex 更清楚地了解您希望该函数做什么。

def getUserBalance(id):
“”"
Look up the user in the database ‘UserData’ and return their current account balance.
“”"
提供示例以获得更精确的结果。如果您有需要 Codex 使用的特定样式或格式，在请求的第一部分提供示例或演示将有助于 Codex 更准确地满足您的需求。

“”"
Create a list of random animals and species
“”"
animals = [ {“name”: “Chomper”, “species”: “Hamster”}, {“name”:
较低的温度给出更精确的结果。在大多数情况下，将 API 温度设置为 0 或接近零（例如 0.1 或 0.2）往往会产生更好的结果。与 GPT-3 不同，较高的温度可以提供有用的创造性和随机结果，Codex 的较高温度可能会给您真正随机或不稳定的响应。

如果您需要 Codex 提供不同的潜在结果，请从零开始，然后向上递增 0.1，直到找到合适的变化。

将任务组织成功能。我们可以通过在注释中尽可能精确地指定函数应该做什么来让 Codex 编写函数。通过编写以下注释，Codex 创建了一个 Javascript 计时器函数，该函数在用户按下按钮时触发：

一个简单的 JavaScript 计时器

// Create a timer that creates an alert in 10 seconds
我们可以使用 Codex 来执行与知名库有关的常见任务，例如使用 Stripe API 创建客户：

在 Python 中创建 Stripe 客户

Create a Stripe customer from an email address

创建示例数据。测试应用程序通常需要使用示例数据。因为 Codgen 是一种了解如何理解和编写自然语言的语言模型，所以您可以要求 Codex 创建数据，例如由组成的名称、产品和其他变量组成的数组。

/* Create an array of weather temperatures for San Francisco */
要求 Codex 执行此任务将生成如下表格：

var weather = [
{ month: ‘January’, high: 58, low: 48 },
{ month: ‘February’, high: 61, low: 50 },
{ month: ‘March’, high: 64, low: 53 },
{ month: ‘April’, high: 67, low: 55 },
{ month: ‘May’, high: 70, low: 58 },
{ month: ‘June’, high: 73, low: 61 },
{ month: ‘July’, high: 76, low: 63 },
{ month: ‘August’, high: 77, low: 64 },
{ month: ‘September’, high: 76, low: 63 },
{ month: ‘October’, high: 73, low: 61 },
{ month: ‘November’, high: 68, low: 57 },
{ month: ‘December’, high: 64, low: 54 }
];
复合功能和小型应用。我们可以向 Codex 提供包含复杂请求的注释，例如创建随机名称生成器或使用用户输入执行任务，只要有足够的令牌，Codex 可以生成其余的。

/*
Create a list of animals
Create a list of cities
Use the lists to generate stories about what I saw at the zoo in each city
*/
限制完成大小以获得更精确的结果或更低的延迟。在 Codex 中请求更长的完成时间可能会导致不准确的答案和重复。通过减少max_tokens和设置stop标记来限制查询的大小。例如，添加\n为stop序列以将完成限制为一行代码。较小的完成也会产生较少的延迟。

使用流式传输来减少延迟。大型 Codex 查询可能需要数十秒才能完成。要构建需要较低延迟的应用程序，例如执行自动完成的编码助手，请考虑使用流式传输。响应将在模型完成生成整个完成之前返回。只需要完成部分的应用程序可以通过以编程方式或使用创意值来减少延迟stop。

用户可以通过从 API 请求多个解决方案并使用返回的第一个响应来将流式传输与复制相结合以减少延迟。通过设置来做到这一点n > 1。max_tokens这种方法会消耗更多的令牌配额，因此请谨慎使用（例如，通过对和使用合理的设置stop）。

使用 Codex 来解释代码。Codex 创建和理解代码的能力使我们能够使用它来执行任务，例如解释文件中的代码的作用。实现此目的的一种方法是在以“此功能”或“此应用程序是”开头的功能后添加注释。Codex 通常将此解释为解释的开始并完成文本的其余部分。

/* Explain what the previous function is doing: It
解释 SQL 查询。在此示例中，我们使用 Codex 以人类可读的格式解释 SQL 查询在做什么。

SELECT DISTINCT department.name
FROM department
JOIN employee ON department.id = employee.department_id
JOIN salary_payments ON employee.id = salary_payments.employee_id
WHERE salary_payments.date BETWEEN ‘2020-06-01’ AND ‘2020-06-30’
GROUP BY department.name
HAVING COUNT(employee.id) > 10;
– Explanation of the above query in human readable format

编写单元测试。只需添加注释“单元测试”并启动一个函数，即可在 Python 中创建单元测试。

Python 3

def sum_numbers(a, b):
return a + b

Unit test

def
检查代码是否有错误。通过使用示例，您可以向 Codex 展示如何识别代码中的错误。在某些情况下，不需要示例，但是展示提供描述的级别和细节可以帮助 Codex 了解要查找的内容以及如何解释它。（食典委对错误的检查不应取代用户的仔细审查。）

/* Explain why the previous function doesn’t work. */
使用源数据编写数据库函数。正如人类程序员会从了解数据库结构和列名中受益一样，Codex 可以使用这些数据来帮助您编写准确的查询请求。在此示例中，我们插入数据库的模式并告诉 Codex 查询数据库的内容。

Table albums, columns = [AlbumId, Title, ArtistId]

Table artists, columns = [ArtistId, Name]

Table media_types, columns = [MediaTypeId, Name]

Table playlists, columns = [PlaylistId, Name]

Table playlist_track, columns = [PlaylistId, TrackId]

Table tracks, columns = [TrackId, Name, AlbumId, MediaTypeId, GenreId, Composer, Milliseconds, Bytes, UnitPrice]

Create a query for all albums by Adele

语言之间的转换。您可以通过遵循一种简单的格式让 Codex 从一种语言转换为另一种语言，在该格式中，您在注释中列出要转换的代码的语言，然后是代码，然后是您希望翻译成的语言的注释。

Convert this from Python to R

Python version

[ Python code ]

End

R version

为库或框架重写代码。如果您希望 Codex 使功能更高效，您可以为其提供要重写的代码，然后提供有关使用何种格式的说明。

// Rewrite this as a React component
var input = document.createElement(‘input’);
input.setAttribute(‘type’, ‘text’);
document.body.appendChild(input);
var button = document.createElement(‘button’);
button.innerHTML = ‘Say Hello’;
document.body.appendChild(button);
button.onclick = function() {
var name = input.value;
var hello = document.createElement(‘div’);
hello.innerHTML = 'Hello ’ + name;
document.body.appendChild(hello);
};

// React version:
插入代码贝塔
除了前缀提示之外，完成端点还通过提供后缀提示来支持在代码中插入代码。这可用于在函数或文件的中间插入完成。

def get_largest_prime_factor(n):
if n < 2:
return False
def i s_prime(n): > for i in range(2, n): > if n % i == 0: > return False > return True > maximum = 1
for j in range(2, n + 1):
if n % j == 0 and is_prime(j):
返回最大

通过为模型提供额外的上下文，它可以更加可控。然而，这对模型来说是一项更具约束性和挑战性的任务。

最佳实践
插入代码是测试版中的一项新功能，您可能必须修改使用 API 的方式以获得更好的结果。以下是一些最佳实践：

使用 max_tokens > 256。该模型更擅长插入更长的补全。如果 max_tokens 太小，模型可能会在它能够连接到后缀之前被切断。请注意，即使使用较大的 max_tokens，您也只需为生成的令牌数量付费。

更喜欢finish_reason ==“停止”。当模型到达自然停止点或用户提供的停止顺序时，它会将 finish_reason 设置为“停止”。这表明该模型已成功连接到后缀井，是完井质量的良好信号。这对于在使用 n > 1 或重新采样时在几个完成之间进行选择特别相关（请参阅下一点）。

重采样 3-5 次。虽然几乎所有补全都连接到前缀，但模型在更难的情况下可能难以连接后缀。我们发现重采样 3 或 5 次（或使用 k=3,5 的 best_of）并以“stop”作为其 finish_reason 的样本在这种情况下可能是一种有效的方法。在重新采样时，您通常需要更高的温度来增加多样性。

注意：如果所有返回的样本都具有finish_reason == “length”，则可能是max_tokens 太小并且模型在设法自然连接提示和后缀之前用完了令牌。考虑在重采样之前增加 max_tokens。

编辑代码贝塔
编辑端点可用于编辑代码，而不仅仅是完成它。您提供一些代码和如何修改它的说明，code-davinci-edit-001模型将尝试相应地对其进行编辑。这是用于重构和调整代码的自然接口。在此初始测试期间，编辑端点的使用是免费的。

例子
迭代构建程序
编写代码通常是一个迭代过程，需要一路细化文本。编辑可以自然地不断完善模型的输出，直到最终结果得到完善。在这个例子中，我们使用斐波那契作为如何迭代地构建代码的例子。

1写一个函数
输入
无输入
指示
在python中编写一个计算斐波那契的函数
输出
def fibonacci(num): a = 0 b = 1 if num ==1: print(a) else: print(a) print(b) #序列从0,1开始 for i in range(2,num): c = a+b a = b b = c print©

fibonacci(10)
2重构它
输入
if num ==1: print(a) else: print(a) print(b) #序列从0,1开始 for i in range(2,num): c = a+b a = b b = c print(c )

斐波那契(10)
指示
将此函数重构为递归
输出
def fibonacci(num): if num <= 1: return num else: return fib(num-1) + fib(num-2) print(fibonacci(10))
3重命名函数
输入
def fibonacci(num): if num <= 1: return num else: return fib(num-1) + fib(num-2) print(fibonacci(10))
指示
将函数重命名为 fib
输出
def fib（数字）：
如果 num <= 1：返回 num 否则：
返回fib (num-1) + fib (num-2)
打印（纤维（10））
4添加文档
输入
def fib(num): if num <= 1: return num else: return fib(num-1) + fib(num-2) print(fib(10))
指示
添加文档
输出
def fib（数字）：
“”" 打印斐波那契数列中的第 n 个数字 “”"
如果 num <= 1：返回 num 否则：返回 fib(num-1) + fib(num-2) print(fib(10))
最佳实践
编辑端点仍处于 alpha 阶段，我们建议遵循这些最佳实践。

考虑使用空提示！在这种情况下，可以像完成一样使用编辑。
尽可能具体地说明指令。
有时，模型无法找到解决方案并会导致错误。我们建议重新措辞您的指令或输入。
在这里插入图片描述

朴拙数科

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
GPT-3后的Codex模型和自训练应用

介绍Codex 模型系列是我们GPT-3 系列的后代，该系列经过自然语言和数十亿行代码的训练。它最擅长 Python，精通十多种语言，包括 JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL 甚至 Shell。在这个最初的私人测试阶段，Codex 的使用是免费的。了解更多。您可以将 Codex 用于各种任务，包括：将注释变成代码在上下文中完成您的下一行或功能为您带来知识，例如为应用程序查找有用的库或 API 调用添加评论。.........
复制链接

扫一扫