写代码、搜问题，全部都在终端完成！

发布时间：2021-02-12 16:21:55 所属栏目：外闻来源：互联网

导读：灵感来自GPT-3，自然语言直接转代码 2020年6月，OpenAI 推出了GPT-3，它不仅具有未来的 NLP 相关的诸多功能，而且还能够生成 React 代码和shell命令。俩人从中得到了灵感，他们意识到在做数据分析的时候，我们经常忘记不经常使用的 pandas 命令或者语法，需

灵感来自GPT-3，自然语言直接转代码

2020年6月，OpenAI 推出了GPT-3，它不仅具有未来的 NLP 相关的诸多功能，而且还能够生成 React 代码和shell命令。

俩人从中得到了灵感，他们意识到在做数据分析的时候，我们经常忘记不经常使用的 pandas 命令或者语法，需要去搜索，从 StackOverflow 复制代码然后需要相应地修改变量和列名。

最初他们试图把这个问题作为一个聊天机器人来解决，并试图使用Rasa，但因为缺乏合适的训练数据而夭折了。

他们决定开发一个监督学习模型，该模型可以吃进自然语言和代码的对应语料，然后进行训练，完整的pipeline包含了下面几个步骤：

生成训练数据

为了模拟终端的用户想向系统查询的内容，我们开始尝试用英语描述一些命令的格式。

例如：

display a line plot showing $colname on y-axis and $colname on x-axis from $varname

然后，我们通过使用一个非常简单的生成器来替换 $colname 和 $varname 来生成数据，以获得训练集中的变量。

当然，这是一个抽象的甚至是有争议的主张。建立这种联系有许多心理障碍。无论如何，这对于理解基于树的方法何时以及为什么比神经网络更好是很重要的。

表格数据，或以表形式出现的结构化数据，对于决策树来说是很自然的。大多数人都同意，神经网络对于表格数据回归和预测来说是多余的，所以我们做了一些简化。我们选择1和0，而不是概率，这是两种算法差异的主要根源。因此，树可以在不需要概率的细微差别的情况下成功，比如结构化数据。

例如，基于树的方法在MNIST数据集上执行得很好，因为每个数字都有几个可定义的特征。概率不是一个必要的计算。这根本不是一个非常复杂的问题，这就是为什么精心设计的集成树可以达到相同的水平，甚至比现代卷积神经网络更好。

通常，人们会倾向于说“树只是记住规则”，这是正确的。这与神经网络是一样的，它记忆更复杂的，基于概率的规则。神经网络不会对x>3这样的条件显式地给出真/假，而是将输入放大到一个很高的值，以产生一个s型的1的值或产生一些连续的表达式。

另一方面，由于神经网络非常复杂，有很多事情可以用它们来做。卷积层和递归层都是神经网络出色的变体，它们工作得很好，因为它们处理的数据通常需要细微的概率计算。

很少有图像可以用1和0来建模。决策树值不能处理有许多中间值的数据集(例如0.5)，这就是为什么它在像素值几乎都是黑色或白色的MNIST上工作得很好。类似地，文本有太多的信息和太多的异常，只能用确定性术语来表示。

这也是神经网络主要用于这些领域的原因，也是神经网络研究在早期(21世纪初)由于无法获得大量图像和文本数据而停滞不前的原因。神经网络的其他常见用途仅限于大量预测，比如YouTube的视频推荐算法，其规模如此之大，必须涉及到概率。

（编辑：潍坊站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

加强和虚拟现实技术支	继LG电子现代汽车后三
评论少数政客的拙劣表	生鲜杂货配送商Instac