简化ChatGPT、GPT-4开发流程,微软发布开源SynapseML v0.11

添加书签

专注AIGC领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展和应用落地,以及国内LLM的发展和市场研究,欢迎关注!

4月25日,微软在官方博客发布了SynapseML v0.11。新版本增加了对ChatGPT、GPT-4的支持,帮助开发人员简化了将Open AI的模型应用于大型数据集的开发流程。(开源地址:https://github.com/microsoft/SynapseML

据悉,SynapseML是微软很早之前发布的一款开源机器学习库,帮助开发人员简化了大规模可扩展机器学习管道的创建。SynapseML将多个现有的机器学习框架和新的MSFT算法统一在,一个可扩展的 API 中。该API可跨Python、R、Scala、Java、.NET和C#开发环境中使用。

简单来说,开发人员如果想通过ChatGPT开发一款智能应用程序时,在整个过程中需要不断地编写繁琐、复杂的REST API。现在,借助SynapseML v0.11新版本可以直接在数据集中调试ChatGPT模型,节省了大量开发时间。

简化ChatGPT、GPT-4开发流程,微软发布开源SynapseML v0.11插图

SynapseML v0.11除了支持ChatGPT、GPT-4之外,还新增了Simple Deep Learning、LightGBM v2、ONNX 模型中心、Causal Learning和Vowpal Wabbit v2。下面「AIGC开放社区」将详细为大家介绍这些新功能。

支持ChatGPT、GPT-4

支持ChatGPT、GPT-4大语言模型成为SynapseML本次更新的重头戏,这使得开发人员通过大语言模型开发、调试应用变得更加高效、简单。

SynapseML v0.11引入了3个用于处理基础模型的新API:OpenAIPrompt、OpenAI Embedding和 OpenAIChatCompletion。

其中,OpenAIPrompt API 可以轻松地从数据框的列,构建复杂的大语言模型的提示。例如,一个名为“Description”的数据框列转换为表情符号的案例。

简化ChatGPT、GPT-4开发流程,微软发布开源SynapseML v0.11插图1

该代码将自动查找名为“Description”的数据库列,并使用创建提示的大语言模型(ChatGPT、GPT-3、GPT-4)。

此外,新的OpenAIChatCompletion 转换器允许用户向 ChatGPT 提交大量基于自然语言聊天的提示,从而一次可以并行推理数千个对话。这对于开发者通过ChatGPT、GPT-4模型开发应用来说非常有用。

Simple Deep Learning(简单深度学习)

SynapseML v0.11引入了一个全新的简单深度学习包,只需几行代码即可训练自定义文本和深度视觉分类器。该软件包将分布式深度网络训练与PytorchLightning 的强大功能,与 SynapseML 简单易用的API 相结合。新的 API 允许用户微调来自 torchvision 的视觉基础模型,以及来自HuggingFace的各种最先进的文本主干。

下面这段代码展示了如何微调自定义视觉网络。

简化ChatGPT、GPT-4开发流程,微软发布开源SynapseML v0.11插图2

LightGBM v2

LightGBM是SynapseML最常用的功能之一,在新版本中引入了LightGBM和Spark 之间完全重构的集成——LightGBM v2。

这种集成旨在通过在核心LightGBM库中,引入各种新的“流式 API”来实现高性能,从而在 Spark 和 LightGBM 之间实现快速且内存高效的数据共享。

值得一提的是,新的“流式执行模式”的内存占用,比早期版本的SynapseML低10倍以上,从而节省了内存消耗并加快了模型训练效率。

ONNX 模型中心

SynapseML支持各种新的深度学习与 ONNX 运行时的集成,以在所有SynapseML语言(Scala、Java、Python、R 和 .NET)中实现快速、硬件加速的推理。在新版本中,添加了对新的 ONNX 模型中心的支持,它是最先进的预训练 ONNX 模型的开放集合,可以快速下载并嵌入到Spark管道中。这使SynapseML能够完全弃用并消除对 CNTK 深度学习库的旧依赖。

Causal Learning(因果学习)

SynapseML v0.11引入了一个新的因果学习包,可以帮助企业和政策制定者做出更明智的决策。当试图优化或干预对结果的影响时,相关分析或预测模型等传统方法有很多不足,因为它们不一定能建立因果关系。

因果推理旨在通过弥合预测与决策之间的差距,来克服这些缺点。SynapseML的因果学习包实现了一种称为“双机器学习”的技术,它使开发者能够在没有来自受控实验的数据的情况下,预估优化结果。与基于回归的方法不同,这种方法可以模拟混杂因素、优化和结果之间的非线性关系。

Vowpal Wabbit v2

SynapseML v0.11引入了Vowpal Wabbit v2,这是 Vowpal Wabbit (VW) 在线优化库与Apache Spark之间的第二代集成。通过此更新,用户可以使用新的“VowpalWabbitGeneric”模型直接处理 Vowpal wabbit 数据。这使得现有 VW 用户更容易使用 Spark。

更详细的SynapseML v0.11技术更新文档,请在https://github.com/microsoft/SynapseML/releases/tag/v0.11.0查看。

本文素材来源微软官方博客,如有侵权请联系删除

END

简化ChatGPT、GPT-4开发流程,微软发布开源SynapseML v0.11插图3

简化ChatGPT、GPT-4开发流程,微软发布开源SynapseML v0.11插图4