自托管式大语言模型

技术雷达

更新于 : Sep 27, 2023

不在本期内容中

这一条目不在当前版本的技术雷达中。如果它出现在最近几期中，那么它很有可能仍然具有相关参考价值。如果这一条目出现在更早的雷达中，那么它很有可能已经不再具有相关性，我们的评估将不再适用于当下。很遗憾我们没有足够的带宽来持续评估以往的雷达内容。了解更多

Sep 2023

评估

大语言模型（LLMs）通常需要大量的 GPU 基础设施才能运行，但目前有强烈的推动力使它们可以在更简单的硬件上运行。对大语言模型进行量化可以减少内存需求，使高保真度模型可以在成本更低廉的硬件甚至是 CPU 上运行。像 llama.cpp 这样的工作使大语言模型可以在包括树莓派、笔记本电脑和通用服务器在内的硬件上运行成为可能。

许多组织正在部署 自托管式大语言模型 。这往往是出于安全或隐私方面的考虑，有时是因为需要在边缘设备上运行模型。开源示例包括 GPT-J、GPT-JT 和 Llama。这种方法提供了更好的模型控制，以进行特定用途的微调，提高了安全性和隐私性，以及离线访问的可能性。尽管我们已经帮助一些客户自托管开源大语言模型用于代码生成，但我们建议在决定自托管之前仔细评估组织的能力和运行这类大语言模型的成本。

Apr 2023

评估

大型语言模型通常会运行在具有强大的 GPU 的基础设施上。我们如今可以看到一些大型语言模型的移植版本，比如 llama.cpp，这些模型能在不同的硬件上运行，包括 Raspberry Pi(树莓派)、笔记本电脑和通用服务器等。因此 自托管式大型语言模型 已经成为现实。目前，有许多开源的自托管式大型语言模型，如 GPT-J、GPT-JT 和 LLaMA。自托管这种方式有许多好处，比如可以更好地控制模型在一些特定使用场景的微调、提高安全性和隐私性，以及支持离线访问。不过在决定使用自托管这种方式之前，您应该仔细评估组织的能力和运行此类大型语言模型需要消耗的成本。

发布于 : Apr 26, 2023