Technology Radar
Last updated : Sep 27, 2023
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar.
Understand more
Sep 2023
Assess
大语言模型(LLMs)通常需要大量的 GPU 基础设施才能运行,但目前有强烈的推动力使它们可以在更简单的硬件上运行。对大语言模型进行量化可以减少内存需求,使高保真度模型可以在成本更低廉的硬件甚至是 CPU 上运行。像 llama.cpp 这样的工作使大语言模型可以在包括树莓派、笔记本电脑和通用服务器在内的硬件上运行成为可能。
许多组织正在部署 自托管式大语言模型 。这往往是出于安全或隐私方面的考虑,有时是因为需要在边缘设备上运行模型。开源示例包括 GPT-J、GPT-JT 和 Llama。这种方法提供了更好的模型控制,以进行特定用途的微调,提高了安全性和隐私性,以及离线访问的可能性。尽管我们已经帮助一些客户自托管开源大语言模型用于代码生成,但我们建议在决定自托管之前仔细评估组织的能力和运行这类大语言模型的成本。
Published : Apr 26, 2023