Meta 推出全新大语言模型，单 GPU 上可运行

236

发表时间 2023-05-18 08:13:24

Meta 训练其LLaMA模型所使用的是各类公开可用的数据集（例如 Common Crawl、维基百科以及 C4），意味着该公司可能会开源发布模型及其权重设置。在大语言模型行业当中，这代表着一波转折性的新发展，或将打破科技巨头在竞赛中永远把最好的 AI 技术“藏”起来的定式。

项目组成员 Guillaume Lample 在推文中指出，“与 Chinchilla、PaLM 或者 GPT-3 不同，我们只使用公开可用的数据集，这就让我们的工作与开源兼容且可以重现。而大多数现有模型，仍依赖于非公开可用或未明确记录的数据内容。”

现在，我们发布了 LLaMA 的 4 个基础模型，参数从 70 亿到 650 亿不等。LLaMA-13B 在大多数基准测试中优于 OPT 和 GPT-3 175B。LLaMA-65B 则可与 Chinchilla 70B 和 PaLM 540B 正面抗衡。

Meta 将自己的 LLaMA 模型称为“基础模型”，意味着该公司打算以此为基础构建起更加完善的 AI 模型。这类似于 OpenAI 以GPT-3为基础构建 ChatGPT 的作法。Meta 方面希望 LLaMA 能在自然语言研究当中发挥作用，进而在“问答、自然语言理解或阅读理解、理解能力以及解决现有语言模型的局限性”等方面贡献力量。

虽然顶级 LLaMA 模型（LLaMA-65B，拥有 650 亿个参数）明显是在叫板竞争对手 DeepMin、谷歌及 OpenAI 的同类方案，但此次公布阵容中最有趣的反而可能是家族中的“小弟弟”LLaMA-13B，此外，Meta 也表示将提供 7B、13B、33B 和 65B 等参数尺寸的 LLaMA。

前文提到，在接受八大标准“常识推理”基准测试（包括 BooIQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC 和 OpenBookQA 等）时，其在单 GPU 上运行的性能优于 GPT-3。而且跟 GPT-3 系列模型必须依赖于数据中心的庞大设施不同，LLaMA-13B有望在不久的将来，让消费级硬件也能获得趋近 ChatGPT 的 AI 性能表现。

参数规模在 AI 领域意味着什么？

参数规模在 AI 领域非常重要，是负责在机器学习模型当中根据输入数据进行预测或分类的变量。语言模型中的参数规模往往直接决定其性能，较大的模型通常可以处理更复杂的任务、并产生更连贯的输出。然而，参数越多、模型占用的空间也越大，运行时消耗的算力也越夸张。因此，如果一个模型能够以更少的参数获得与另一模型相同的结果，则表示前者的效率有显著提高。

根据 Meta 的说法，训练 LLaMA 等较小的基础模型是理想的，因为它们需要极低的计算能力和资源来测试、验证和探索新的用例。众所周知，基础语言模型可以训练大量未标记的数据，这使得它们非常适合根据各种任务进行定制。

Meta 在其研究论文中指出，LLaMA-13B 在大多数基准测试中都优于 OpenAI 的 GPT-3 （175B），并且 LLaMA-65B 与最佳模型 DeepMind 的 Chinchilla70B 和谷歌的 PaLM-540B 具有竞争力。一旦经过更广泛的训练，LLaMA-13B 可能会成为希望在这些系统上运行测试的小型企业的福音，但是，它要让它脱离开发者独立工作，还有很长一段路要走。

LLaMA 与其他大模型参数对比

独立 AI 研究员 Simon Willison 在文章中评论称，“我认为，我们有望在未来一、两年内通过自己的（旗舰级）手机和笔记本电脑，运行具备 ChatGPT 中大部分功能的语言模型。”

目前，精简版的 LLaMA 已经登陆 GitHub。要了解完整的代码的权重（即神经网络「学习」到的训练数据），Meta 已向感兴趣的研究人员开放访问申请表（https://forms.gle/jk851eBVbX1m5TAv5）。Meta 目前还未宣布更广泛的模型与权重公布计划。

LLaMA 项目地址：https://github.com/facebookresearch/llama

LLaMA 论文地址：https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

参考链接：

https://arstechnica.com/information-technology/2023/02/chatgpt-on-your-pc-meta-unveils-new-ai-model-that-can-run-on-a-single-gpu/

https://indianexpress.com/article/technology/artificial-intelligence/meta-launches-llama-model-8465834/

In tem chong hang gia tai tphcm chat luong tot gia re

In tem chống hàng giả tại tphcm chất lượng tốt, giá rẻ Dịch vụ in tem chống...

由 2024-01-22 12:22:17 0 79

Contact and Call Centre Outsourcing Market to Experience Significant Growth by 2033

According to the Regional Research Reports, the global contact and call centre outsourcing...

由 2023-10-05 19:50:23 0 65

Kostenlose Klingeltöne für mehr Spaß beim Anrufen

ich möchte heute über ein Thema sprechen, das viele von uns tagtäglich betrifft -...

由 2023-08-15 10:10:33 0 106

Technological Innovations and Coatings Revolutionize Solar Control Glass Industry

The Solar Control Glass Market is projected to grow USD 15.7 billion by 2032, CAGR of...

由 2023-07-20 17:53:46 0 134

Alexander McQueen Shoes Sale Copenhagen Fashion Week street

The finishing touch. Pleated pieces, scarves and hats also make the list, and layering is key....

由 2022-12-19 16:24:06 0 177