虫虫首页| 资源下载| 资源专辑| 精品软件
登录| 注册

您现在的位置是:首页 > 技术阅读 >  笔记本就能运行的ChatGPT平替来了,附完整版技术报告

笔记本就能运行的ChatGPT平替来了,附完整版技术报告

时间:2024-02-07

GPT4All 是基于大量干净的助手数据(包括代码、故事和对话)训练而成的聊天机器人,数据包~800k条GPT-3.5-Turbo生成数据,基于LLaMa完成,M1 Mac、Windows 等环境都能运行。或许就像它的名字所暗示的那样,人人都能用上个人GPT的时代已经来了。

自从 OpenAI 发布 ChatGPT 后,最近几个月聊天机器人热度不减。
虽然ChatGPT功能强大,但OpenAI几乎不可能将其开源。不少人都在做开源方面的努力,比如前段时间Meta开源的LLaMA。其是一系列模型的总称,参数量从70亿到650亿不等,其中,130亿参数的LLaMA模型「在大多数基准上」可以胜过参数量达1750亿的GPT-3。
LLaMA的开源可是利好众多研究者,比如斯坦福在LLaMA的基础上加入指令微调(instruct tuning),训练了一个名为Alpaca(羊驼)的70亿参数新模型(基于LLaMA 7B)。结果显示,只有7B参数的轻量级模型Alpaca性能可媲美GPT-3.5这样的超大规模语言模型。
又比如,我们接下来要介绍的这个模型GPT4All,也是一种基于LLaMA的新型7B语言模型。项目上线两天,Star量已经突破7.8k。

项目地址:

https://github.com/nomic-ai/gpt4all
简单来讲,GPT4All在GPT-3.5-Turbo的800k条数据上进行训练,包括文字问题、故事描述、多轮对话和代码。
根据项目显示,M1 Mac、Windows等环境都能运行。
我们先来看看效果。如下图所示,用户可以和GPT4All进行无障碍交流,比如询问该模型:「我可以在笔记本上运行大型语言模型吗?」GPT4All回答是:「是的,你可以使用笔记本来训练和测试神经网络或其他自然语言(如英语或中文)的机器学习模型。重要的是,你需要足够可用的内存 (RAM) 来适应这些模型的大小……」
接下来,如果你不清楚到底需要多少内存,你还可以继续询问GPT4All,然后它给出回答。从结果来看,GPT4All进行多轮对话的能力还是很强的。 

在M1 Mac上的实时采样

有人将这项研究称为「改变游戏规则,有了GPT4All的加持,现在在MacBook上本地就能运行GPT。」

与GPT-4相似的是,GPT4All也提供了一份「技术报告」。

技术报告地址:

https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf
这份初步的技术报告简要描述了GPT4All的搭建细节。研究者公开了收集的数据、数据整理程序、训练代码和最终的模型权重,以促进开放研究和可重复性,此外还发布了模型的量化4位(quantized 4-bit)版本,这意味着几乎任何人都可以在CPU上运行该模型。
接下来,让我们看看这份报告中写了什么。

GPT4All技术报告

1、数据收集和整理
在2023年3月20日至2023年3月26日期间,研究者使用GPT-3.5-Turbo OpenAI API收集了大约100万对prompt回答。

首先,研究者通过利用三个公开可用的数据集来收集不同的问题/prompt样本:

  • LAION OIG 的统一 chip2子集
  • Stackoverflow Questions 的一个随机子样本集Coding questions
  • Bigscience/P3子样本集进行指令调优
参考斯坦福大学Alpaca项目 (Taori et al., 2023),研究者对数据准备和整理给予了大量关注。在收集了最初的prompt生成对的数据集后,他们将数据加载到Atlas进行整理和清理,删除了所有GPT-3.5-Turbo未能响应prompt并产生畸形输出的样本。这使得样本总数减少到806199个高质量的prompt -生成对。接下来,研究者从最终的训练数据集中删除了整个Bigscience/P3子集,因为它的输出多样性非常低。P3包含许多同质化的prompt,这些prompt从GPT-3.5-Turbo中产生了简短而同质化的反应。
这种排除法产生了一个包含437,605个prompt -生成对的最终子集,如图2所示。
模型训练
研究者在LLaMA 7B (Touvron et al., 2023) 的一个实例中将几个模型进行微调。他们最初的公开版本相关的模型是用LoRA (Hu et al., 2021) 在437605个后处理的例子上以4个epoch训练的。详细的模型超参数和训练代码可以在相关的资源库和模型训练日志中找到。
可重复性
研究者发布了所有的数据(包括未使用的P3 generations)、训练代码和模型权重,供社区进行复现。感兴趣的研究者可以在Git存储库中找到最新的数据、训练细节和检查点。
成本
研究者大概用了四天的时间制作这些模型,GPU成本为800美元(从Lambda实验室和Paperspace租的,其中包括几次失败的训练),此外还有500美元的OpenAI API费用。
最终发布的模型gpt4all-lora可以在Lambda实验室的DGX A100 8x 80G上用大约8小时训练完成,总成本为100美元。
这个模型可以在普通笔记本上运行,真就像网友说的「除了电费之外,没有任何成本。」

评估

研究者使用SelfInstruct论文 (Wang et al., 2022) 中的人类评估数据对该模型进行了初步评估。报告还对比了该模型与已知最好的公开的alpaca-lora模型(该模型由huggingface的用户chainyo提供)的ground truth困惑度。他们发现,所有的模型在少数任务上都有非常大的困惑度,并且报告的困惑度最大为100。与Alpaca相比,在这个收集的数据集上进行微调的模型在Self-Instruct评估中表现出了更低的困惑度。研究者表示,这个评估不是详尽的,仍存在进一步的评估空间 —— 他们欢迎读者在本地CPU上运行该模型(文件见 Github),并对它的能力有一个定性的认识。
最后,需要注意的是,作者公布了数据和训练细节,希望它能加速开放的LLM研究,特别是在对齐和可解释性领域。GPT4All模型的权重和数据仅用于研究目的,并获得许可,禁止任何商业使用。GPT4All是基于LLaMA的,LLaMA具有非商业许可。助理数据是从OpenAI的GPT-3.5-Turbo收集的,其使用条款禁止开发与OpenAI进行商业竞争的模型。

文章来源:机器之心

IEEE Spectrum

《科技纵览》

官方微信公众平台






往期推荐
AI成为强大的像素绘图工具
2022计算机科学6大突破!

准备好在公司接受大脑扫描了吗?