国内大模再次开源,最强双语LLM“全家桶”级别开源!

日期:2023-10-17 14:31:50 / 人气:395

340亿参数超越骆马2-70B“新智元报告。

【新智元简介】刚刚,国内大型机型五刀天鹰Aquila2以340亿参数冲上榜首,成为最强开源双语机型。更何况这次致远不仅开放了明星模式,还呈现了非常知名的模式周边!
最强双语模型,开源!
今天,五道天鹰Aquila的伟大语言模型系列全面升级为Aquila2,新增了一位重量级成员——拥有340亿参数的Aquila2-34B。
Aquila2-34B在代码生成、检查、理解、推理和语言四个维度的22个评测基准中独占鳌头。
然而,“全面超越羊驼2”这个词已经不是新闻了。相比分数,业内更看重大模特的能力。
在这些实战能力中,AquilaChat2的表现还是非常抢眼的——
它不仅具有超强的推理能力,还大大提高了长文本处理能力;强大的泛化能力使其适用于各种真实的应用场景,包括AI Agent、代码生成、文档检索等。
更令人惊喜的是,致远不仅开放了Aquila2的所有模型系列,还同步开放了Aquila2的创新训练算法,包括FlagScale框架和FlagAttention计算子集,以及新版语义向量模型BGE。
可以说,创新训练算法和最佳实践的同步开放,在业界是前所未有的。这种全家桶级开源,是大模型开源社区的行业良心。
Aquila2型号全部开源地址:
https://github.com/FlagAI-Open/Aquila2
https://model.baai.ac.cn/
https://huggingface.co/BAAI
最强双语模型,开源!
22项综合排名领先,超过了只有1/2参数和2/3训练数据的Llama2-70B等开源基座模型。Aquila2-34B是怎么做到的?
这背后,当然是得益于致远多年积累的优质语料。经过预训练这些语料库,模型的综合能力非常强,超过了依桐钱文和美洲驼2。
架构升级、算法创新、数据迭代也让Aquila2在中英文综合能力上有了进一步的突破。
Aquila2基础模型为AquilaChat2对话模型提供了坚实的基础。
经过高质量指令微调数据集的训练,AquilaChat2-34B已成为最强开源双语对话模型,主客观评测结果均取得全面领先。
SFT模型评估结果
而且,AquilaChat2-34B呈现了几个有趣的特性——它不仅拥有丰富的华人世界原生知识,还提供了更加准确、全面和人性化的答案。
为了控制中国世界,AquilaChat2-34B甚至可以爆炸GPT-4。
对于“如何用螺丝钉炒西红柿”这个问题,AquilaChat2-34B立刻聪明地猜到,用户应该是想问“西红柿炒鸡蛋”。
相比之下,GPT-4只能理解“螺蛳粉炒西红柿”这一层。
如果问大模“研究什么专业大学生好找工作时分析单位是什么”,GPT-4的回答很简单粗暴——专业。
而AquilaChat2-34B则很有见地的表示,分析单位可以是行业、公司类型、职级、地区、薪资水平、专业匹配度等等。
推论超过美洲驼2,仅次于GPT-4。
我们在哪一年可以实现AGI?是业内非常热门的话题。
如何认识AGI?最关键的是大模型的推理能力。
在评测基准综合推理数据集(IRD)上,十几个流行的模型在归纳推理、演绎推理、回溯推理和因果推理的结果和过程的准确性上展开角逐。
结果显示,AquilaChat2-34B在IRD评测基准中排名第一,超过了LLama2-70B-Chat、GPT-3.5等型号,仅次于GPT-4。
SFT模型在IRD数据集上的评估结果
上下文窗口长度,扩展到16K
长文本输入是业界迫切需要解决的问题。
能接收多少文本输入直接决定了大模型有多少内存,和参数数量一起决定了模型的应用效果。
对此,致远以Aquila2-34B为基数,经过位置编码插值处理,在20W高质量长文本对话数据集上做了SFT,直接将模型的有效上下文窗口长度扩展到16K。
LongBench的中英文长文问答和长文摘要四个任务的评测结果显示,AquilaChat2-34B-16K处于开源长文模型的领先水平,接近GPT-3.5。
长文本理解任务评估
另外,众所周知,大模型普遍存在长度扩展能力不足的问题,严重制约了大模型的长文能力。
致远和北大团队一起,对多种语言模型在处理长文本时的注意力分布做了可视化分析。他们发现,所有语言模型都有固定的相对位置瓶颈,这些瓶颈明显小于上下文窗口的长度。
为此,致远团队创新性地提出了NLPE(非线性位置嵌入)方法,基于RoPE方法,通过调整相对位置编码和限制最大相对长度,提高了模型扩展能力。
在代码、中英文少投学习、电子书等领域的文本延拓实验表明,NLPE可以将4K Aquila2-34B模型延拓到32K长度,延拓文本的连续性远好于动态NTK和位置插值。
如下图所示,在HotpotQA、2 Wikipotihopqa等长度为5k ~ 15k的数据集上的命令跟随能力测试表明,NLPE扩展的AquilaChat2-7B(2K)的准确率为17.2%,而动态NTK扩展的准确率仅为0.4%。
SFT模型中NLPE和主流动态NTK外延方法的比较
基础模型中NLPE和主流动态NTK外延方法的比较(ppl值越低越好)
同时,致远集团还开发了适用于长文本推理的分段注意力算子PiecewiseAttention,以高效支持NLPE等面向注意力图谱的优化算法,进一步减少内存占用,提高运算速度。
概括能力强,从不“高分低能”
说起来,虽然很多大模型在标准测试中表现不错,但是到了实际应用的时候就蒙了。
相比之下,Aquila2模型在考试中取得了优异的成绩,在真实的应用场景中表现如何?
要知道,大模型的泛化能力,也就是举一反三的能力,是很重要的。
这意味着LLM仍然可以有效地处理不熟悉的任务,并在训练数据之外给出准确的响应。
如果这个大模型在基准测试中得分很高,但在实际应用中表现很差,即擅长审题但不擅长解决实际问题,这就是“高分低能”的表现。
为了评估Aquila2模型的泛化能力,致远团队从三个真实应用场景进行了验证。
AI智能体在《我的世界》中独立思考
一般智能体可以在开放的环境中学习多种任务,这是模型重要能力的体现。
说到测试代理任务,我们能想到的最常见的开放世界游戏当然是《我的世界》。
有无限生成的复杂世界和大量开放的任务,为智能体提供了丰富的交互界面。
今年3月,致远团队提出了一种在没有专家数据的情况下高效解决《我的世界》多任务的方法——plan 4 MC。
Plan4MC通过内部奖励的强化学习方式训练代理人的基本技能。
然后,智能体利用大模型AquilaChat2的推理能力完成任务规划。
比如代理接到“就近登录制作工作台”的任务时,会和AquilaChat2进行多轮对话和交互。
首先agent明确自己的主要任务是搭建工作台,然后输入提示,包括“当前环境状态”和“待完成任务”。
接到命令后,AquilaChat2开始反馈,告诉代理“接下来要用什么技能”,还确定了下一个子任务是:寻找附近的木头。
代理找到木材后,下一个子任务是伐木。继续使用环境信息作为输入,这样AquilaChat2给出了下一个技能名称。
通过这种方式,代理继续将自己推向总目标,并与AquilaChat2交互以完成任务。
就这样,在AquilaChat2的帮助下,代理搭建了一个完美的工作台。
Aquila2+BGE2,复杂文档也可以搜索。
复杂文档的检索让很多研究人员秃顶。
基于传统的向量数据库检索方法,大模型可以在一些简单问题上表现良好。
但是,当面对需要深入理解的复杂问题时,它的能力是有限的。
致远把Aqiula2和开源的语义向量模型BGE2结合起来,彻底解决了这个大问题。
当你想检索某个主题的某个作者的论文,或者要求大模型生成某个主题的多篇论文的摘要文本,都不是问题。
举个栗子,让阿丘拉2给出米雷拉·拉帕塔写的关于“总结”的论文。
Aqiula2马上给出了一个符合要求的复杂文档。
Aquila2+BGE2文献检索场景中的复杂查询示例
AquilaSQL:生成文本SQL语言的最佳模型
而AquilaSQL则可以充当“翻译器”,将用户发出的自然语言指令准确翻译成合格的SQL查询语句。
这样就大大降低了数据查询和分析的门槛。
在实际应用场景中,用户还可以基于AquilaSQL进行二次开发,将其嫁接到本地知识库中,生成本地查询SQL。
此外,还可以进一步提高模型的数据分析性能,使模型不仅可以返回查询结果,还可以生成分析结论、图表等。
Aquila base模型本身具有优秀的代码生成能力。
在此基础上,AquilaSQL经过了SQL语料库的持续预训练和SFT训练两个阶段,最终以67.3%的准确率在“文本-SQL语言生成模型”榜单Cspider上超越了SOTA模型,无需对SQL语料库的GPT4模型进行微调。准确率只有30.8%。
下图中,我们让AquilaSQL从身高、收入、所在地三个数据表中筛选出“收入大于1000在北京生活的人的平均身高”。
AquilaSQL开源仓库地址:https://github . com/flagai-open/flagai/tree/master/examples/aquila/aquila-SQL。
AquilaSQL成功生成了多表查询语句,完成了这个复杂的查询任务。
“全家桶”级别开源,行业良心
一个冷知识是,虽然Llama2也是开源的,但是它的商业许可协议对中国用户并不那么友好。
而且Llama2不仅对中国业务有限制,还限制了业务的月工作。
Llama 2商业协议明确规定不允许英语以外的业务。
相比之下,Aquila在世界各地都有商用——它不像Llama2那样限制严格,也不需要像其他商用车型那样填写表格和注册。
另外,很多模型团队开源的时候,不会开源模型训练参数、优化方案等关键数据。Aquila2这次全部是开源的创新训练算法,BGE、FlagScale、FlagAttention都是和开发者共享的。
通过这个工具,开发者可以轻松重现Aquila2。
这个史无前例的“全家桶”开源简直就是大模型开源社区的YYDS!
之所以毫无保留的开源训练工具和算法,是基于致远公益组织的定位——通过彻底全面的开源共享,促进全球大模型生态的繁荣。
新一代语义向量模型BGE2
BGE(BAAI通用嵌入)是致远今年8月新推出的开源语义向量模型。
这一次,新一代BGE2也将与Aquila2一起开源。
BGE2中的BGE-LLM嵌入器模型集成了四种能力:知识检索、记忆检索、实例检索和工具检索。
首次实现了单一语义向量模型对大语言模型主要检索需求的全面覆盖。
结合具体使用场景,BGE-LLM embedded er将显著提升大语言模型在处理知识密集型任务、长时记忆、指令跟随、工具使用等重要领域的性能。
高效并行训练框架FlagScale
FlagScale是Aquila2-34B使用的高效并行训练框架,可以提供一站式语言模型训练功能。
由于致远团队的分享,大型模型开发者可以通过FlagScale项目获得Aquila2模型的训练配置、优化方案和超参数。
FlagScale开源代码仓库:https://github.com/FlagOpen/FlagScale
因此致远也成为了国内“第一个”拥有完整开源训练代码和超参数的大型模型团队。
FlagScale是Megatron-LM的扩展,提供了一系列的功能增强,包括分布式优化器的状态重分割、训练问题数据的精确定位、参数转换到Huggingface等。
经过实测,Aquila2训练吞吐量和GPU利用率都达到了业界领先水平。
FlagScale训练吞吐量和GPU利用率
此外,FlagScale还使用了多种并行技术,如数据并行、张量并行和1F1B流水线并行,以加快训练过程,并使用BF16进行混合精度训练。
在性能优化方面,FlagScale采用了FlashAttn V2、重叠计算与通信、梯度累加等技术,显著提高了计算效率。
未来,FlagScale将继续与上游项目Megatron-LM的最新代码保持同步,引入更多定制功能,集成最新的分布式训练和推理技术,主流大模型,支持异构AI硬件。
这样就可以构建一个通用、便捷、高效的大规模模型训练分布式推理框架,以满足不同规模和需求的模型训练任务。
开源计算子集标志注意
此外,FlagAttention是第一个支持长文本模型训练的定制化高性能开源计算子集,由Triton语言开发。
为了满足大规模模型训练的需要,扩展了Flash Attention系列的记忆高效注意算子。
目前已经实现了分段关注算子——分段关注,已经适配了国产芯片的数量,未来还会适配更多的异构芯片。
FlagAttention开源代码仓库:https://github.com/FlagOpen/FlagAttention
PiecewiseAttention主要解决旋转位置编码的变压器模型外推问题。
当大模型推理的序列长度超过训练的最大序列长度时,距离表征之间的注意权重异常增加。
然而,闪光注意力在分段时无法高效地实现注意力得分的计算。因此,致远团队开发了一种分段的PiecewiseAttention算子,可用于大型模型开发人员实现更灵活的预处理。
简单来说,PiecewiseAttention有以下特点:
-通用性:对于使用分段计算注意力的模型具有通用性,可以移植到Aquila以外的大型语言模型。
-易用性:FlagAttention基于Triton语言实现,提供PyTorch接口。构造安装过程比CUDA C开发的Flash Attention更方便。
-扩展性:同样得益于Triton语言,FlagAttention算法本身的修改和扩展门槛较低,开发者可以在此基础上轻松扩展更多新功能。
未来,FlagAttention项目将继续通过其他扩展功能支持注意力算子,以满足大规模模型研究的需求,进一步优化算子的性能,适应更多异构的AI硬件。
开发人员指南:快速入门Aquila2
Aquila2型号重量和代码仓库;
用法1(推荐):通过FlagAI加载Aquila2系列型号。
https://github.com/FlagAI-Open/Aquila2
用法2:通过FlagOpen模型仓库单独下载权重。
https://model.baai.ac.cn/
用法三:通过抱脸加载Aquila2系列机型。
Aquila2系列兼容众多大型生态开源项目;
Lora/qlora:一种轻量级的模型微调训练技术,不仅加速了大模型的训练,还减少了内存占用。
VLLM:支持构建高吞吐量大语言模型服务,支持流式输出,支持单机多卡和分布式并行推理。
骆驼。CPP:支持非GPU和4位量化,进一步降低开发者的使用门槛。"

作者:奇亿娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 奇亿娱乐 版权所有