昆仑万维颜水成团队推出Q算法百倍提高模型推理能力
近日,昆仑万维携手新加坡南洋理工大学成功开发了一个名为Q*的算法,能够显着提升现有大模型的推理能力。在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。
Q*能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,这一算法不仅大幅提升了小模型的性能,还显着降低了计算资源的需求,为人工智能的广泛应用带来了全新可能,开创了高效智能的新纪元。
自OpenAI的Q*项目曝光后,引发业内众多讨论。据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。
(Meta科学家田渊栋则认为Q*是Q-learning和A*的结合,且天然地适合推理任务,尤其在数学推理方面)
昆仑万维自Q*项目曝光以来,一直密切关注Q*的动向,且在第一时间就成立研究小组尝试开发自己的Q*算法,希望打破OpenAI的封锁,提升现有开源模型的推理能力。经过数月的尝试,团队提出了一种新颖的Q*框架,并且帮助现有开源模型在GSM8K、MATH和MBPP数据集上,分别超越了ChatGPT和Gemini Ultra。
在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中,研究人员首先将大语言模型的推理轨迹分解为若干个状态,对于每一个状态,参考DeepCubeA中的设计,通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内,实现了对历史状态收益和未来期望收益的综合考虑。最后利用A*搜索算法对状态进行最佳优先搜索,实现了对复杂推理任务的全盘规划,从而提升开源模型在推理任务上的性能。
具体g(s_t)的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建Process Reward Model (PRM) 进行监督学习得到;g(s_t)中的聚合方式可以为求和,最大值,最小值等。
的最优Q值以实现规划,研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型
研究证明,Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力,大幅提升模型的性能,并显着降低了计算资源的需求。目前,Q*的研究尚在初级阶段,算法在各个环节还有进一步的改进空间。未来,昆仑万维会继续深入此项研究,不断提升国产开源模型推理能力,打破OpenAI闭源封锁,为人工智能前沿技术发展带来全新可能。
(责任编辑:管理)
- ·通过长程寿命摸底试车验证了薄弱环节治理可
- ·2024款华晨宝马5系于年初正式上市
- ·中国工商银行悉尼分行成功举办第六届进博会
- ·能带核弹的F-35威胁有多大
- ·2015年上市公司全年并购重组交易2669单
- ·有关保定天威英利消息可靠吗?
- ·有关五洲御锦城到底怎么回事?
- ·阳过之后心跳快是得了心肌炎吗?专家解答
- ·唯有不断夯实自身科技创新能力才能够在激烈
- ·马克龙甚至喊出北约脑死亡这一惊世骇俗的口
- ·国家公务员言语理解备考:并列关系类的文段
- ·水问题-北极星环保网
- ·丑女无敌主题曲到底是个什么梗?
- ·人民警察有哪几种类型?有什么区别?快来看
- ·有关李嘉诚打工皇帝网友怎么看?
- ·以构建全国性系统性国际性安全应急产业链供
- ·关于忘(wànɡ)澳(ào)捐(juān)真的假的?
- ·旭(xù)援(yuán)扩(kuò)棋(qí)具体是什
- ·在践行双碳战略方面
- ·尺度最大的6部限制级韩国电影哪部看完让你
- ·无可奈何这是怎么回事?
- ·进而独立调节神经细胞对传入信号的反应敏感
- ·游族网络正式登陆中国A股主板
- ·关于离婚律师恋爱中到底什么情况?
- ·2023年做地推和app拉新在哪里接单和找平台
- ·急中生智(jí zhōng shēng zhì)这件事可
- ·关于一(yī)触(chù)即(jí)发(fā)这是一
- ·价廉物美(jià lián wù měi)究竟什么情
- ·初夏那拉提盘龙谷满眼新绿惹人醉
- ·二人相处仍是让人忍俊不禁