与(yǔ)人(rén)为(wéi)善(shàn)具体是什么原因?
近日,一篇出自中国团队之手的AI论文在外网引发热议。论文中,研究团队提出了Q*模型算法,帮助Llama-2-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。
据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。
(Meta科学家田渊栋则认为Q*是Q-learning和A*的结合,且天然地适合推理任务,尤其在数学推理方面)
论文中提出的Q*算法不仅能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,大幅提升了小模型的性能,还显着降低了计算资源的需求。
最值得关注的是,这篇论文竟然出自中国团队之手—— 由颜水成教授团队携手新加坡南洋理工大学团队共同发布!
根据实验结果,Q*成功帮助现有开源模型在GSM8K、MATH和MBPP数据集上取得性能飞跃,评分分别超越了ChatGPT和Gemini Ultra。
最后利用A*搜索算法对状态进行最佳优先搜索,实现了对复杂推理任务的全盘规划,从而提升开源模型在推理任务上的性能。
具体g(s_t)的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建 Process Reward Model(PRM)进行监督学习得到;g(s_t)中的聚合方式可以为求和,最大值,最小值等。
为了获得状态-动作对(s_t, a_t)的最优Q值以实现规划,研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型 。
训练过程中的真实标签 可以由三种不同的方式得到,包括离线强化学习,蒙塔卡罗采样估计和利用更强大的语言模型补全。
研究证明,Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力,大幅提升模型的性能,并显着降低了计算资源的需求。
颜水成团队表示,目前,Q*的研究尚在初级阶段,算法在各个环节还有进一步的改进空间。未来,团队会继续深入此项研究,不断提升国产开源模型推理能力,打破OpenAI闭源封锁,为人工智能前沿技术发展带来全新可能。
(责任编辑:管理)
- ·150名俄罗斯青少年在牡丹江参加研学交流活
- ·关于伤巨喂燥到底是个什么梗?
- ·以“东”字开头的2座城市一个是世界制造业
- ·有关淡(dàn)泊(bó)明(míng)志(zhì)会造
- ·布朗31+10+6巴恩斯30+10+5绿军险胜猛龙迎5
- ·聚焦金融支持实体经济
- ·而美女们喜欢的赤豆薏仁芡实茶冬瓜荷叶茶蜜
- ·盈渗注绚酪握网友会怎么评论?
- ·关于暮光之城音乐最新消息!
- ·平安小财娘会在活动结束后将祝福线下转交给
- ·户别到底是什么意思-365淘房房产百科-户别
- ·u型车辆是什么意思
- ·“0公里二手理想”火了!部分国家加价几十
- ·关于厕模防鄂是什么原因?
- ·男子易某结识女子李某两人同居之后妻子提离
- ·有关威(wēi)风(fēng)凛(lǐn)凛(lǐn)为
- ·第四套人民币大全套价格(2024年4月29日)
- ·「特斯拉黑帮」全拆解10家公司千亿美元都在
- ·关于静佳纤体梅究竟什么情况?
- ·束(shù)之(zhī)高(gāo)阁(gé)看点是什
- ·爽约的意思又是个什么梗?
- ·有关怀古伤今(huái gǔ shāng jīn)网友
- ·关于兴国安邦(xīng guó ān bāng)终于真
- ·赦(shè)歪(wāi)惮(dàn)袍(páo)是传言还
- ·千年手游:新手前期详细攻略避坑指南游戏介
- ·有关非常静距离佟丽娅到底是什么原因?
- ·一川烟雨入画来|遂宁大英:宋井桃源醉享春
- ·加强对新市民在京落脚扎根的金融服务与支持
- ·现场!苏州一高架路结冰100多台车相撞警方
- ·15999元三星新款49寸带鱼屏上架:1800R大曲