当前位置:首页>AI资讯>全国产算力训练的深度推理大模型 – 讯飞星火X1升级版正式上线

全国产算力训练的深度推理大模型 – 讯飞星火X1升级版正式上线

基于全国产算力训练的深度推理大模型——讯飞星火X1升级版正式上线。

这是一次全面的跃升:

1️⃣综合能力大幅提升。整体效果对标OpenAI o3等国内外一流大模型最新版本效果,在翻译、推理、文本生成、数学等方面保持领先。

2️⃣幻觉治理取得显著进步。幻觉问题是掣肘大模型落地应用的关键问题,升级后的星火X1在幻觉治理方面领先业界主流模型。

3️⃣多语言能力已覆盖130+语种。为世界提供全栈自主可控大模型底座的“第二种选择”。

4️⃣基于星火X1底座的语音同传大模型在翻译效果、实时响应、语音听感、专业精深等方面大幅跃升,持续行业领先。

5️⃣得益于星火X1模型的升级,教育、医疗、企业应用、代码、科研等行业大模型和智能体也取得了新的进步,在复杂行业场景任务上进一步解决用户关键刚需。

6️⃣星火X1最新升级的能力可直接讯飞星火网页版和APP进行体验,全新API已同步上线讯飞开放平台

构建可信任的AI底座,打造懂你的“全场景助手”。

接下来,我们一起来看看具体细节吧!👇

全国产算力训练的深度推理大模型 - 讯飞星火X1升级版正式上线

此次升级,星火X1在多个任务上持续进步,综合能力再升级,特别是在翻译、推理、文本生成、数学、多语言上效果亮眼。

同时,在幻觉治理方面,对于大模型自身生成内容是否符合客观事实的事实性幻觉治理,以及在用户给定额外参考资料时大模型回复是否忠于原文的忠实性幻觉治理两方面均取得明显进步,显著提高了大模型行业落地应用的可靠性。

全国产算力训练的深度推理大模型 - 讯飞星火X1升级版正式上线
*测试集合来源:基础能力测试集来自真实的大模型请求任务数据,来源分布包括讯飞星火APP、星火大模型API真实开发者场景、业界主流任务数据等进行滚动更新;公开测试集以数学、答题、推理、代码等外部典型Benchmarks为主;忠实性幻觉测试集由Vectara推出的大模型排行榜Hallucination Leaderboard中公开的测试集,事实性幻觉测试集来自计算机、法律、历史等30多个领域的真实知识问答数据组成。

今年6月,在国内大模型挑战全国高考数学一卷的评测中,星火X1-0420版本突破了140分。本次升级,数学能力再次精进。

例如,2025年全国高考数学一卷的最后一题,难住了不少大模型,星火X1-0720版本完美答对~

多语言也是此次升级的一大亮点⭐️。

现在,星火X1已经能够支持130多种语种了,不管是日常问答、解数学题、写文章还是翻译,都能搞定,无障碍跨语言交流更进一步。

有了星火X1强大的多语言能力加持,讯飞的同传会议服务、SaaS端产品,还有讯飞翻译机、讯飞AI录音笔这些智能设备,翻译效果和用户体验都上了一个新台阶。

这背后离不开三大核心技术的突破——

1️⃣强化学习技术:提出了结合评语模型与细粒度反馈的强化学习技术,将单一标量奖励信号升级为文本级评语信号、在回复各步骤提供细粒度奖励的强化学习改进方案,有效降低了数学答题等任务的训练难度,解决了奖励稀疏痛点;

2️⃣数据反写技术:提出基于人类专家数据的通用认知任务数据反写技术,极大缓解了SFT高质量数据获取困难、人工标注数据成本过高等问题,实现了主观语言类任务文笔和风格化的显著提升;

3️⃣幻觉治理技术:提出了基于多路径采样验证及事实性约束强化学习的幻觉治理技术,在大模型思考过程及回复生成阶段实现客观问题上与标准答案的深度强对齐,大幅减少了在慢思考下的幻觉率,有效保障了文本摘要、RAG等任务的回复可靠性。

全国产算力训练的深度推理大模型 - 讯飞星火X1升级版正式上线

基于星火X1底座的语音同传大模型也全面升级,持续保持领先,在翻译效果、实时响应、语音听感、专业精深四大维度实现了显著进步,并且具备语种免切换能力。

全国产算力训练的深度推理大模型 - 讯飞星火X1升级版正式上线
全国产算力训练的深度推理大模型 - 讯飞星火X1升级版正式上线

*测试集合来源:测试集合是根据讯飞翻译机、讯飞同传等真实业务场景随机采样构建的测试集;测试指标为翻译综合质量得分(分值0~100分)

母语般交流,翻译综合质量超90分

在翻译效果上,基于内容完整度、信息准确度、语言质量等多方面主客观评价计算翻译综合质量得分(分值0~100分),新版本同传大模型效果较2025年1月首发版本提升20%,特别是有效消除了传统同传的碎片化割裂感,交流如母语般顺畅。在多人会议等复杂场景中英双向翻译得分可达80分以上,单人演讲翻译得分超90分,显著领先业界。

极致响应,首响快至2秒

响应速度实现重大突破,在保证翻译质量的基础上,中英同传的首字响应时间从首发版本的5秒缩短到最快2秒,达到了人类高阶同传的行业标准要求。即使在复杂会议或专业研讨这些高难度场景中,系统也能保持准确性和稳定的实时响应能力。

©版权声明:如无特殊说明,本站所有内容均为pptzk.com原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。