用户仅需一句录音,即可高保真复刻任意音色,再通过一条指令便可创造任意风格。11月6日,在第八届世界声博会暨2025科大讯飞全球1024开发者节上,科大讯飞业界首发基于星火语音大模型的“百变声音复刻”技术,这项技术的突破,为数字人、有声读物、内容创作等领域带来颠覆性变革,让每个人都能轻松创造专属声音。
发布软硬一体化解决方案 让AI融入真实世界软硬一体是AI红利在千行百业兑现的关键支撑。科大讯飞发布了融合AI与麦克风阵列、扬声器阵列、摄像头阵列、视觉呈现等的软硬件一体解决方案。
凭借独家“AI+麦克风阵列技术”,讯飞智能办公本X5通过首创的上4下4环八麦克风阵列实现超强抗噪,识别效果远超iPhone 17 Pro,高噪环境下识别准确率达95.08%;讯飞AI翻译耳机首创单耳三麦多感融合降噪系统,在复杂噪声下识别准确率高达97.1%;讯飞双屏翻译机2.0则独创强降噪模式,在90dB噪音下识别率达98.69%。此外,业界首个软硬一体的讯飞同传麦克风能实现自动翻译免切换,同传播报首响延迟低于2s,支持私有化部署。
通过独家“AI+扬声器阵列技术”与自研硬件算法,产品能够实现立体空间声场重构。搭载该技术的智能座舱音响方案iFLYSOUND,车内音效媲美百万豪车,已在19家车企量产落地,出货超100万台。
在视觉与健康技术上,讯飞AI黑板搭载全球首款圆偏类自然光护眼大屏,视觉疲劳降低50%,并拥有130度超宽域显示,让教室里的每个孩子都能看清黑板。科大讯飞AI学习机则集微纳米类纸屏等多项技术于一体,获得了国内外10余项权威护眼认证。
定义多模态交互8项能力 首发个性化记忆与百变声音复刻软硬一体支撑的多模态交互是AI融入真实世界的基础。发布会上,数字人导览“小飞”生动展示了其多模态交互能力:她能实现多人多语种对话,根据历史信息进行个性化推荐,并完成购票、订酒店等任务。“小飞”优秀的交互体验源于讯飞麦克风远场识别、3D视觉感知、多人主动交互、类人举止反馈、视听觉融合理解、超拟人数字人、个性化记忆、情感语义等八项技术能力上上的突破。刘庆峰指出,这些技术的联动让AI不再是简单的软件,而是能走进更有情感、更有深度应用空间的伙伴。
发布会重点首发了两大核心技术。其一是个性化记忆能力,星火X1.5通过构建用户个性化记忆库,实现对用户长期画像、近期反馈、短期对话的综合理解,让AI真正“懂你”。其二是百变声音复刻,基于星火语音大模型,仅需一句录音即可复刻任意音色,并用一条指令创造任意风格的声音。
刘庆峰:“超拟人多模态交互,将是未来AI进入每个家庭的标配。”