【软件产业】OPPO应用生态多维度助力全球开发者高效增长(2025-10-20)
10月20日,OSCHINA讯,近日,2025OPPO开发者大会(ODC25)应用生态分论坛上,OPPO推出“OPPO隐私安全智护体系”。该体系升级权限管理机制,助用户实现隐私透明可控与精细管理,平台还全面升级合作策略,为开发者提供全链路解决方案。在安全筑基方面,OPPO对“上架-下载-安装-运行”全链路优化,上架提前审核检测,下载简化流程,安装减少验证步骤。同时上线“OPPO隐私安全智护体系”,通过系统级安全控件保障高敏隐私数据安全访问,落实“最小必要”原则,该体系由OPPO与国内主流安卓厂商协同共建,降低开发成本。在赋能开发者上,平台首次向个人开发者开放应用上传权限,12月底以“邀请制”定向邀约,后续扩大规模。“一键出海”功能让开发者在108个国家或地区快速分发APP。应用增长阶段,OPPO通过多途径为开发者高效获客,升级OPPOPUSH推送能力,OPPO广告联盟优化流量分发与变现效率,数据显示日均新增流量达50亿+。未来,OPPO将以“用户安全”与“开发者增长”双轮驱动,完善基础设施,推动应用生态健康发展。
【点评】OPPO在应用生态领域的举措具有前瞻性和战略性。通过推出“OPPO隐私安全智护体系”,在保障用户隐私安全的同时,简化流程提升用户体验,为开发者应用分发提供便利。对个人开发者开放上传权限和“一键出海”功能,极大地拓展了开发者的机会和空间,有助于激发创新活力。在应用增长阶段的多维度支持,能切实帮助开发者解决获客、留存和变现等问题。以双轮驱动构建生态平衡,既守护了用户隐私,又促进了开发者增长,为全球应用生态的健康发展贡献了积极力量,有望吸引更多开发者和用户加入OPPO生态。
【软件产业】蚂蚁开源高性能扩散语言模型推理框架dInfer (2025-10-20)
10月20日,OSCHINA讯,蚂蚁集团正式开源业内首个高性能扩散语言模型推理框架dInfer。基准测试显示,dInfer将扩散语言模型推理速度相比英伟达Fast - dLLM提升10.7倍,在代码生成任务HumanEval上,单批次推理速度达1011Tokens/秒,首次在开源社区使扩散语言模型单批次推理速度显著超越自回归模型。扩散语言模型有高度并行等优势,但推理效率长期受计算成本高、KV缓存失效、并行解码等挑战束缚。dInfer是专为扩散语言模型设计的算法与系统深度协同的推理框架,支持多种扩散语言模型,包含模型接入等四大核心模块,针对三大挑战集成针对性解决方案。在配备8块NVIDIA H800GPU的节点上,与Fast - dLLM对比平均推理速度提升10.7倍,HumanEval单批次推理速度出色,与vLLM上运行的Qwen2.5 - 3B相比平均推理速度是其2.5倍。蚂蚁集团称dInfer连接前沿研究与产业落地,标志扩散语言模型迈向实践高效关键一步,邀请开发者共同探索。
【点评】蚂蚁集团开源的dInfer框架意义重大,它直击扩散语言模型推理效率的痛点,通过系统性创新解决了长期存在的难题。其出色的性能提升数据,如在多个测试中的速度倍数增长,充分证明了该框架的有效性。可插拔的架构设计为开发者提供了灵活的探索空间,有助于进一步挖掘扩散语言模型的潜力。这一开源举措不仅推动了扩散语言模型从理论走向实践,也为全球开发者和研究者搭建了交流合作的平台,对构建高效、开放的AI新生态起到了积极的促进作用。
【软件产业】微软截图工具更新,支持即时标注功能 (2025-10-20)
10月20日,OSCHINA讯,近日,微软截图工具迎来重大更新,最新版本Snipping Tool v11.2508.28.0开始支持即时标注功能,并向所有用户推送。此次更新让用户无需保存截图或打开额外应用程序,即可直接对选定屏幕区域进行标注。用户通过Win+Shift+S快捷键进入截图模式后,截图工具不再自动保存截图,而是在选定区域下方显示浮动工具栏,提供绘图、高亮文本、插入选项、Bing反向图像搜索及发送至Copilot应用等功能,操作方式类似QQ和微信的截图工具。此前,用户需保存截图或打开画图等应用才能使用标注功能,如今流程大幅简化,提升了标注效率与便捷性。即使保存截图后使用截图工具编辑,也能看到这些选项,但新版本让标注过程更加直观流畅。
【点评】微软此次对截图工具的更新,瞄准了用户高频使用的标注需求,通过浮动工具栏设计,将编辑功能前置到截图过程中,显著减少了操作步骤。这种“即时标注”的体验优化,不仅贴合了日常办公与学习场景中的快速反馈需求,也体现了微软对用户习惯的深入洞察。与QQ、微信等成熟工具的操作逻辑看齐,降低了用户的学习成本,有望进一步提升Windows 11系统自带工具的使用率。
【软件产业】AI21开源迷你语言模型Jamba Reasoning3B(2025-10-13)
10月13日,OSCHINA讯,近日,AI21Labs宣布推出开源小语言模型Jamba Reasoning3B,这是Jamba系列模型最新成员,采用Apache2.0许可证发布。它专为设备上的人工智能计算设计,与多数大型语言模型不同,建立在自有混合状态空间模型(SSM) - 变换器架构上,状态空间模型是用于序列建模的深度学习算法,某些任务上更高效。该模型上下文窗口长度达256000个token,最多可处理1000000个token,具备与Anthropic Claude等大型语言模型相似能力,可在小型设备上运行。Futurum Group分析师认为状态空间模型使用更可行,其扩展性强且速度快,SSM类型模型使用绳索缩放技术扩展注意机制,计算能力需求比大型语言模型少。虽AI21规模较小,但获Google和Nvidia支持,融资超6亿美元,可通过建立生态系统从开源模型获利。发布会上,该模型在多个基准测试中表现超越多个大型开源LLM,分析师认为其在企业市场前景广阔,支持检索增强生成技术,可用于客户服务中心等场景。
【点评】AI21推出的Jamba Reasoning3B开源迷你语言模型具有创新性和独特优势。其混合架构在部分任务上的高效性是一大亮点,使得模型在具备强大能力的同时,能适应小型设备的运行需求,拓展了应用范围。在基准测试中超越众多大型开源LLM,证明了其性能的卓越。对于企业市场而言,支持检索增强生成技术和数据安全性保障,为其在企业客户服务等领域提供了广阔的应用前景。此外,AI21获得科技巨头支持和大量融资,有助于其通过建立生态系统实现盈利,推动该模型的进一步发展和普及。
【软件产业】豆包大模型1.6-vision正式发布(2025-10-13)
10月13日,OSCHINA讯,火山引擎正式发布豆包大模型1.6-vision,它是豆包大模型家族首个具备工具调用能力的视觉深度思考模型,拥有更强通用多模态理解和推理能力,还支持ResponsesAPI。该模型能将图像融入思维链,对图片进行定位、剪裁等精细处理,通过模拟人类视觉推理过程,增强推理可解释性,高效精准完成图像操作。同时,支持ResponsesAPI可让开发者自主选择调用工具,大幅减少Agent开发代码量,提升开发效率。与上一版视觉理解模型Doubao-1.5-thinking-vision-pro相比,豆包大模型1.6-vision综合成本降低约50%。
【点评】豆包大模型1.6-vision的发布是火山引擎在大模型领域的重要突破。其具备的工具调用能力和对图像的精细处理,为多模态应用场景带来了更多可能,增强了推理的可解释性也提升了用户对模型处理过程的信任。支持ResponsesAPI降低了开发者开发成本,提高开发效率,有利于吸引更多开发者基于该模型进行应用开发。成本的大幅降低则提升了模型在市场中的竞争力,有望推动相关应用在更多领域的普及。
【软件产业】蚂蚁百灵大模型团队发布Ling-1T(2025-10-13)
10月13日,OSCHINA讯,近日,蚂蚁百灵大模型团队发布Ling2.0系列首款旗舰非思考模型Ling-1T。该模型拥有万亿参数,沿用Ling2.0架构,每个token激活约50B参数。Ling-1T-base在20T+token高质量、高推理浓度的语料上预训练,支持最高128K上下文窗口,通过“中训练+后训练”的演进式思维链(Evo-CoT)极大提升高效推理能力。Ling-1T全程采用FP8混合精度训练(部分技术已开源),是目前已知规模最大的使用FP8训练的基座模型,带来显著显存节省、更灵活并行切分策略和15%+的端到端加速。在有限输出token条件下,Ling-1T在多项复杂推理基准中取得SOTA表现,展现出高效思考与精确推理的卓越平衡。
【点评】蚂蚁百灵大模型团队发布的Ling-1T具有重要意义。万亿参数使其具备强大的学习和处理能力,而采用FP8混合精度训练不仅节省显存、加速训练过程,还为大规模模型训练提供了新的技术思路。在预训练语料的选择和推理能力的提升上,体现了团队的专业性和前瞻性。在复杂推理基准中取得优异成绩,表明该模型在高效思考与精确推理方面找到了良好平衡,有望在实际应用中为用户提供更高效、准确的服务,推动相关领域的发展。
【软件产业】微软淘汰Windows部分旧版网页组件,推动技术更新(2025-09-22)
9月22日,OSCHINA讯,近日,微软更新Windows客户端版本中不推荐使用功能的清单,涉及与EdgeHTML和Windows 8/8.1上的网页应用相关的一系列旧版网页组件,不过用户日常功能不受影响。被淘汰的组件有Legacy Web View、Windows 8/8.1/UWP HTML/JavaScript应用(托管网页应用和Windows网页应用)、旧版渐进式网页应用(Legacy PWA)以及旧版Microsoft Edge(EdgeHTML)开发工具。微软已不再对基于已停产EdgeHTML引擎的部分进行开发,EdgeHTML曾是Windows 10时期原版Edge浏览器的核心引擎,后被基于Chromium的新Edge浏览器取代。微软建议开发者转向WebView2、基于Chromium的渐进式网页应用(PWA)以及其他受支持的网页技术,虽未完全终止对这些组件的支持和安全更新,也未公布停止支持或移除的确切时间,但这些组件已被正式列为不推荐使用,未来不会再获得新特性和安全更新,且将在Windows后续版本中被移除。此外,WMIC和PowerShell 2.0等功能也被淘汰,完整弃用功能及组件清单可在微软官方Learn网站查询。
【点评】微软淘汰Windows部分旧版网页组件是技术发展过程中的常见举措。随着技术的不断进步,EdgeHTML引擎已被基于Chromium的新Edge浏览器取代,那些基于旧引擎的组件逐渐失去优势。淘汰这些旧版网页组件,如Legacy Web View、旧版PWA等,有助于微软推动技术架构的简化和优化,将资源集中在更先进、更高效的技术上。建议开发者转向WebView2等受支持的网页技术,能引导开发者跟上技术潮流,开发出更符合现代需求的应用程序。虽然目前还未完全终止对这些组件的支持和安全更新,但明确列为不推荐使用并会在后续版本移除,给开发者留出了过渡时间。同时,WMIC和PowerShell 2.0等功能的淘汰也是技术更新的一部分,促使用户和开发者采用更先进的技术工具。这一系列举措将推动Windows系统及相关应用向更先进、更安全的方向发展。
【软件产业】Arm发布Lumex CSS移动端计算子系统,开启智能AI体验新时代(2025-09-22)
9月22日,OSCHINA讯,近日,Arm正式发布Lumex CSS(ComputeSubsystem,CSS)移动端计算子系统,这是专为旗舰级智能手机及下一代个人电脑设计的先进计算平台,旨在加速端侧AI体验并提升整体性能。Lumex CSS平台集成了搭载第二代可伸缩矩阵扩展(SME2)技术的最高性能Arm CPU、GPU及系统IP,支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样体验。该平台核心组件丰富,包括新一代搭载SME2技术的Armv9.3CPU集群(如ArmC1-Ultra和ArmC1-Pro为旗舰设备提供支持,ArmC1-Premium为次旗舰市场打造)、ArmMaliG1-UltraGPU(配备新一代光线追踪技术,提升图形、游戏及AI性能)、ArmC1-DSU(Arm迄今为止最灵活、高能效且具多种电源模式的Dynam IQShared Unit)、针对3纳米工艺节点优化的物理实现以及跨软件栈的深度集成(为使用Arm Kleidi AI软件库的开发者提供无缝AI加速体验)。Arm表示,Lumex不仅是面向消费计算市场的最先进CSS平台,更是开启新时代智能AI体验的基石,能为OEM厂商和开发者提供实现个性化、隐私保障与高性能AI体验的工具,是未来移动创新的全新起点。
【点评】Arm发布Lumex CSS移动端计算子系统是科技领域的一项重要进展。在当今智能设备对性能和AI体验要求不断提高的背景下,该平台专为旗舰级智能手机和下一代个人电脑设计,具有很强的针对性。集成的SME2技术相关CPU、GPU及系统IP,为多样化的丰富体验提供了有力支持,满足了用户对于桌面级移动游戏、实时翻译等多种功能的需求。其核心组件各具特色,从不同方面提升了平台的性能和功能,如Armv9.3CPU集群满足不同市场定位需求,ArmMaliG1-UltraGPU在图形和AI性能上均有突破,ArmC1-DSU的高效灵活以及针对3纳米工艺节点的优化等。对于OEM厂商和开发者来说,Lumex提供的工具和平台优势,有助于他们在关键端侧场景实现兼具个性化、隐私保障与高性能的AI体验,推动移动设备的创新发展,有望引领未来移动智能设备进入一个新的时代,为智能AI体验带来更多可能。
【软件产业】谷歌云储备订单达1060亿美元,成重要增长引擎(2025-09-22)
9月22日,OSCHINA讯,近日,谷歌云CEO Thomas Kurian在高盛会议上透露,目前谷歌云已签订但尚未履行的现有客户合同中,承诺金额累计高达1060亿美元。预计超一半会在未来两年内转化为收入,且其增长速度超过谷歌云收入。据谷歌母公司Alphabet 2025年第二季度财报,谷歌两大核心业务为广告和云业务,云业务营收从去年同期的103.47亿美元增长至136.24亿美元,同比增长32%。云业务强劲增长得益于人工智能处理需求激增,AI推动所有业务发展。鉴于云产品及服务市场需求强劲且持续增长,公司计划2025年将资本支出增加至约850亿美元。未来两年,谷歌云将获约580亿美元新收入,成为更核心组成部分。新客户环比增长28%,排名前十的人工智能实验室中有9个是谷歌云客户。Kurian介绍谷歌云战略,强调专有芯片开发和软件专业知识是在人工智能相关领域的优势。虽有媒体评价谷歌云在云服务排名第三,但作为Alphabet最强劲增长来源之一,受益于谷歌在人工智能的巨额支出,其专业知识赢得客户,尤其在人工智能初创公司中。
【点评】谷歌云储备订单达1060亿美元这一消息意义重大。在科技行业竞争激烈的当下,如此高额的储备订单是谷歌云实力的有力证明。云业务作为谷歌核心业务之一,其强劲增长态势令人瞩目,32%的同比增幅凸显了市场对其的认可。人工智能处理需求的激增成为云业务增长的关键驱动力,也反映出科技行业发展的大趋势。谷歌云计划大幅增加资本支出,显示出其对未来发展的信心和决心。未来两年预计获得约580亿美元新收入,将使其在谷歌的地位更加核心。新客户的增长和众多人工智能实验室的选择,进一步证明了谷歌云在市场中的吸引力。尽管在云服务排名中位居第三,但谷歌云凭借在人工智能基础设施等方面的优势,以及谷歌在人工智能领域的巨额投入,成为Alphabet强劲的增长来源,未来有望在市场中取得更好的成绩,推动科技行业不断发展。
【软件产业】百度上线首个“一站式”数智化生命科学研究平台AI4S LAB上线(2025-09-15)
9月15日,OSCHINA讯,近日,北京大学深圳研究生院与百度智能云联合打造的全球首个“一站式”数智化生命科学研究平台——AI4SLAB正式上线。该平台深度整合算力、数据、模型、实验四大要素,开发多智能体协同系统,为科研工作者带来“AI驱动、干湿闭环、全链数智”的云端科研体验,极大提升科研效能与创新能力。在数智化支撑生态建设方面,算力上配备可伸缩的高性能计算集群和超智融合算力调度系统;模型基于百度智能云千帆大模型平台,提供私有化模型与数据管理能力、一站式模型效果调优工具链,有超10个可直接使用的通用与生命科学垂直领域代表性模型,支持主流推理框架和模型自定义导入与部署;数据配备超15个专业数据集,提供开放共享且持续更新的知识平台,有高效数据管理功能和智能可视化数据分析工具;实验集成超22台套先进高通量、自动化、自迭代智能实验设备,为生命合成领域多场景提供高效科研服务。北京大学深圳研究生院自主研发的AI4S原生多智能体系统——BIOMA是平台全链路智能化核心,涵盖科研各环节,助力突破时空限制。BIOMA具有逆向智能设计、智能创制与表征、科研数据智能分析与迭代等强大能力,由理论科学家智能体、实验规划师智能体、实验室指挥官智能体、数据分析师智能体等功能协同的智能体构成,分别在理论预测、实验方案制定、实验执行、数据分析与优化等环节发挥关键作用。
【点评】AI4S LAB的上线是生命科学研究领域的一次重大突破。在科研过程中,整合算力、数据、模型和实验四大要素,为科研人员提供了全面且便捷的资源支持,极大地提升了科研效率。多智能体协同系统的开发,实现了科研流程的自动化和智能化,打破了传统研究的时空限制。其数智化支撑生态建设,从高性能计算集群到丰富的数据集和先进的实验设备,为科研工作提供了坚实的基础。BIOMA多智能体系统更是平台的一大亮点,各个智能体分工明确、协同工作,从理论设计到实验执行再到数据分析,形成了一个完整的科研闭环,能够加速科学发现的进程。该平台的出现,将推动生命科学研究向更加高效、精准的方向发展,为解决生命科学领域的复杂问题提供有力支持,有望在全球范围内引领生命科学研究的新潮流。
【软件产业】MaxKB v2.1.0版本发布,多项功能升级赋能企业智能体平台(2025-09-15)
9月15日,OSCHINA讯,近日,MaxKB开源企业级智能体平台正式发布v2.1.0版本。在工具方面,新增MCP工具管理功能,用户能添加并管理已有MCP服务,还可在应用中引用,简化了工具配置流程,提升了开发与运维效率。应用上,AI对话节点新增工具设置,用户选定自定义工具后,系统会自动将工具能力封装为MCP服务提供给模型,模型可自主决策是否调用,提升了交互效率与智能化体验;表单收集节点的参数支持引用变量,且新增多行文本框、文件上传和单行多选框组件,增强了表单配置灵活性与准确性。资源授权方面,新增按资源维度授权功能,可将应用、知识库、工具、模型等核心资源授权给指定用户,实现更细粒度权限管理,降低运维复杂度与安全管理成本。X-Pack增强包方面,应用接入支持对接企业微信智能机器人,方便实现AI能力与企业微信办公生态的高效联动,企业成员可通过单聊或群聊@提问,机器人以流式输出实时返回结果,提升信息获取与业务协同效率。
【点评】MaxKBv2.1.0版本的发布是企业级智能体平台的一次重要升级。在工具管理上,MCP工具管理功能的新增,让工具配置更便捷,有助于提升整体开发效率。AI对话节点的工具设置,使智能对话更加自然高效,增强了用户体验。表单收集节点的更新,满足了用户多样化数据收集需求,提高了表单处理效率。按资源维度授权功能,实现了更精细的权限管理,降低了系统运维成本。对接企业微信智能机器人,打通了AI能力与企业微信办公生态,提升了信息获取和业务协同效率。这些功能的升级,全面提升了MaxKB平台的功能性和实用性,能够更好地满足企业在智能体应用方面的需求,推动企业智能化办公和业务发展,为企业带来更高效、便捷的智能体验。
【软件产业】美团发布并开源LongCat-Flash-Chat,优化计算与性能(2025-09-08)
9月8日,OSCHINA讯,美团正式发布LongCat-Flash-Chat并同步开源。该模型采用创新性混合专家模型(MoE)架构,总参数560B,激活参数18.6B-31.3B(平均27B),实现了计算效率与性能的双重优化。基准测试显示,作为非思考型基础模型,它在仅激活少量参数时性能比肩主流模型,在智能体任务中优势突出,且推理速度更快,适合复杂智能体应用。技术上,引入“零计算专家”机制,依据上下文需求激活部分参数,通过PID控制器稳定单token平均激活量;层间铺设跨层通道,提高训练和推理效率,配合底层优化,30天完成高效训练,在H800上实现单用户100+tokens/s的推理速度,还对常用组件和训练方式改进,保证训练稳定性。针对智能体能力,自建评测集指导数据策略,优化训练全流程。通过算法和工程联合设计,成本和速度领先,系统优化后在H800上达成100tokens/s生成速度,输出成本低至5元/百万token。性能评估方面,在通用领域知识、智能体工具使用、编程、指令遵循等场景均表现出色。还同步提供基于SGLang和vLLM的两种高效部署方案。
【点评】美团发布并开源的LongCat-Flash-Chat在人工智能领域具有重要意义。在计算资源日益紧张的当下,其混合专家模型架构实现了计算效率与性能的平衡,通过激活少量参数达到领先性能,为行业提供了新的思路。创新的技术机制如“零计算专家”和跨层通道,提高了资源利用效率和训练推理速度,降低了成本。在智能体能力、通用领域知识、编程和指令遵循等多方面的优异表现,展示了其强大的综合实力。高效的部署方案也为其广泛应用提供了便利。该模型的开源将促进学术界和产业界的研究与应用,推动相关领域的技术发展,为智能体的开发和应用带来更多可能,有助于提升各行业的智能化水平。
【软件产业】腾讯ARC实验室发布AudioStory音频生成技术,革新音频创作(2025-09-08)
9月8日,OSCHINA讯,近日,腾讯ARC实验室发布AudioStory音频生成技术,该技术可一键生成复杂叙事场景的好莱坞级音效,能处理视频配音、音频续写和长篇叙事音频等。AudioStory将大语言模型与文本-音频系统相结合,可把复杂叙事请求拆分为有顺序的子任务,保证场景转换和情感基调一致。其采用“解耦桥接机制”分别处理事件内部语义对齐与跨事件一致性,通过端到端训练提升理解和生成的协同。用户用自然语言描述,系统就能自动分解事件序列,结合相关技术生成具有时序逻辑与情绪层次的高质量音频。该技术核心技术突破在于采用语义令牌与残差令牌双通道机制,精准协调宏观叙事与微观音效细节,还通过三阶段渐进训练解决长音频连贯性问题。目前,AudioStory技术已应用于视频自动配音、音频智能续写等场景,在万级测试集AudioStory-10K中展现出领先的指令遵循力与一致性,为有声书、游戏音效等领域提供了全新创作工具。
【点评】腾讯ARC实验室发布的AudioStory音频生成技术是音频创作领域的一项重要创新。在当下音频内容需求日益多样化的背景下,该技术能够一键生成好莱坞级音效,满足了视频配音、音频续写和长篇叙事音频等多种复杂场景的需求。将大语言模型与文本-音频系统结合,以及采用“解耦桥接机制”和端到端训练,保证了音频生成在场景、情感和理解协同上的高质量。核心技术突破中的双通道机制和三阶段渐进训练,精准协调了宏观与微观层面,解决了长音频连贯性难题。其在实际场景中的应用和在测试集中的优异表现,为有声书、游戏音效等领域带来了新的创作可能,有助于提升音频创作效率和质量,推动音频创作行业的发展。
【软件产业】阶跃星辰发布并开源Step-Audio2mini语音大模型(2025-09-08)
9月8日,OSCHINA讯,近日,阶跃星辰正式发布最强开源端到端语音大模型Step-Audio2mini,该模型在多个国际基准测试集上取得SOTA成绩。它将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出,还率先支持语音原生的ToolCalling能力,可实现联网搜索等操作,具备“听得清楚、想得明白、说得自然”的特点。在多个关键基准测试中,Step-Audio2mini表现卓越,综合性能超越Qwen-Omni、Kimi-Audio等所有开源端到端语音模型,在大部分任务上超越GPT-4oAudio。如在通用多模态音频理解测试集MMAU上以73.2分位列开源端到端语音模型榜首;在UROBench上,基础与专业赛道均获开源端到端语音模型最高分;中英互译任务上,在CoVoST2和CVSS评测集上大幅领先;语音识别任务上,在多语言和多方言方面取得第一,领先其他开源模型15%以上。该模型通过创新架构设计解决此前语音模型问题,采用真端到端多模态架构,实现原始音频输入到语音响应输出的直接转换,架构简洁、时延低且能理解副语言信息;引入CoT推理结合强化学习,对副语言和非语音信号精细理解并自然回应;支持音频知识增强,可解决幻觉问题并扩展多场景能力。目前,模型已上线GitHub、HuggingFace等平台。
【点评】阶跃星辰发布并开源的Step-Audio2mini语音大模型是语音技术领域的一项重要突破。在当前语音技术竞争激烈的环境下,该模型在多个国际基准测试集上取得的优异成绩,充分展示了其强大的性能。将语音理解、音频推理与生成统一建模,使其在多种任务中表现出色,为语音应用的开发提供了更强大的支持。率先支持语音原生的ToolCalling能力,拓展了语音交互的功能。创新架构设计解决了传统语音模型存在的问题,真端到端多模态架构简化了流程、降低了时延,CoT推理结合强化学习提升了对复杂信号的处理能力,音频知识增强则增强了模型的可靠性和扩展性。模型的开源也为广大开发者提供了宝贵的资源,有助于推动语音技术在更多领域的应用和发展,促进语音交互体验的进一步提升。
【软件产业】文心快码推新功能,提升开发与协作效率(2025-09-01)
9月1日,OSCHINA讯,近日,文心快码发布一系列新功能,提升个人开发体验和企业级协作效率。新功能包括Zulu-CLI引入、企业版自定义模型支持、一键设置自动执行、复用相同终端、本地代码库知识增强索引支持等。Zulu-CLI让开发者能在终端用自然语言命令实现编码需求,无需离开命令行界面,使用前需确保环境符合要求并按操作系统安装。企业版支持自定义模型,企业可根据自身需求选大模型,管理者简单设置公有大模型信息即可在IDE选模型。智能执行指令支持一键设置自动执行,提升AI生成与实际执行流转效率,减少开新终端次数,增强操作连贯性和资源利用效率。知识增强方面,支持对SVN仓库本地代码库知识索引,自动识别版本控制工具,提供精准代码建议和生成,助开发者管理维护代码。此外,新增对话中导出生成图片功能,可将架构图、流程图等导出为SVG或PNG格式,便于插入文档或共享。这些新功能从不同方面优化了开发流程,提高了开发效率和协作能力。
【点评】文心快码此次推出的新功能具有很强的针对性和实用性。在开发过程中,Zulu-CLI的引入让开发者能在熟悉的命令行界面借助智能编码能力,无需切换环境,提高了编码的便捷性。企业版自定义模型支持使企业能够根据自身业务场景灵活配置资源,满足多样化需求。一键设置自动执行和复用相同终端功能,提升了操作效率和资源利用率,减少了不必要的操作步骤。本地代码库知识增强索引支持有助于开发者更好地管理代码,提高代码质量。新增的导出图片功能方便了开发成果的展示和共享。这些功能的综合提升,不仅优化了个人开发者的工作流程,也为企业级协作提供了更有力的支持,有助于推动软件开发行业的高效发展。
【软件产业】面壁小钢炮MiniCPM-V4.5开源,多模态性能超越72B大模型(2025-09-01)
9月1日,OSCHINA讯,面壁智能宣布正式开源8B参数的面壁小钢炮MiniCPM-V4.5多模态旗舰模型。该模型是行业首个具备高刷视频理解能力的多模态模型,号称看得准、看得快、看得长,高刷视频理解、长视频理解、OCR、文档解析能力同级SOTA,且性能超过Qwen2.5-VL72B,堪称最强端侧多模态模型。MiniCPM-V4.5亮点颇多,它是首个“高刷视频理解”多模态模型,在同等视觉token开销下,可接收6倍视频帧数量,达到96倍视觉压缩率,是同类模型的12-24倍;是最强多模态SOTA模型,图片理解、长视频理解、OCR、文档解析同级SOTA且超越Qwen2.5-VL72B;端侧友好,推理效率佳,显存占用、平均推理时间等领先;支持长思考、短思考可控混合推理,性能好、速度快。其通过将模型结构从2D-Resampler拓展为3D-Resampler,进行三维视频片段高密度压缩,增加抽帧频次,能更精准理解动态画面。在多项视频理解、图片理解、文档识别榜单中达到同级最佳或越级领先水平,还支持常规和深度思考模式,平衡性能与响应速度。技术上,3D-Resampler实现高密度视频压缩,通过控制文字信息可见度融合OCR和知识学习范式,采用通用域混合推理强化学习平衡推理能力与延迟并降低幻觉。
【点评】面壁小钢炮MiniCPM-V4.5的开源在多模态模型领域引起了广泛关注。在当前多模态技术竞争激烈的环境下,该模型凭借其卓越的性能实现了对72B大模型的超越,具有重大意义。其高刷视频理解能力是一大亮点,通过创新的3D-Resampler结构,在保证推理开销不变的情况下,大幅提升了视频帧处理能力和视觉压缩率,使模型能够更精准地理解动态画面,在相关榜单中超越众多代表性云端模型。在图片理解、OCR和文档解析等方面也表现出色,通过融合OCR和知识学习范式,低成本实现了领先的OCR能力和多模态知识能力。同时,支持常规和深度思考模式,通过强化学习训练方案平衡了性能与响应速度,降低了幻觉。该模型的开源将为多模态技术的发展提供新的思路和参考,推动相关应用的创新,如智能视频分析、文档智能处理等领域,有望为行业带来新的变革。
【软件产业】百度AI搜索APP“梯子AI”发布,主打无广告智能搜索(2025-09-01)
9月1日,OSCHINA讯,百度旗下AI搜索应用在前期测试后,以全新名称“梯子AI”上架应用市场。该应用最初于8月10日以“Tizzy.ai”之名发布,版本号从1.0.0跃升至1.2.0,功能和服 务全面升级。“梯子AI”定位为智能搜索助手,依托百度多个大模型能力开发,主打无广告智能搜索服务,整合深度思考、资源检索及影视娱乐等多功能,为用户提供“简单搜索,一触即达”的极致体验。在功能设计上,其AI双模智能搜索功能支持自动思考与深度思考双模式智能引擎,能精准分析全网信息,结合用户偏好提供个性化答案,使搜索结果高效、精准。应用注重交互体验的极简设计,简洁搜索框让用户输入问题后直达答案,全程无推广信息干扰,实现“纯净搜索”。此外,“梯子AI”构建了丰富短剧生态,网罗全球热门影视资源,用户畅看无阻,观看短剧时享受无广告、无会员、加速缓冲的沉浸式观剧体验,且应用重新设计细节,确保用户边看边搜时感受极致舒适与便捷。
【点评】百度AI搜索APP“梯子AI”的发布是百度在智能搜索领域的一次重要布局。在当前搜索市场竞争激烈,广告干扰用户体验的背景下,“梯子AI”主打无广告智能搜索服务,具有显著的差异化优势。其依托百度强大的大模型能力,通过AI双模智能搜索功能,能更精准地理解用户需求,提供个性化搜索结果,提升了搜索的效率和质量。极简的交互设计,让用户摆脱了推广信息的干扰,实现了纯净搜索,优化了用户体验。丰富的短剧生态和无广告、无会员、加速缓冲的观剧体验,进一步满足了用户多样化的娱乐需求。这些功能的结合,使“梯子AI”在智能搜索和娱乐体验上都有出色的表现,有望吸引大量用户,提升百度在智能搜索市场的竞争力,为用户带来全新的搜索和娱乐体验。
【软件产业】Gitee企业版测试管理全面升级,提升研发测试效能(2025-08-25)
8月25日,OSCHINA讯,近日,Gitee企业版对测试管理功能进行集中优化,围绕测试用例管理、测试计划执行与测试报告生成三大核心模块,显著提升规范性、可追溯性与协作效率。在用例管理方面,支持查看用例被引用情况,用例详情页新增「测试计划」Tab,用例列表显示「被引用测试计划数」字段;每个用例版本仅对应一个评审记录,评审通过后不可修改,优化版本维护机制,用户修改已通过评审用例自动生成新版本,且系统会自动提示重新评审。测试计划上,新增用例评审限制,仅支持添加评审通过的用例,确保用例质量,支持多次执行记录,用例列表新增查看结果分布等功能,用例详情记录多次执行过程,还支持快速创建缺陷,缺陷描述自动回填步骤信息,执行记录支持富文本编辑,自动检测用例新版本并支持一键更新。测试报告方面,新增组件化报告配置功能,支持富文本总结与模板复用,可导出PDF、Excel等多种格式,线上报告列表类组件数据超100条时,PDF无法导出超100条部分,可导出Excel查看。此次更新夯实了Gitee企业版在研发测试管理场景下的流程完整性与协作效率,适合对质量管理要求高的项目团队。
【点评】Gitee企业版测试管理的全面升级是研发管理领域的重要进步。在用例管理上,清晰的版本管理和规范的评审流程,确保了测试用例的准确性和可追溯性,方便团队成员了解用例的使用情况。测试计划的优化,通过严格的用例评审限制和详细的执行记录,提高了测试执行的效率和质量,快速创建缺陷功能也加快了问题反馈和解决的流程。测试报告的升级,自定义功能和灵活的导出格式,满足了不同团队的需求,便于团队对测试结果进行分析和总结。整体而言,这些升级进一步提升了Gitee企业版在研发测试管理场景中的效能,有助于企业提高产品质量,尤其对质量管理要求高的项目团队具有重要价值。
【软件产业】昆仑万维上线AI音乐模型Mureka V7.5,推动音乐创作智能化(2025-08-25)
8月25日,OSCHINA讯,近日,昆仑万维集团在SkyWork AI技术发布周推出Mureka V7.5模型,这是该发布周的压轴之作。Mureka V7.5在中文歌曲创作上能力卓越,音色、演奏技法、咬字和情感表现均有显著提升,能精准传达中文音乐艺术神韵与情感色彩,涵盖多种中文音乐风格,展现中文音乐多样性与文化特性。为提升人声真实性和情感深度,该模型优化自动语音识别(ASR)技术,精准识别唱词,分析演唱细节,增强人声自然度、呼吸感和情感表达真实性,使AI歌曲更贴近真人演唱。此外,昆仑万维语音团队推出MoE-TTS框架,这是首个基于Mixture of Experts(MOE)的角色描述语音合成框架,能让用户通过自然语言精准控制声音特征与风格,即使使用开源数据,在角色贴合度上也能对标甚至超越闭源商业产品。该框架结合预训练大语言模型和语音专家模块,实现“知识零损失”泛化理解能力,在复杂描述匹配度上表现出色,有望推动行业从“封闭标签式控制”走向“自然语言自由控制”新范式,后续计划集成至Mureka-Speech平台,为开发者和创作者提供语音合成能力。
【点评】昆仑万维上线Mureka V7.5模型是AI音乐领域的重要进展。该模型在中文歌曲创作方面展现出强大能力,从多方面提升音乐创作的质量和效果,满足了市场对高质量中文音乐的需求。优化的ASR技术使人声表现更真实,增强了AI音乐的感染力。而MoE-TTS框架的推出更是具有突破性,解决了描述性语音合成领域的难题,为语音合成提供了新的思路和方法。其有望推动行业范式的转变,加速数字人、虚拟助手和沉浸式内容创作的体验升级。将这些技术集成和推广,将为全球开发者和创作者提供更多可能,促进AI音乐产业的繁荣发展。
【软件产业】金山办公半年报:AI业务亮眼,WPS365营收大增(2025-08-25)
8月25日,OSCHINA讯,近日,金山办公发布2025年半年报,呈现稳健增长态势。上半年营收26.57亿元,同比增长10.12%;归母净利润7.47亿元,同比增长3.57%;扣非净利润7.27亿元,同比增长5.77%。AI技术深度应用成效显著,截至6月30日,WPS AI月活跃用户数达2951万,较2024年底大幅增长,WPS Office全球月度活跃设备数创历史新高,达6.51亿。个人业务方面,WPS个人业务收入17.48亿元,同比增长8.38%,国内累计年度付费个人用户数和海外付费用户及收入均有增长,海外市场通过优化运营和AI权益部署提升用户增长效率。企业级市场表现亮眼,WPS365业务收入3.09亿元,同比增长62.27%,成为业务增长新引擎,在教育领域覆盖率高,服务众多高校和师生,在政企领域推出“企业大脑”解决方案,新增标杆客户,智能文档库表格识别召回准确率高。报告期内,金山办公发布WPS AI3.0和WPS灵犀,创新功能丰富,获相关奖项。公司上半年研发投入9.59亿元,同比增长18.70%,研发人员占比约66%。东吴证券和华创证券研报看好其在AI + 企业服务领域的投资价值。
【点评】金山办公2025年半年报亮点颇多。在整体业绩上,营收和利润保持增长,展现出稳健的发展态势。AI技术的深度应用成为一大亮点,WPS AI月活跃用户数和WPS Office全球月度活跃设备数的增长,体现了其在AI办公领域的吸引力。个人业务和企业级市场均有良好表现,个人业务付费用户增加,海外市场拓展有效;企业级市场中WPS365业务营收大增,成为新引擎,在教育和政企领域成果显著。创新功能丰富且获得奖项,显示出其在AI与办公软件融合上的领先地位。高额的研发投入和占比高的研发人员,为技术突破提供了坚实支撑。券商看好其在AI + 企业服务领域的投资价值,预示着金山办公在AI Agent规模化落地背景下有重要发展机会,未来有望在办公软件市场中持续保持竞争优势,推动行业发展。