面壁智能推出VoxCPM高拟真语音模型(2025-09-24)
9月24日,OSCHINA讯,近日,面壁智能与清华大学深圳国际研究生院人机语音交互实验室联合推出新型语音生成模型VoxCPM。该模型参数尺寸为0.5B,能在自然度等关键指标上达行业领先水平。通过零样本声音克隆技术,用极少数据实现个性化语音合成。已在多平台开源并提供体验平台,在权威评测榜表现出色,实时因子满足实时交互需求,音质和情感表达佳,技术架构融合多种技术提升语音表现力。
【点评】面壁智能推出的...
9月24日,OSCHINA讯,近日,面壁智能与清华大学深圳国际研究生院人机语音交互实验室联合推出新型语音生成模型VoxCPM。该模型参数尺寸为0.5B,能在自然度等关键指标上达行业领先水平。通过零样本声音克隆技术,用极少数据实现个性化语音合成。已在多平台开源并提供体验平台,在权威评测榜表现出色,实时因子满足实时交互需求,音质和情感表达佳,技术架构融合多种技术提升语音表现力。
【点评】面壁智能推出的...
9月24日,OSCHINA讯,近日,美团发布基于混合专家架构的大型推理模型LongCat-Flash-Thinking,总参数量达5600亿,能按需动态激活186亿至313亿参数,平均约270亿参数。该模型在逻辑、数学、编程及Agent任务表现出色,在AIME25等任务上可减少64.5%的token消耗达到顶级准确率。在多个基准测试中接近领先模型水平,模型权重已按MIT许可证开源,还提供聊天模板并上线官方聊天网站。
【点评】美团推出的LongCat-Fla...
9月23日,OSCHINA讯,近日,中科院自动化所李国齐与徐波团队发布全球首款大规模类脑脉冲大模型SpikingBrain1.0。它能以超100倍速度处理400万token超长文本,仅需2%数据量。该模型针对主流Transformer架构计算复杂度高、处理长文本耗时耗能的短板,模拟人脑神经元工作方式,采用混合线性注意力架构降低复杂度,引入自适应阈值脉冲神经元节省能耗,还开发模型转换技术降成本,技术细节和代码已开源。
【点评】...
9月23日,OSCHINA讯,近日,OPPO在ColorOS 16流畅技术沟通会上宣布推出Android首个跨级融合编译技术“繁星编译器”。这是ColorOS 16全新自研编译技术,从底层重构Java代码与专属硬件编译链路,实现硬件级优化,提升编译效率。它能显著提升系统流畅度,在API性能、应用启动速度和响应效率方面优化明显,让千元机等中低端设备也能有接近旗舰的流畅体验,还与极光引擎、潮汐引擎协同提升全场景、全机型持久流畅性。
...
9月22日,OSCHINA讯,北京深度逻辑智能科技有限公司近日推出首个完全开放、端到端的语音语言模型研究框架LLaSO。该框架为社区提供统一、透明且可复现的基础设施,包含开源的数据、基准和模型。其有LLaSO-Align、LLaSO-Instruct、LLaSO-Eval三个核心开源组件,还基于框架数据训练了参考模型LLaSO-Base,验证了框架有效性。
【点评】逻辑智能推出的LLaSO框架意义重大。它为语音语言模型研究提供了全面的开源资...
9月22日,极客网讯,近日,华为坤灵秋季新品发布会在上海举办,华为常务董事汪涛发布“4+10+N”中小企业智能化方案,助力中小企业打通迈向智能世界“最后一公里”,还发布“百&万计划”发展分销伙伴。当前AI成企业发展主引擎,中小企业智能化转型面临挑战。
【点评】华为发布的“4+10+N”中小企业智能化方案极具针对性。当下AI虽成企业发展关键,但中小企业在智能化转型中困难重重。华为将产品分销模式升级为...
9月19日,OSCHINA讯,近日,腾讯大前端领域Oteam推出基于Kotlin Multiplatform的跨端综合解决方案Kuikly,支持多平台。目前该团队已完成对“液态玻璃”的首阶段适配并开源。适配时未引入新组件,通过简洁视图属性扩展为现有组件添加效果,如在iOS平台用一行代码即可启用,且适配工作是在框架渲染层和DSL驱动层扩展,为开发者提供低成本方案。
【点评】腾讯Kuikly框架适配“液态玻璃”是一次有价值的创新。它...
9月19日,OSCHINA讯,国家网络安全宣传周分论坛上,相关部门发布《AI时代网络安全产业人才发展报告(2025)》。报告显示,2025年全球网络安全人才缺口升至480万,同比增长19%,网络安全运营类岗位需求居首,企业青睐有经验与实战能力者。全国792所高校开网络安全专业,多数新增AI安全课程、建成实训室。报告还列出AI驱动的网络安全岗位图谱,给出多方发展建议。此外,我国物流供应链领域人工智能应用渗透率较高。
9月18日,OSCHINA讯,近日,清华大学携手中国软件评测中心发布《2025大模型服务性能排行榜》,PPIO在DeepSeek-R1-0528的吞吐测试中排名第一。该榜单从延迟、吞吐等指标评测,保障客观公正,覆盖多个代表性模型,PPIO在20余家MaaS供应商中表现出色,在部分模型吞吐与延迟性能上进入前五。
【点评】PPIO在2025大模型服务性能排行榜的吞吐测试中夺冠意义显著。吞吐和延迟是衡量大模型服务的关键维度,高吞吐利于...
9月18日,OSCHINA讯,近日,阿里巴巴通义实验室推出端到端语音识别大模型FunAudio-ASR,专为解决企业落地难题,有高精度通用识别能力,创新Context增强模块优化工业场景关键问题,提升高噪声环境下识别准确率,降低幻觉率。
【点评】阿里巴巴推出的FunAudio-ASR大模型亮点突出。其创新Context模块显著提升高噪声环境下语音识别准确率,降低幻觉率,为行业树立新标杆,适用于多种嘈杂场合。模型训练使用大量音...
9月17日,OSCHINA讯,近日,百度发布OCR模型PP-OCRv5,这是PP-OCR新一代文字识别解决方案,聚焦多场景、多文字类型识别。它支持简体中文等5大主流文字类型,提升了中英复杂手写体等挑战性场景识别能力,在内部评估集上较PP-OCRv4端到端提升13个百分点。采用模块化两阶段流程,模型更小更高效,适合资源受限硬件。已在HuggingFace上线,开发者可下载本地部署。
【点评】百度发布的PP-OCRv5具有重要意义。它针...
9月16日,IT之家讯,近日,国务院办公厅发布加强旅游市场综合监管通知。要求落实旅游经营者主体责任,推动依法依规经营,保障游客权益与市场秩序。指导旅行社合理安排行程、管理导游队伍,督促在线旅游平台与旅游经营者加强个人信息保护,禁止“大数据杀熟”等侵害游客权益行为,推动在线旅游市场健康发展。还压实旅游包车企业责任,要求购物场所等质价相符,抵制商业贿赂。此外,发挥投诉平台作用,完善处理机制,...
9月16日,OSCHINA讯,近日,火山引擎宣布推出命令行AI Agent:veCLI,无缝集成豆包大模型1.6,通过将大模型AI能力整合到命令行界面,让开发者能够在熟悉的环境中获得智能助手的全方位支持,为开发者提供更智能、更高效的开发体验。
【点评】veCLI的发布是火山引擎在AI领域的一大创新。通过将大模型AI能力整合到命令行界面,veCLI为开发者提供了便捷、高效的开发工具。其灵活的模型切换和丰富的工具集成能力,将显...
9月15日,OSCHINA讯,近日,中央网信办副主任、国家网信办副主任王京涛在《新安全》杂志撰文。今年是“十四五”收官、“十五五”谋篇布局及全面深化改革重要一年,网络安全机遇挑战并存,要推进国家网络安全体系和能力现代化。要围绕重点领域加强产业链协同创新,促进软件生态、开源代码等自主生态构建,发挥制度机制作用防范风险。
【点评】王京涛副主任的文章为我国网络安全和重点领域发展指明方向。在网络...
9月15日,OSCHINA讯,近日,小米集团新一代Kaldi团队发布基于Flow Matching架构的ZipVoice系列语音合成模型,包括零样本单说话人语音合成模型ZipVoice和零样本对话语音合成模型ZipVoice - Dialog。该系列解决了现有零样本语音合成模型参数量大、合成速度慢以及对话语音合成模型稳定性和推理速度瓶颈等问题,在轻量化建模和推理加速上取得突破。团队已将模型文件、训练和推理代码及6.8k小时语音对话数据集OpenDialog...
9月12日,OSCHINA讯,近日,蚂蚁集团百灵团队正式开源Ling2.0系列首款模型Ling-mini-2.0。该模型采用1/32激活比例的MoE架构,总参数16B,每个token仅激活1.4B参数。用超20Ttoken数据训练,经多阶段优化,性能对标7-8B规模dense模型。在多基准评测中成绩优于同规模及更大MoE模型,稀疏激活设计有显著效率优势,借助YaRN技术可外推至128K上下文。
【点评】蚂蚁集团百灵团队开源的Ling-mini-2.0模型亮点颇多。其...
9月12日,OSCHINA讯,近日,清华深研院与国际数字经济研究院的中国团队推出GUAVA新技术,仅用一张照片0.1秒就能生成高质量3D高斯化身并实时驱动,画面流畅度超50帧每秒。传统创建3D数字人需复杂拍摄或耗时训练,而GUAVA速度惊人,其创新技术架构含EHM模型和3D高斯泼溅,身份一致性表现出色。该技术可为自媒体、直播等多领域提供支持。
【点评】清华团队开源的GUAVA技术是一项重大突破。在3D数字人生成领域,...
9月11日,OSCHINA讯,近日,哔哩哔哩语音团队发布并开源新一代零样本语音合成模型IndexTTS2,相关论文、代码与模型权重已在arXiv、GitHub与Hugging Face公开。该模型在自回归架构中引入“时间编码”机制,支持毫秒级时长控制和自由生成。它由T2S、S2M和BigVGANv2声码器三个核心模块组成,实现端到端语音合成。训练数据丰富,在多项基准测试中成绩优异,主观评测表现出色,还提供多种接口,可用于多种场景。
...
9月11日,OSCHINA讯,近日,字节跳动Seed团队发布新一代图像创作模型Seedream 4.0。该模型采用同一构架实现文生图与通用编辑能力,融合常识和推理能力,在多模态效果、速度和可用性上较前代有显著突破。其亮点包括多模态玩法拓展、风格化美感提升、逻辑理解力增强、自适应与4K生成、推理速度跃升等,目前已上线,可通过多个平台体验。
【点评】字节跳动Seedream 4.0图像创作模型的发布是图像创作领域的一次重...
9月10日,OSCHINA讯,近日,OpenDataLab和钉钉基于MinerU推出面向企业用户的文档解析工具DLU(Document Language Understanding)。MinerU是上海AI实验室OpenDataLab推出的智能文档解析引擎,在GitHub上累计获超4万星标。DLU将于近期开源,具备良好文件格式兼容性,支持主流Office文档等多种格式,还能深层次理解内容,精准结构化输出,可提取纯文本,解析复杂视觉元素并转化为高质量语料。
【点评】OpenData...
9月10日,OSCHINA讯,近日,美国大模型公司Anthropic停止向多数股权由中国资本持有的集团出售Claude服务,涵盖中国大陆及间接使用企业。为助开发者平稳过渡,智谱推出「Claude API用户特别搬家计划」。智谱全面兼容Claude协议,用户换API URL就能从Claude无缝切至GLM模型API。为新用户赠2000万Tokens免费体验,开发者有低价高量套餐,还有迁移教程。企业客户有并发规模、折扣优惠和顾问服务,还给出快速迁移教程。
9月9日,OSCHINA讯,近日,我国科研人员研发出类脑脉冲大模型“瞬悉1.0”。该模型由中科院自动化所李国齐、徐波团队与相关单位合作,基于“内生复杂性”理论构建,在国产GPU平台完成全流程训练与推理。它借鉴大脑神经元机制,与主流Transformer架构不同,仅用约2%主流模型数据量就能在多项语言任务中媲美主流模型。这是我国首次提出相关架构和构建训练推理框架,在超长序列任务建模场景有潜在效率优势,为人工智能发...
9月9日,OSCHINA讯,近日,腾讯混元游戏视觉生成平台正式发布2.0版本,新增游戏图生视频、自定义模型训练、角色一键精修等能力,大幅提升游戏2D生图模型能力,图生视频和文生图模型在游戏场景达行业SOTA水平。此次升级解决游戏美术设计痛点,帮助提高效率,且面向所有用户开放。新能力可让静态画面变动画,降低生图模型精调门槛,还能对角色原画细节丰富或风格转换。
【点评】该平台2.0版本的发布是游戏视觉...
9月8日,OSCHINA讯,近日,中控技术正式发布时间序列大模型TPT2,这是专为流程工业设计的AI工具。它基于工业时序数据构建AI算法,是全球首个深度契合流程工业第一性原理的可信模型。凭借强泛化能力,能适配多类生产工艺并闭环应用,可精准挖掘工业数据价值,在保障生产安全等多关键场景发挥核心作用,为企业提供一体化支撑。
【点评】中控技术发布的TPT2大模型针对性强,为流程工业量身打造。其基于工业时序...
9月8日,OSCHINA讯,近日,Wine项目发布Wine10.14开发版,属双周更新。此次更新多项改进,VKD3D升级至1.17提升D3D12应用和游戏在Linux兼容性与性能;Mono引擎更新至10.2.0增强.NET应用运行表现;支持IPv6Ping利于网络诊断;CI迁至Debian13“Trixie”便于管理;还修复19项Bug,强化跨平台兼容与稳定。
【点评】Wine10.14开发版更新亮点颇多。VKD3D和Mono引擎的升级直接提升了特定应用和游戏的运行效果,支持IP...
9月5日,OSCHINA讯,近日,腾讯优图实验室正式开源智能体框架Youtu-Agent。该框架以极简高性能为核心,为科研和开发人员提供高效易用的开发工具。它面向多方向应用,已支持腾讯云业务。不依赖海外闭源大模型API和额外训练模型,能在实际场景有好效果。在多个基准测试成绩领先,框架设计开源友好、架构灵活、自动化且简洁。
【点评】腾讯优图实验室开源的Youtu-Agent框架优势明显。其极简高性能的设计满足了科...
9月5日,OSCHINA讯,近日,智象未来团队将视觉自回归(VAR)架构引入图像编辑,提出全新指令引导编辑框架VAREdit,解决了扩散模型固有顽疾。该框架把下一尺度预测范式引入其中,基于文本指令和量化源图像特征预测目标图像多尺度视觉残差,还提出新颖SAR模块,实现图像编辑精准性和高效性双重提升。团队表示,VAREdit能“指哪打哪”,实现精准度与速度双重突破。
【点评】智象未来团队此次提出的VAREdit框架意...
9月4日,OSCHINA讯,近日,小米正式发布澎湃OS 3,优化升级多项系统化服务功能并全面接入苹果生态。该系统在自研芯片技术积累上,深入性能和图形根技术。新增“热点编译加速”“窗口绘制下沉”技术,提升能效和渲染效能。首推“小米超级岛”,跨端互联支持苹果设备,超级小爱全面升级,预计9月底支持众多应用和能力。8月29日Beta版首批机型陆续推送。
【点评】小米澎湃OS 3的发布是小米系统的一次重大升级。...
9月4日,OSCHINA讯,GTK 4.20正式发布。新版本在Wayland、渲染器兼容性、跨平台支持、无障碍以及视频与图形处理方面有重大更新,为Linux、macOS、Android与Windows提供更稳定体验,也为GNOME 49桌面环境提供技术基础。它在多方面功能提升,还将被GNOME 49默认采用。
【点评】GTK 4.20的发布是开源图形工具包领域的重要进展。其在多个关键领域的更新,如Wayland支持提升、跨平台增强、功能与渲染改进等,显著...
9月2日,OSCHINA讯,近日,开源直播与录制工具OBS Studio 32.0.0首个Beta版发布。此版本有诸多更新,包括引入内建插件管理器简化操作,可选自动崩溃日志上传助力问题修复。在NVIDIA RTX方面有新音频和视觉功能,还支持Hybrid MOV容器,增强跨平台兼容性。此外,有多项其他改进与修复,涵盖插件、UI、视频捕获、编码等方面,修复大量Bug。
【点评】OBS Studio 32.0.0 Beta 1的发布是开源直播录制领域的重要进...
9月2日,OSCHINA讯,近日,国家数据局发文宣布,具身智能灵巧手多样抓取仿真数据集(DexonomySim)开源发布。该数据集由银河通用在国家数据局指导下介绍发布,专为具身智能机器人灵巧抓取任务设计,含超950万条高质量抓取姿态,覆盖超1万个物体与31种常用抓握类型,是当前开源最大规模相关数据集。
【点评】具身智能高质量合成数据集的开源意义重大。DexonomySim数据集规模大、类型覆盖广,能为多指灵巧手在...
9月2日,OSCHINA讯,近日,快手开源并捐赠的向量化引擎Auron项目(原Blaze项目)近期进入Apache软件基金会孵化器。加入源于对开源生态认同和项目可持续发展考量,Auron已在多家公司应用。它基于向量化技术,有原生执行、向量化计算等核心能力,在TPC-DS上相比Spark有2+倍性能提升。
【点评】Auron加入Apache孵化器是开源领域的重要事件。该项目从快手的Blaze发展而来,有深厚的技术积累和广泛的应用基础。其...
9月2日,OSCHINA讯,近日,清华大学THUNLP实验室、东北大学NEUIR实验室、OpenBMB与AI9Stars联合推出UltraRAG2.0(UR-2.0),这是首个基于ModelContextProtocol(MCP)架构设计的开源RAG框架。该设计让科研人员用YAML文件就能声明复杂逻辑,快速实现多阶段推理系统。
【点评】UltraRAG2.0的发布为开源RAG框架领域带来革新。其基于MCP架构的设计是一大亮点,通过组件化封装、灵活调用扩展和轻量流程编排等特性,...
9月1日,OSCHINA讯,群核科技在首届技术开放日发布新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen,后续将逐步面向全球开发者开源。SpatialLM 1.5能理解空间关系,生成结构化场景脚本;SpatialGen可生成多视角图像。
【点评】群核科技此次发布的两款空间大模型具有创新性。SpatialLM 1.5突破传统大语言模型局限,能输出“空间语言”,生成的场景可用于机器人训练,解决数据难题。SpatialGen能生成...
9月1日,OSCHINA讯,近日,开源低代码引擎TinyEnginev2.8.0正式发布。该引擎能使能开发者定制低代码平台,支持在线实时构建与二次开发等。v2.8.0在AI新特性、区块管理等多方面有变更,还进行了文档更新、bug修复等。
【点评】TinyEnginev2.8.0的发布是低代码领域的一次重要更新。它持续强化核心功能,新增AI相关特性,提升开发效率。在区块管理、物料管理等方面的优化,增强了平台的灵活性与易用性。支持多种...
8月29日,OSCHINA讯,近日,Java开源工具集Hutool-5.8.40发布,此次为常规bug修复。修复了StrBuilder插入错误等多个问题,还新增了MathGenerator四则运算不生成负数结果、增加多种数据库驱动支持等特性。
【点评】Hutool作为功能丰富的Java工具库,此次更新意义重大。它修复了多个可能影响开发的关键bug,保障了工具使用的稳定性。新增的特性进一步拓展了其功能,如数据库驱动支持的增加,提升了工具在不同场...
8月29日,OSCHINA讯,近日,货拉拉开源了AspectPro Aop Plugin和page - spy - harmony两款实用三方库,解决应用开发中“代码耦合高”“远程调试难”问题。前者可让横切逻辑与业务代码解耦,提升代码质量;后者能实现远程可视化调试,加速问题定位修复。
【点评】货拉拉此次开源的两款三方库极具针对性。在软件开发里,代码耦合和远程调试难题一直困扰开发者。AspectPro Aop Plugin通过精准hook和编译阶段支持...
8月28日,OSCHINA讯,Docker发布更新,修复了Windows 10/11和macOS版Docker Desktop中编号为CVE-2025-9074的高危漏洞,该漏洞评分达9.3/10,利用难度低。官方在v4.44.3版本完成修复,建议用户尽快升级。
【点评】此高危漏洞危害极大,攻击者能借此绕过隔离机制控制主机。在Windows 10/11环境下风险尤为严重,而Linux版不受影响。Docker及时发布更新修复漏洞,凸显了对安全问题的重视。用户应尽快升级到安全版...
8月28日,OSCHINA讯,近日,2025中国操作系统产业大会上,新一代中国操作系统银河麒麟V11正式发布。该系统采用全新磐石架构,操作体验、安全性和生态丰富度大幅提升,是首个突破百万生态的国产操作系统,与国产主流芯片全面兼容。
【点评】银河麒麟V11的发布是我国操作系统领域的重大突破。其全新架构带来多方面性能提升,构建起完整国产化生态体系,彰显了国产操作系统的技术实力。在国家重大工程、政务及多...
8月27日,OSCHINA讯,在科隆国际游戏展上腾讯游戏发布游戏创作AI工具集VISVISE,涵盖动画、模型等四个核心领域。其中MotionBlink工具动画生成效率提升8倍,GoSkinning工具提升3D角色蒙皮效率,还重新设计游戏开发流程。
【点评】腾讯游戏发布的VISVISE工具集是游戏开发领域的一大突破。它聚焦动画制作等痛点,通过AI技术大幅提升效率,降低创作门槛,为小型团队和独立创作者提供支持。不仅减轻美术师工作负担...