阿里通义 Fun-ASR1.5 语音识别大模型发布:精通 30 国语言及中文七大方言
IT之家 4 月 20 日消息,4 月 20 日(今天)下午,阿里通义实验室正式推出语音识别大模型 Fun-ASR1.5。 其基于统一的大模型架构,单模型即可 覆盖 30 种语言、汉语七大方言体系及 20+ 地方口音 ,古诗词吟诵也能精准转写。目前,Fun-ASR1.5 已在阿里
语言 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第8页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 155 篇相关文章 · 第 8 / 8 页
IT之家 4 月 20 日消息,4 月 20 日(今天)下午,阿里通义实验室正式推出语音识别大模型 Fun-ASR1.5。 其基于统一的大模型架构,单模型即可 覆盖 30 种语言、汉语七大方言体系及 20+ 地方口音 ,古诗词吟诵也能精准转写。目前,Fun-ASR1.5 已在阿里
各大语言的包管理缓存要把 c 盘占满了,哈哈哈
远程办公,弹性制不打卡,东八区时间 面试方式:线上面试 欢迎自荐推荐,简历至邮箱: yugongzi666@gmail.com (投递请注明来自 V2EX ,谢谢!) TG: @ AriaWanax VX: Aurora_Wanax 岗位职责 · 开发资产市场(现货、永续、期权)
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺
https://www.nature.com/articles/s41586-026-10319-8 1 个帖子 - 1 位参与者 阅读完整话题
今天打开tg,突然跳出来让选择语言,看到有简体中文,设置成简体中文后,和之前用的第三方还是有一些不一样的,大家赶紧去体验吧 2 个帖子 - 2 位参与者 阅读完整话题
如题,之前的最大优点就是语言模型、视频模型、图像模型、声音模型并行,好像是国内唯一几家能够All in one的模型公司。 结果现在编码模型还是M2.7、性能严重落后,原来量大管饱、便宜的优点现在不值一提,直接就是拉完了,而且没有看到公司在编码模型上面还有什么宏大的计划。 视频
让 opus 总结的,包含了踩坑记录和完整部署过程 可以直接丢给你们的agent看 Claude-Code-LSP-部署与踩坑记录.pdf (474.9 KB) 5 个帖子 - 4 位参与者 阅读完整话题
只会用codex 自然语言编程。但是写出来的ui都不太满意,所谓的skill压根不懂 3 个帖子 - 3 位参与者 阅读完整话题
IT之家 4 月 16 日消息,此前专注于文字内容的语言人工智能企业 DeepL 德国当地时间今日宣布推出专为实时口语交流设计的实时翻译产品套件 DeepL Voice-to-Voice。 DeepL Voice-to-Voice 套件包括 Voice for Meetings
IT之家 4 月 15 日消息,阿里云今日宣布推出阿里 ATH 事业群首款 AI 开发工具“妙悟 Meoo”。该工具集成了千问、Kimi、GLM、MiniMax 四大模型,并内置阿里云数据库、存储等核心产品服务。 用户无需具备任何编程基础,仅使用自然语言描述自身需求,Meoo 即
2026年,大语言模型和视频生成大模型都在疯狂烧token,而具身机器人行业却正在经历“无token可烧”的局面。大模型能像人一样读书,而具身智能要去真实的世界里摸爬滚打才能获取数据——数据的匮乏成为了卡住全行业的瓶颈。 4月16日,智元机器人旗下觅蜂科技发布一站式物理 AI 数
36氪获悉,4月23日,腾讯混元Hy3 preview语言模型发布并开源。该模型总参数295B,激活参数21B,最大支持256K上下文长度。这是混元重建后训练的第一个模型,也是混元迄今最智能的模型。
36氪获悉,4月24日,阶跃发布新一代自动语音识别模型StepAudio 2.5 ASR。据介绍,该模型率先将大语言模型推理加速技术引入语音识别领域,在推理速度与转写精度两个维度均有显著提升,主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。
《自然》15日发表的一项研究显示,大语言模型(LLM)可能会将某些自己的偏好“夹带私货”传授给其他算法,即使在训练数据中清除原始特征后,这些本不需要的特征,仍可能持续存在。在一个案例中,一个模型似乎通过数据中的隐含信号,将自己对猫头鹰的偏好传递给了其他模型。该研究结果表明,在开发