新闻资讯

清晨重磅!阿里发布并开源Qwen3,无缝集成思考模式、多语言、便于Agent调用

  来源:华尔街见闻

  阿里巴巴周一发布并开源通义千问3.0(Qwen3)系列模型,并称其在数学和编程等多个方面均可与DeepSeek的性能相媲美。与其他主流模型相比,Qwen3还显著降低了部署成本。阿里表示,Qwen3无缝集成两种思考模式,支持119种语言,便于Agent调用。

  性能媲美DeepSeek R1、OpenAI o1,全部开源

  Qwen3系列包括两个专家混合 (MoE) 模型和另外六个模型。阿里巴巴表示,最新发型的旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力。

  此外,被称为“专家混合”(MoE,Mixture-of-Experts)模型的Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。这类系统模拟人类解决问题的思维方式,将任务划分为更小的数据集,类似于让一组各有所长的专家分别负责不同部分,从而提升整体效率。

  同时,阿里巴巴还开源了两个MoE模型的权重:拥有2350多亿总参数和220多亿激活参数的Qwen3-235B-A22B,以及拥有约300亿总参数和30亿激活参数的小型MoE 模型Qwen3-30B-A3B。此外,六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0许可下开源。

  “混合型”模型,两种思考模式

  阿里巴巴表示,Qwen 3系列是“混合型”模型,既可以花时间“推理”以解决复杂问题,也可以快速回答简单请求,分别叫做“思考模式”和“非思考模式”。“思考模式”中的推理能力使得模型能够有效地进行自我事实核查,类似于OpenAI的o3模型,但代价是推理过程中的延迟时间较高。

  Qwen团队在博客文章中写道:

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。

至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述,Qwen3展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。

这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

  训练数据量是Qwen2.5的两倍,便于Agent调用

  阿里巴巴表示,Qwen3系列支持119种语言,并基于近36万亿个token(标记)进行训练,使用的数据量是Qwen2.5的两倍。Token是模型处理的基本数据单元,约100万个token相当于75万英文单词。阿里巴巴称,Qwen3的训练数据包括教材、问答对、代码片段等多种内容。

  据介绍,Qwen3预训练过程分为三个阶段。在之一阶段(S1),模型在超过30万亿个token上进行了预训练,上下文长度为4K token。这一阶段为模型提供了基本的语言技能和通用知识。

  在第二阶段(S2),训练则通过增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的5万亿个token上进行了预训练。在最后阶段则使用高质量的长上下文数据将上下文长度扩展到32K token,确保模型能够有效地处理更长的输入。

  阿里巴巴表示,由于模型架构的改进、训练数据的增加以及更有效的训练 *** ,Qwen3 Dense基础模型的整体性能与参数更多的Qwen2.5基础模型相当。例如,Qwen3-1.7B/4B/8B/14B/32B-Base分别与Qwen2.5-3B/7B/14B/32B/72B-Base 表现相当。特别是在 STEM、编码和推理等领域,Qwen3 Dense基础模型的表现甚至超过了更大规模的Qwen2.5 模型。对于Qwen3 MoE基础模型,它们在仅使用10%激活参数的情况下达到了与Qwen2.5 Dense基础模型相似的性能,显著节省了训练和推理成本。

  而在后训练阶段,阿里使用多样的的长思维链数据对模型进行了微调,涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域,为模型配备基本的推理能力。然后通过大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。

  阿里巴巴表示,Qwen3在调用工具(tool-calling)、执行指令以及复制特定数据格式等能力方面表现出色,推荐用户使用Qwen-Agent来充分发挥Qwen3的Agent能力。Qwen-Agent内部封装了工具调用模板和工具调用解析器,大大降低了代码复杂性。

  除了提供下载版本外,Qwen3还可以通过Fireworks AI、Hyperbolic等云服务提供商使用。

  目标仍对准AGI

  OpenAI、谷歌和Anthropic近期也陆续推出了多款新模型。OpenAI近日表示,也计划在未来几个月发布一款更加“开放”的模型,模仿人类推理方式,这标志着其策略出现转变,此前DeepSeek和阿里巴巴已经率先推出了开源AI系统。

  目前,阿里巴巴正以Qwen为核心,构建其AI版图。今年2月,首席执行官吴泳铭表示,公司目前的“首要目标”是实现通用人工智能(AGI)——即打造具备人类智力水平的AI系统。

  阿里表示,Qwen3代表了该公司在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。展望未来,阿里计划从多个维度提升模型,包括优化模型架构和训练 *** ,以实现几个关键目标:扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围,并利用环境反馈推进强化学习以进行长周期推理。

  开源社区振奋

  阿里Qwen3的发布让AI社区感到激动,有网友献上经典Meme:

  有网友说,

在我的测试中,235B在高维张量运算方面的表现相当于Sonnet。

这是一个非常出色的模型,

感谢你们。

  有网友对Qwen3赞不绝口:

如果不是亲眼看到屏幕上实时生成的tokens,我根本不会相信那些基准测试结果。???? 简直像魔法一样????

  而开源AI的支持者则更加兴奋。有网友说:

“有了一个开源32B大模型,性能跟Gemini 2.5 Pro不相上下。”

“我们彻底杀回来了!”

  网友感谢阿里积极推动开源:

  市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

  • 纪念是给无法安息的死者的礼物|一周新书推荐
  • 习近平同肯尼亚总统鲁托会谈
  • 美国两党联手打压科技巨头 Meta、谷歌法庭受挫
  • 515投资者保护日 | DeepSeek引爆中国AI的“斯普特尼克时刻”,嘉实基金多维度科普AI新动向
  • 认养一头牛广告被质疑讽刺打工人,公司回应:致敬BOSS直聘
  • 北京朝阳法院:未经许可使用他人剧本语句和情节构成侵权
  • 五一小长假经济引擎点火,旅游板块能否乘势而上,再成市场焦点?一图速览
  • 伊朗外长:美伊第二轮谈判将于下周六举行
  • 涨价应对关税变化是短期之策,跨境电商塑造新品牌开辟“新蓝海”
  • 中央网信办:加大涉“开盒”挂人等违法违规行为举报受理处置力度
  • 10亿美元拿下加纳金矿!“矿茅”紫金矿业黄金板块突围战再下一城
  • 宁波银行:一季度实现归母净利润74.17亿元,同比增长5.76%
  • 对峙10小时,韩警方搜查总统府及官邸再次宣告失败
  • 韩国一战机飞行训练中掉落机炮吊舱和空油箱
  • 交银国际:升康方生物目标价至115港元 续列为行业重点推荐个股
  • 北京市强风持续,最大阵风风速达14级
  • 将大厂“优势”变转型“胜势”,一汽奔腾破局新能源
  • 盘前机会前瞻|首届具身智能机器人运动会今日开幕!这几家公司在核心零部件领域深度布局值得关注(附概念股)
  • 疫苗行业至暗时刻:价格战压顶、库存高悬,谁能撕开“三难”困局?
  • 三特索道索赔仍在征集,旅游业复苏净利大增!
  • 多名国家部委司局级领导履新央企党委(党组)副书记
  • 抖音“黑马”柳丝木靠50元的主力产品,一年卖出15亿
  • 北京市交通委通报顺平路潮白河大桥事故直接原因
  • 视频丨美国前副国务卿:两个最强大的国家陷入冲突,对彼此和世界都无益处,中美两国合作需以信任为根基
  • 福建一季度GDP为13232.38亿元,同比增长5.7%
  • 28亿港元!蚂蚁财富溢价要约收购耀才证券,谋求香港证监会下全业务牌照
  • “30小时不够”,泽连斯基建议延长停火至30天
  • 英伟达领跌美股科技七巨头 市场迎来科技股财报大考
  • 嘉里建设上海"小阳春"首战告捷,158套豪宅售罄揽金92亿,“对今年楼市前景非常乐观”
  • 特朗普政府要求哈佛大学提供关于从外国来源所获资金的记录
  • 太古地产行政总裁彭国邦:将持续投资内地商业项目
  • 直接触达上亿用户,《科幻世界》电子版将首发起点读书
  • Moneta Markets亿汇:阿塞拜疆天然气出口目标面临不确定性
  • 遇见小面冲刺港股IPO:高增长难敌单店效率滑坡 对赌枷锁、裁员争议与现金流困局
  • 【专访】Snow Peak中国区CEO:希望消费者提到“飞钓”,就想到我们
  • 花旗将未来三个月黄金目标价上调至每盎司3500美元
  • 盘前机会前瞻|首届具身智能机器人运动会今日开幕!这几家公司在核心零部件领域深度布局值得关注(附概念股)
  • 最大涨幅9800%!金价新高不断,引发期权“末日轮”效应,沪金期权多张合约大涨
  • 波音今年将寻求美监管机构批准以提高737 MAX产量 亏损有所收窄
  • 英国央行行长:对美元失去储备货币地位的担忧“过头”
  • 张家界乒乓球公开赛设干部职级门槛引关注,当地回应:仅限嘉宾组,其他组别全民开放
  • 深蓝S09开启预售:搭载华为乾崑智驾,售价23.99万元起
  • 特朗普监督美日贸易谈判,双方在“保护费”方面仍存分歧
  • 长沙9岁女孩被老师砸伤头骨案二审维持原判,涉事老师获刑5年
  • 美国电子产品关税仍存高度不确定性,特朗普:周一公布芯片细则
  • 任天堂维持Switch 2定价 美国4月24日开启零售预购
  • 4月17日保险日报丨第二批保险系私募基金迎新进展,多家保险公司新单下滑超10%,起底上市人身险企3000亿利润
  • 闲置书换蔬菜,浙江嘉善启动全民阅读系列活动
  • 持续更新丨伊朗港口爆炸事件已致406人受伤
  • 礼来口服GLP-1治疗糖尿病研发成功,还可“不限时”使用
  • “新型政策性金融工具”猜想
  • 中国支付行业协会公布6项2025年支付结算违法违规行为重点举报投诉事项
  • 黑灯:脱口秀必须得好笑,不能只有掌声没有笑声 | 进击的脱口秀演员④
  • 宣城市委常委、常务副市长王珏履新安徽省供销社党组书记、理事会主任提名人选
  • 地方新闻精选 | 游客在大理古城170克手机称出340克 酒店保洁员调包住客1.9万港币获刑
  • 广州白云机场开设全国首个宠物航站楼,5月起将正式对外开放
  • 新城市志|全球供应链动荡加剧,中国稳外贸有信心有底气
  • 中央第五轮巡视完成进驻12天,10省22名省管以上干部被查
  • 摩根大通和纽约梅隆银行在黑客入侵事件后限制与OCC共享信息
  • 东京中央拍卖4月23日上午起短暂停牌 待刊发内幕消息
  • 华尔街顶级分析师看好这些派息的能源股
  • 美国股市:标普500指数反弹 白宫释放贸易局势缓和信号
  • 电商“仅退款”将全面取消,退款不退货交由商家处理
  • 官方通报三河市“广告牌匾禁用红蓝黑底色”等问题
  • 波音今年将寻求美监管机构批准以提高737 MAX产量 亏损有所收窄
  • 美国债市:国债上涨 7年期美债招标结果表现稳健后保持涨势
  • 东南亚企业踊跃参加“消博会”:与中国机遇同行
  • 可复美回应“添加人表皮生长因子”质疑:专业机构未在样品中检出相关成分
  • 韩束要出香水,但吕义雄的美妆集团梦更难实现了
  • 广发基金刘格崧一季报:首次买入广东宏大、分众传媒,减仓亿纬锂能
  • 实施自贸区提升战略,中共中央、国务院重磅发文
  • 利用AI捏造“天价骨灰盒”谣言,内蒙古包头一网民被行政处罚
  • 直通部委 | 今年粮食产量瞄准1.4万亿斤左右 一季度二手房转移登记同比增超三成
  • 不及格、史上最糟糕自残:耶伦首评特朗普贸易政策
  • 一季度我国金条及金币消费量同比增长近三成,黄金首饰消费却降了26.85%
  • 路易威登美国得州工厂被曝残次率超高
  • 因受大风影响,梦龙乐队演唱会上海站将取消举行
  • 2025中国互联网企业家座谈会在京召开
  • 关注“老旧小区加装电梯”等安全隐患,最高检发布相关典型案例
  • 华夏银行行长瞿纲:将负债成本管理作为稳定息差的重要着力点
  • 关税风暴中的广东玩具业:出口停产和加码内销“冰火两重天”
  • 协和首批“4+4”医博毕业,理想的临床复合人才出现了吗?
  • 高璞任中国一汽党委常委、副总经理
  • 海南公布知识产权保护典型案例,一企业违规申请注册“中华”商标被处罚
  • 中国船东协会:强烈要求美方停止基于政治偏见的调查和行动
  • 直击南京银行业绩会:存贷比要保持在80%-85%,今年一季度净息差同比上升
  • 蛋价高!美墨边境鸡蛋走私案激增:半年内近6000起
  • 2025【安心奖】正式启动:安心消费 快乐生活!
  • 股东批准家乐福将巴西子公司私有化的提议
  • 美国开始调查进口芯片与药品,还考虑免除汽车零部件关税
  • 2024年A股股价仍低于每股净资产,重庆银行披露估值提升计划
  • 诺华上调今年营业利润增长预期
  • 英国首相斯塔默与特朗普讨论贸易问题
  • 欧洲债市:德债上涨 关税风险支撑避险需求
  • 泼天流量砸向敦煌网
  • 此轮大风过程极端性强,北京8个国家站突破建站以来同期极值
  • 西北大学党委副书记吕建荣调任西安财经大学党委书记
  • 李强出席中国发展高层论坛2025年年会开幕式并发表主旨演讲
  • 海南高院通报去年知产领域司法保护状况:审结民事一审案件4847起
  • 菲律宾群岛地区发生5.6级地震,震源深度20千米
  • 两名“80后”金融监管系统纪委书记跨省联动调整
  • 男子造谣“地铁猥亵案二人相识”被抓,法律尊严不容践踏
  • 一季度结婚数同比下降15.9万对,多地发钱鼓励结婚
  • 【评论】应对贸易战升级:中国手里的牌
  • 关键词: