当前位置:首页 > 技术分析 > 正文内容

全面超越Deepseek,阿里大年初一放大招

ruisui884个月前 (02-21)技术分析19

请先记住这个词:Moe模型。

因为这个词未来会改变AI圈、改变金融圈、改变英伟达、甚至改变中美AI走向。

故事起因是这样的:

10天前,大家都准备回家过年了,结果来自浙江的一家小公司DeepSeek(深度求索)火了,它发布的V3模型,震惊了美国AI圈和金融圈,还上了新闻联播,一夜之间和华为、阿里比肩齐名了,搞的扎克伯格一度呼吁美国加紧封锁中国AI技术。

这么大事,你让别的AI公司怎么办?火车票都买好了,结果又来加班,好在阿里云是反应最快的那个,他们的算法专家立刻找到问题关键点:

DeepSeek用的是Moe模型,阿里的Qwen用的还是Moe模型。

在Moe架构领域,Qwen是规模最大的那一个,又有20万亿Tokens(相当于1.5亿本小说)。为什么DeepSeek能火爆全网、气死扎克伯格,而Qwen不能?于是阿里的工程师加班加点,甚至把车票都退了,终于在大年初一,发布了新的模型Qwen2.5-Max。注意是:Max版,就和手机一样,就是顶配版的意思。

Qwen2.5-Max一发布,高级算法专家林俊旸就发了个圈:

Qwen2.5-Max这个版本最牛逼的2点是:

(1)超大规模的MoE模型,预训练数据超20万亿Tokens。

(2)全面超越DeepSeek V3

简单的说,就是性能更牛了,但更节约算力了。

核心就在这张图里,如上图所示,Qwen2.5-Max的各项指标都略高于DeepSeek和LLaMA模型。

在告诉大家一个冷知识:阿里的千问、DeepSeek(深度求索)、Meta的LLaMA的底座都是MoE模型。

说了半天,估计好多人不知道什么是Moe模型吧?

简单点说:Moe模型(混合专家模型)是AI圈热门的大模型架构,它只需要激活必要的参数来处理输入的数据,减少主动计算需求的同时,使得计算成本得以大幅降低,推理性能也有所改善。不会相应增加训练和运行模型所需的计算负担,所以能同步降低训练成本。

这个架构最牛逼之处,就是主动减少计算需求,主动计算需求减少,自然节约算力,算力节约了就能节约芯片数量。这就是为什么DeepSeek能用Meta公司1/10的价格,训练出跟LLaMA模型差不多的大模型的原因。

这也是为什么扎克伯格气的牙痒痒的原因:我花了1000亿美刀做出的开源LLaMA模型,你小子花550万就做出来了。你说能不急吗?预计用不了多久,扎克伯格也会学习Deepseek的方法。等Meta 公司的 LLaMA 模型学习差不多了,估计就没Deepseek什么事了。

所以阿里的Qwen赶在Meta之前,发布全新Qwen2.5-Max版本,性能超越了Deepseek,更牛了,也更节约算力了。这样一来,以后大家对算力的要求降低了太多了,以后也不需要那么多芯片了,更没人大量屯芯片了。那以后谁还买英伟达的芯片啊?

以前所有的公司都认为AI大模型需要大力出奇迹,需要对算力进行大量的投资,要购买大量芯片,可现在一切即将改变,这是今年AI一个重要转折点,阿里起了个头,预计会有更多公司都会朝这个方向努力:节约算力,提升性能。但这样,英伟达的黄仁勋就要哭啦。

写在最后

今年的阿里云要起飞了,先是登陆了央视春晚,大年初一又发了新的模型。阿里新发布的Qwen2.5-Max这个版本的起了个头,目测这一模型会引领新的AI方式。

如果说DeepSeek的低成本戳破美国AI的资本泡沫游戏,那么阿里云的Qwen则让AI回归科研本身,打破美国的模型壁垒,让全世界都可以参与AI研发中来了。

卢松松是一位自媒体人、短视频博主。也是创业者必看的账号,关注草根创业圈、科技互联网、自媒体和短视频行业。感谢您的关注!

扫描二维码推送至手机访问。

版权声明:本文由ruisui88发布,如需转载请注明出处。

本文链接:http://www.ruisui88.com/post/2154.html

标签: 阿里云游戏
分享给朋友:

“全面超越Deepseek,阿里大年初一放大招” 的相关文章

掌握版本控制:Git的那些常见用法与技巧

Git作为现代开发中最常用的版本控制系统,它的普及和高效性使得程序员几乎每天都在与它打交道。无论是个人项目,还是团队协作,Git都能帮助我们追踪代码的修改历史,保证代码版本的管理井井有条,并在多人协作时有效地避免冲突。本文将分享一些常见的Git用法与技巧,帮助你更好地掌握Git的强大功能,并提升你在...

7 招教你轻松搭建以图搜图系统

作者 | 小龙责编 | 胡巍巍当您听到“以图搜图”时,是否首先想到了百度、Google 等搜索引擎的以图搜图功能呢?事实上,您完全可以搭建一个属于自己的以图搜图系统:自己建立图片库;自己选择一张图片到库中进行搜索,并得到与其相似的若干图片。Milvus 作为一款针对海量特征向量的相似性检索引擎,旨在...

一次Java内存占用高的排查案例,解释了我对内存问题的所有疑问

问题现象7月25号,我们一服务的内存占用较高,约13G,容器总内存16G,占用约85%,触发了内存报警(阈值85%),而我们是按容器内存60%(9.6G)的比例配置的JVM堆内存。看了下其它服务,同样的堆内存配置,它们内存占用约70%~79%,此服务比其它服务内存占用稍大。那为什么此服务内存占用稍大...

VUE 技术栈

官网链接:https://cn.vuejs.org/什么是vue:渐进式JavaScript 框架vue-cli链接:https://cli.vuejs.org/vue-cli安装:npm install -g @vue/clivue -V创建一个项目:vue create xxxxxx模版语法:文...

三勾知识付费(PHP+vue3)微信小程序平台+SAAS+前后端源码

项目介绍三勾小程序商城基于thinkphp8+element-plus+uniapp打造的面向开发的小程序商城,方便二次开发或直接使用,可发布到多端,包括微信小程序、微信公众号、QQ小程序、支付宝小程序、字节跳动小程序、百度小程序、android端、ios端。软件架构后端:thinkphp8 管理端...

异步电动机和同步电动机有什么区别?

有很多电工朋友在日常工作当中,会遇到很多种不同类型的电动机,比如直流电机、高低压交流电机、步进电机和伺服电机等等。其中交流电机还可以分为异步电动机和同步电动机两种,那么同步电动机和异步电动机到底有什么区别呢?下面就为大家简单的介绍一下:一、转速的区别:看这个题目就能知道,它们最大的区别就在于“同步和...