算力为王已过时,DeepSeek的爆火打了谁的脸?
- +1 你赞过了
2024年春节期间,OpenAI发布了其首个AI视频生成模型Sora,这一突破性技术迅速在全球范围内引发热议,掀起了AI视频生成领域的新浪潮。时光飞逝,转眼来到2025年春节前夕,DeepSeek公司发布的两款开源模型——DeepSeek V3和DeepSeek R1,以优异的性能和超低的成本,不仅点燃了科技爱好者的热情,更是引发了全球资本市场的震动。
近日,AI公司DeepSeek开发的AI聊天机器人在AI领域掀起了一场风暴,其性能可与ChatGPT相媲美,同时,仅使用了OpenAI、谷歌和Anthropic系统所需的一小部分电力、冷却和训练费用。
DeepSeek是何方神圣?
资料显示,DeepSeek是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。
2024年12月,该公司于发布了DeepSeek-V3。据悉,V3是一个6710亿参数的模型,训练时间不到2个月。更重要的是,根据Jeffries最近的一项分析,DeepSeek的“训练成本仅为560万美元,这不到Meta的Llama成本的10%。这只是谷歌、微软、xAI和OpenAI等美国公司花费数亿至数十亿美元培训模型的一小部分。基准测试表明,V3的性能与GPT-4o和Claude 3.5 Sonnet相当。
DeepSeek于2024年11月发布了其R1 Lite Preview模型,声称新模型可能会超越OpenAI的o1系列推理模型,而且价格只是后者的一小部分。该公司估计,根据任务的不同,R1模型的运行成本比OpenAI的o1低20到50倍。DeepSeek随后于2025年1月发布了DeepSeek-R1和DeepSeek-R1-Zero。与o1竞争对手不同,R1模型是开源的,这意味着任何开发人员都可以使用它。
因此,V3和R1推出之后,受欢迎程度一路飙升,DeepSeek的V3驱动的AI助手取代了应用商店顶部的ChatGPT。风险投资家Marc Andreesen在最近的一篇社交媒体帖子中称,“DeepSeek的聊天机器人是我见过的最惊人、最令人印象深刻的突破之一,也是“给世界的深刻礼物。”
颠覆“算力至上”迷信
值得一提的是,DeepSeek新发布的多模态模型系列Janus Pro在两个行业基准上表现优于DALL-E 3以及PixArt alpha、Emu3-Gen和Stable Diffusion XL。DeepSeek-R1与o1相媲美,专门用于执行复杂的推理任务,同时为问题生成逐步解决方案并建立“逻辑思维链”,在解决问题时逐步解释其推理过程。
自2023年11月发布ChatGPT以来,一些AI企业一直专注于构建更大、更强大、更广泛、更强大和资源密集型的大型语言模型。OpenAI、Anthropic和谷歌等公司没有寻求建立更具成本效益和节能的大模型,而是认为有必要通过简单地投入大量的资金和资源来强行推动技术的进步。
埃隆·马斯克曾表示,2024年特斯拉将会投资约100亿美元用于AI的训练和推理。OpenAI及其合作伙伴刚刚宣布将成立一家名为“星际之门(Stargate)”项目,AI基础设施投资至少5000亿美元。谷歌首席执行官桑达尔·皮查伊表示,谷歌计划在2025年优先扩展Gemini平台,预计将花费数十亿美元来实现这一目标。Meta在1月中旬宣布,今年将在AI开发上花费高达650亿美元。
反观DeepSeek,其最新的模型是基于英伟达性能相对较低的 H800 芯片构建而成的。这一举措向整个行业传递出一个重要信号:尖端的AI研究并非一定依赖最顶级、最昂贵的硬件设备。
由此可见,DeepSeek的成功,或许会促使更多企业重新审视自身的AI发展策略。以往那些追求高算力、大规模投入的模式,是否真的是最优解?未来,企业或许会更加注重技术创新与成本控制的平衡,不再单纯依赖巨额资金和顶级硬件来推动AI发展。而对于整个 AI 行业来说,DeepSeek的崛起可能会打破现有的竞争格局,引发新的一轮技术革新和市场竞争。更多的初创公司是否会凭借创新技术和独特的发展路径,在AI领域崭露头角?这一切都值得我们期待。
写在最后:
随着AI竞赛的升温,各公司正花费数十亿美元来跟上形势。现在,一个新的竞争对手进入了竞技场,并声称已经达到了一些公司花了几个月,甚至是几年才达到的AI复杂程度。同时,这也让人们看到了AI发展路径的多元性与无限可能。相信在未来,该领域将会因为DeepSeek的出现而发生更多令人意想不到的变化。
最新资讯
热门视频
新品评测