樱花草在线社区www韩国:专门看草莓味的软糖呀的网站-王维嘉:DeepSeek尚不足以撼动中美AI差距格局
图片来源:the Verge
▎从技术格局来看,尽管 DeepSeek 的成果缩小了中美在人工智能技术上的差距,但中美人工智能整体格局尚未被撼动。
钛媒体注:本文为硅谷著名企业家 & 投资家、《暗知识》作者王维嘉在一个企业家社群里的讨论要点,钛媒体 APP 经授权发布,并略经编辑。
眼下科技圈最关注的莫过于 Deepseek 事件。网络上充斥着各种技术与财务分析。在此,我愿分享一些个人见解,以期为诸位提供更清晰的思路。
技术创新的探索之路
我在硅谷工作了 40 年,对技术创新有着深刻的体会。技术创新如同探路者在大山中寻找金矿。尽管有人指出大山中存在金矿,但具体位置却无人知晓。因此,众多探索者涌入,各自寻找不同的方向。
回顾人工智能发展历程,自 2012 年图像识别取得首次突破,到后来人工智能在围棋领域的应用,我们可将其视为人工智能 1.0 阶段。彼时,硅谷乃至全球人工智能行业主要聚焦于图像识别和视频识别领域。
2017 年,谷歌推出 Transformer 模型,聚焦语言翻译,尤其是英文与法文之间的翻译。然而,谷歌在完成相关研究后,并未深入探索,因为当时业界普遍认为语言翻译市场有限,远不及图像识别和视频识别领域。
然而,OpenAI 另辟蹊径,洞察到语言领域的广阔前景。人类智慧多以语言呈现,因此 OpenAI 全力投入研发。尽管当时 OpenAI 资源匮乏,与谷歌、微软等巨头相比,人力、财力均相差悬殊,但他们凭借敏锐的洞察力,于 2022 年 11 月发布了 ChatGPT。
这如同在众人行走的阳光大道旁发现了一条小岔道,OpenAI 一头扎进去,竟意外发现了一座金矿,引发了行业的震动。众多从业者纷纷涌入,将此领域开拓成新的阳光大道。
此后,行业预训练模型不断加大规模和数据量,但逐渐迷失方向。在此过程中,OpenAI 又做出了新的贡献 —— 推理学习。研究发现,在模型规模并非极大的情况下,通过精心训练推理能力,模型性能可实现大幅提升。2024 年 9 月 24 日,OpenAI 发布 o1 model,再一次为行业开辟了新的路径。
在这一探索过程中,全球团队,尤其是美国团队,发明了诸多工具,如同更锋利的砍刀与铲子,助力各团队在荆棘丛生的探索之路上加速前行。
DeepSeek 的开源理想和成功偶然性
DeepSeek 堪称一支怀揣技术理想的团队。他们坚持开源,与通常领先者秘而不宣的做法不同,选择借助全球智慧共同推进技术发展。
在技术发展中,领先者通常会对核心技术有所保留,而落后者则倾向于通过开源汇聚全球智慧推动发展,如 Meta(Facebook)在与 OpenAI 的竞争中选择开源。因为开源是一种类似公益社区的精神,阿拉善的企业家就会比较更能理解,就是哪怕不知道有没有收获,但是仍会选择付出。
美国有开源的文化,比如软件的开源 Linux,比如 Wikipedia 做成了全世界的字典,中国当时也来拷贝,结果做的很差。在中国,开源文化并不深厚,DeepSeek 能坚持开源,将优质成果与世界共享,实属难得。这体现了美国开源社区精神对中国年轻程序员和企业家的影响,尽管这种影响在国内仍较为稀缺。
团队核心人物梁文锋自 2013 年便开始运用机器学习进行量化投资,团队在机器学习领域已有十余年的经验积累。在技术敏感度上,他们可能早在 ChatGPT 之前就已开始使用 transformer 开发大语言模型,如 2019 年或许就已启动相关工作。同时,团队汇聚了一批国内顶尖人才,在技术探索中,他们利用前人开发的先进工具,在推理模型的基础上又发现了一条新路径 —— 完全自动训练,区别于 OpenAI 的人工训练方式,降低了成本。
这种自动推理训练类似于 AlphaGo zero 的模式。AlphaGo 击败李世石后,谷歌工程师尝试让 AlphaGo zero 不依赖人类经验从头学习,结果在短时间内,AlphaGo zero 便超越了击败李世石的旧版 AlphaGo。DeepSeek 在这一路径上深入探索并取得成功,虽然其贡献程度不及 ChatGPT 和推理训练的发现,但也堪称自 ChatGPT 以来第三大重要贡献,将推理成本降低了两个数量级。
从技术格局来看,尽管 DeepSeek 的成果缩小了中美在人工智能技术上的差距,但中美人工智能整体格局尚未被撼动。
在人工智能技术的几个关键方面,芯片领域中国仍与美国存在较大差距;在算法突破方面,过去十年间,从 2012 年的 alexnet 到 2017 年的 transformer,再到 2022 年的 ChatGPT 以及后续的思维链、RAG 和推理训练等重大突破,大多发生在美国,法国的 Mistral 公司也有少量贡献,DeepSeek 的贡献占比约为 5%,但这已然十分了不起。
DeepSeek 的成功在一定程度上具有偶然性。在一个充满偶然性的科学探索过程中,众多团队在不同的方向上探索,总会有某个团队率先取得突破。中国拥有庞大的 AI 基础和工程师队伍,经过 30 年的发展,已经与西方建立了良好的交流基础。因此,中国出现像 DeepSeek 这样的团队并不令人意外。这类似于苏联在 1957 年成功发射第一颗人造卫星,其背后是美国在两次世界大战期间对苏联技术的开放,使得苏联培养了强大的技术基础。然而,一旦苏联闭关锁国,这种技术能力便迅速衰退。
AI 浪潮前景广阔,目前仍处起步阶段
在商业和股市层面,人工智能领域的发展与英伟达密切相关。我在 2017 年《暗知识》一书便指出,AI 时代的芯片霸主是英伟达,当时其市值约三百亿美元,此后涨幅近百倍。
近期美国股市大跌,部分原因是市场认为算法效率提高会减少对算力的需求,进而降低对英伟达等芯片的依赖。但这是一种静态思维,正如 19 世纪英国经济学家杰文斯发现的一个现象:当蒸汽机的效率大幅提升后,煤炭的消耗量并未减少,反而大幅增加。这一现象被称为 " 杰文斯悖论 "(Jevons Paradox)。其背后的逻辑是:尽管单台蒸汽机的煤炭消耗量减少了,但由于蒸汽机变得更加经济高效,人们开始在更多领域广泛使用蒸汽机,从而导致蒸汽机的总数大幅增加,最终使得煤炭的总消耗量不降反升。
同理,AI 模型成本降低将推动 AI 应用的广泛拓展,对芯片的需求也会随之增长。过去,AI 应用面临的一大障碍是成本高昂。以 ChatGPT 为例,用户每次提问都需要支付费用,且随着问题复杂度的增加,计算成本呈指数级上升。例如,回答一个简单问题如 " 唐朝的第一任皇帝是谁 " 可能瞬间完成,而回答一个复杂问题如 " 唐宋之变的核心原因是什么 " 则需要进行深入分析和佐证,计算时间可能增加百倍甚至更多。
如今,AI 已经发展到可以作为智能代理(agent)为用户提供全面服务的阶段。例如,用户计划前往巴西旅游,AI 可以像私人助理一样,从行程规划到酒店预订,再到机票购买,全程提供服务。这一过程的计算成本可能是简单问答的万倍以上。如果每次服务的费用高达 10000 元人民币,用户可能会望而却步;但如果费用降至 100 元,用户则会毫不犹豫地使用。因此,低成本的 AI 模型将极大地扩展 AI 的应用场景,可能实现百倍、千倍甚至万倍的增长。
对于 Deepseek,外界关注其芯片使用量以及是否存在数据盗用问题。但从其市场定价来看,每次访问成本仅为 OpenAI 的 1/30 且仍有利润,这表明其在成本控制上卓有成效,至于其他问题,目前并无确凿证据,且对其技术价值和市场影响的判断并非关键。
DeepSeek 未来能否继续取得重大突破仍是一个未知数。随着团队的知名度提升,政府的高要求和大公司的高薪挖角,可能会对其纯粹的技术追求产生不利影响。能否在这种环境下坚守技术理想,继续前行,是一个值得打问号的问题。
AI 浪潮的前景极为广阔,目前仍处于起步阶段,未来十年甚至二十年仍将蓬勃发展。与互联网在 20 世纪 90 年代末和 21 世纪初的发展类似,AI 有望在未来十年到二十年内实现重大突破。
更为重要的是,AI 的潜力究竟有多大?目前,包括 OpenAI、Anthropic、Google、微软在内的各大实验室都在积极研发通用人工智能(AGI)。AGI 的定义是:机器能够完成人类绝大部分的智力活动。根据目前的研究进展,AGI 的出现时间可能在两年到五年之间。如果 AGI 成为现实,其市场规模将极为庞大,有望超过互联网市场,达到数万亿美元甚至数十万亿美元的规模。
DeepSeek 的技术突破进一步证实了人类有可能以较低成本实现 AGI。如果 AI 的成本过高,甚至超过人力成本,那么其应用范围将受到限制。正如中国许多生产线仍然使用人工而非机器人,因为人工成本更低。只有当机器人的成本远低于人工时,机器人才能广泛普及。DeepSeek 在降低 AGI 成本方面做出了重大贡献,这一点非常值得肯定。
总之,DeepSeek 的成功是中国 AI 领域的技术突破虽有偶然性,但更多源于团队技术积累。在 这场漫长的征程中,DeepSeek 已经迈出了第一步,未来能否继续引领潮流,还需时间的检验。
(本文首发于钛媒体 APP)