引言

在过去几年中,软件世界经历了前所未有的剧变。前特斯拉人工智能总监安德烈·卡帕西(Andrej Karpathy)的演讲揭示了这一根本性变革,将软件的演进划分为三个阶段:从传统的代码编写(软件1.0)到神经网络权重(软件2.0),再到如今通过大型语言模型(LLM)提示进行编程(软件3.0)。


正文:软件正在(再次)变革:AI时代的软件发展与机遇

安德烈·卡帕西认为,软件正在经历一场革命性的转变。在经历了数十年的稳定之后,我们正目睹软件领域发生两次快速而根本性的变化,这为整个行业带来了大量新的工作和重写现有代码的机会。他将这一演进过程清晰地划分为三个范式:

1. 软件范式的演进:从代码到权重再到提示

image-20250623081332510

  • 软件1.0:程序员编写的代码 这是我们最熟悉的传统编程方式,程序员通过C++、Python等语言编写指令,控制计算机执行任务。GitHub是这类代码的主要存储库。例如,自动驾驶系统中早期的C++代码就属于这一范畴。
  • 软件2.0:神经网络的权重 这种软件不是直接编写的,而是通过调整数据集并运行优化器来“创建”神经网络的参数。AlexNet图像识别神经网络和特斯拉自动驾驶中用于图像识别的神经网络都是典型例子。随着神经网络能力的提升,许多功能从1.0迁移到2.0,甚至“所有的C++代码都被删除”。Hugging Face和Model Atlas则被比作软件2.0的“GitHub”。
  • 软件3.0:通过LLM提示进行编程 这是“一个全新的计算机类型”,令人惊讶的是,其编程语言竟然是“用英语写的”。卡帕西称这“完全改变了我对编程的看法”,并将其描述为“革命性的改变”。例如,情感分类任务现在可以通过提示大型语言模型来实现,而不仅仅是传统的Python代码或训练神经网络。软件3.0的出现意味着GitHub上的代码将不再仅仅是传统代码,还会“有很多英语的代码夹杂在一起”。卡帕西强调,未来的行业专业人士需要掌握所有这三种范式,因为它们各有优缺点,需要根据具体功能选择合适的编程方式。

2. LLM的生态系统与特性:新的基础设施

卡帕西深入探讨了LLM的本质及其在未来技术栈中的定位,提出了一些引人深思的类比:

  • LLM是新的电力/公用事业 “AI是新的电力”。OpenAI、Gemini等LLM实验室投入巨资训练LLM,这相当于“构建电网”。它们通过API提供智能服务,用户按令牌数量付费,并要求“低延迟、高可用性、一致的质量”。他认为,最先进的LLM崩溃时,就是“世界上的一种智力断电”。由于LLM作为软件不会在物理空间上竞争,因此可以有多个供应商,用户可以像选择电力供应商一样切换。

  • LLM是晶圆厂(Fabs) 构建LLM的资本支出巨大,涉及“深度技术树”和集中在实验室内部的研发秘密。使用NVIDIA GPU进行软件开发类似于“fabulous模式”,而像谷歌训练TPU则类似于英特尔拥有自己的晶圆厂模式。

  • LLM是新的操作系统

    卡帕西认为这是“最有意义的类比”。LLM不再是简单的商品,而是“越来越复杂的软件生态系统”。

    • 封闭源与开源:类似Windows/macOS(封闭源)和Linux(开源),LLM也有竞争的封闭源提供商(如GPT、Claude、Gemini系列)和开源替代品(如Llama生态系统,可能成长为类似Linux的存在)。
    • LLM即计算机:“LLM是一种新的电脑”,其上下文窗口类似于内存,LLM协调内存和计算来解决问题。
    • 1960年代的计算:LLM计算目前仍然非常昂贵,导致其集中在中央云中运行,用户通过网络交互,这类似于早期集中式、批处理的计算机时代。个人计算革命尚未到来,但未来可能会有本地LLM运行的趋势。
    • 文本终端交互:直接与LLM对话,就像“通过终端与操作系统交谈”,目前的GUI尚未完全适应这种新的交互方式。
    • 技术扩散方向的反转:通常新技术(如电力、互联网)首先被政府和公司采纳,然后才扩散到消费者,但LLM则相反,消费者率先使用,而公司和政府在采纳上“落后于我们所有人”。

3. LLM的心理学与挑战:理解这些“随机模拟的人”

LLM作为新计算机/操作系统示意图:

graph TD subgraph LLM 新计算机/操作系统 A[上下文窗口: 记忆/工作空间] B[LLM核心: 协调记忆与计算] C[提示: 编程语言/指令] A <--> B C --> B end B -- 解决问题 --> D[输出/解决方案]

理解LLM的“心理学”至关重要,因为它们是“随机模拟的人,精神”。这些模拟器通过互联网文本训练,因此展现出“人类般的涌现心理学”。

  • 超能力与认知缺陷的结合:
    • 超能力:LLM拥有“百科全书般的知识和记忆”,能记住比任何人类都多的信息,类似于电影《雨人》中的自闭症天才。
    • 认知缺陷:
      • 幻觉:“它们经常出现幻觉,它们编造东西”。
      • 自我认知不足:自我认知不够好,但正在改善。
      • 锯齿状智能:在某些解决问题领域超越人类,但会犯“基本没有人会犯的错误”(如9/11大于9.9,草莓有两个r),有“粗糙的边缘”。
      • 顺行性遗忘症:LLM不原生支持长期学习和知识巩固,上下文窗口就像工作记忆,每次交互都需要重新编程,类似于电影《记忆碎片》和《五十一》中主角记忆每天重置的情况。
  • 安全与欺骗:LLM“非常容易受骗”,存在“提示注入”风险,并可能“泄露您的数据”。 总结来说,LLM是“超凡能力”与“许多认知缺陷和问题”的结合,关键在于如何编程它们以克服缺陷并利用其能力。

4. LLM时代的应用机遇与最佳实践:与AI共建未来

卡帕西分享了他认为最大的机会和构建LLM应用的最佳实践:

  • 部分自主应用程序

    他最兴奋的是“部分自主应用程序”(Partially Autonomous Applications)。例如,Cursor(AI辅助编程工具)整合了传统界面与LLM,协调多次LLM调用,具有GUI进行人类审计,并提供“自主度滑块”。

    • GUI的重要性:GUI(图形用户界面)对于LLM应用至关重要,因为“文本很难阅读、解释、理解”,而GUI“利用了我们的计算机视觉”,“是一种通往大脑的高速公路”,有助于“人类审计这些系统错误并提高效率”。
    • 生成-验证循环:AI负责生成,人类负责验证。关键在于“使这一循环尽可能快”,以便“能完成大量工作”。

    image-20250623081423158

    LLM应用中的“生成-验证循环”示意图:

    graph TD A[人类输入/任务] --> B[AI 生成响应/草案] B --> C{人类审计/验证?} C -- 是 --> D[人类确认/修正] C -- 否 --> E[人类修改提示/指导] D --> F[完成任务/输出] E --> B
    • 保持AI可控:强调“我们需要让AI保持在控制之下”,避免代理过于活跃。特斯拉自动驾驶的经验表明,完全自动驾驶的普及将是一个漫长的过程,可能是“代理人的十年”,而不是一年。卡帕西用“钢铁侠盔甲”类比,认为未来是“增强和托尼·斯塔克的结合”。
  • “生活编程”(Programming in English)与每个人都是程序员 由于LLM可以用英语编程,这创造了一种“自然接口”,意味着“突然之间,每个人都是程序员”。这是一种“完全前所未有的情况”,打破了传统编程的学习门槛。孩子们通过AI辅助进行编程的视频,展示了“未来是伟大的”。卡帕西本人也分享了用LLM辅助开发iOS应用和“Menu Gen”应用的经历,即使不懂Swift也能快速构建基础应用。

  • 为代理(Agents)构建基础设施

    卡帕西指出,现在出现了一类新的“数字信息的操纵者”——代理(Agents)。“代理是他们的电脑”,但它们“很人性化”。

    • 代理友好型文档:类似robots.txt,可以有llm.txt文件,以简单的Markdown格式告知LLM域名内容,这比解析HTML更有效。Vercel和Stripe等公司正在将文档转化为LLM友好的Markdown格式,甚至改变内容以适应LLM代理的执行方式(如将“点击”指令替换为curl命令)。
    • LLM友好型工具:例如,“Get Ingest”可以将GitHub仓库URL转化为一个巨大的文本,并创建目录结构,方便LLM读取;“Deep Wiki”不仅提供文件内容,还对GitHub仓库进行分析,为LLM生成定制化的页面,方便LLM复制粘贴内容。满足LLM的信息获取需求非常值得,因为直接使用LLM获取信息仍然昂贵且困难。

5. 结论:软件行业的新黄金时代

卡帕西总结道,现在是进入软件行业的一个“绝佳时机”。我们“需要重写大量的代码”。LLM作为公用事业和操作系统,虽然仍处于早期(1960年代的计算时代),但其能力将不断增长。我们需要学会与“有缺陷”的LLM合作,并调整基础设施以适应它们。在构建LLM应用时,应注重快速的生成-验证循环和部分自主产品,并考虑产品的自主度滑块。未来,大量代码将由人类和LLM共同编写,同时也要为代理直接编写。他引用钢铁侠套装的类比,预示在未来十年中,软件的自主性将不断提高。我们正处在一个激动人心的时代,共同建设未来。


感想

Andrej Karpathy对“软件3.0”的深刻洞察,即通过大型语言模型(LLM)提示进行编程,为AI时代的产品思考带来了革命性的视角。这不仅仅是技术的革新,更是产品形态、交互方式乃至商业模式的根本性转变。

1. 产品形态的演进:从“AI+X”到“原生AI”与“智能体驱动”

Karpathy的观点指出,软件正从程序员编写的代码(软件1.0)和神经网络权重(软件2.0)演进到通过LLM提示进行编程(软件3.0)。这直接催生了多种新的产品形态:

  • “AI+X”赋能型产品持续深化:目前,最常见的AI产品模式是在现有应用中深度嵌入AI功能,提升效率。这类“AI+X”产品由于与业务流程融合更紧密、需求明确,整体数据表现显著优于原生AI产品,尤其在办公软件和内容平台领域表现突出。例如,微软的Copilot已深度整合到Office 365中,大幅提升了办公效率。百度、阿里巴巴、腾讯也分别通过“百度大脑”、“阿里云AI平台”、“腾讯AI Lab”将其AI能力赋能给现有产品和服务。在制造业,AI被广泛应用于预测性维护、质量控制、供应链管理等现有流程的优化。这表明,将AI作为增强现有产品和服务的工具,仍是当前产品创新的主流方向。
  • 原生AI产品的挑战与机遇:尽管ChatGPT等原生AI产品取得了现象级的用户增长,罗兰贝格也指出通用AI助手如豆包和DeepSeek已成为“超级入口”,但在APP和Web端,除了AI智能助手外,其他原生AI消费级产品仍缺乏现象级爆款。这意味着,纯粹基于AI逻辑从零开始设计的产品,其场景融合度、用户体验简化和品牌信任与推广仍是关键挑战。
  • 智能体(Agent)将成为核心产品范式:Karpathy认为“部分自主应用程序”是最大的机会。罗兰贝格和中国信通院也强调,AI智能体正从“对话交互”进化到“任务闭环”,能够自主拆解任务并协同多个工具完成复杂工作流。例如,Monica团队的Manus被认为是“全球首款通用型AI Agent”,能够实现任务的自主拆解与多工具协同。IBM也指出,构建智能体应用将进一步释放大模型应用潜力,解决大模型“有脑无手”的问题,使其能够将决策转化为实际行动。未来产品将不仅是提供AI功能,而是能像“代理人”一样主动理解用户意图并完成多步骤任务,实现“高度个性化”。

2. LLM作为“新操作系统”与“新电力”

Karpathy将LLM比作“新的操作系统”和“新的电力/公用事业”。这意味着:

  • “智能即服务”的产品底层:LLM实验室像“构建电网”一样投入巨资训练大模型,并通过API提供智能服务。产品开发者不再需要从头构建AI能力,而是可以调用这些LLM服务,像使用操作系统功能一样便捷。这大大降低了AI产品开发的门槛,使得更多创新团队可以专注于上层应用和用户体验。
  • “用英语编程”的用户普惠性:Karpathy指出LLM可以用英语编程,让“每个人都是程序员”。这意味着产品的交互方式将更加自然,用户可以直接通过自然语言提示AI来完成复杂任务或定制内容,而无需了解复杂的代码或算法。这推动了低代码/无代码AI开发平台的兴起,使得企业和开发者能够快速构建垂直领域的“领域专家”应用。

3. 多模态与人机协同的交互革新

  • “秒懂”人类意图的多模态交互:罗兰贝格强调,多模态大模型的能力进化,将使AI能通过图文、语音、表情、手势等多种模态“秒懂”人类意图,这将是下一个爆款应用的核心竞争力。例如,ChatGPT的GPT-4o模型具备“听、看、说”的多模态交互能力,响应速度接近人类对话水平。未来的产品将提供更自然、更沉浸式的交互体验,例如AI视频生成中真实可控的面部表情,或情感陪伴机器人中的细腻情绪识别。
  • “生成-验证循环”的人机协作:Karpathy强调,AI产品的核心在于“生成-验证循环”,即AI负责生成,人类负责验证。在设计产品时,需要通过图形用户界面(GUI)帮助人类审计AI的错误,并提供“自主度滑块”让用户调整AI的自主程度。这种“部分自主”的模式,在特斯拉自动驾驶中已有体现。这对于需要高精度和高可靠性的领域尤为重要,如医疗诊断中AI辅助放射影像的筛查和评估,以及制造业的质量控制。

4. 商业化路径与行业垂直应用

  • 多元化商业模式探索:除了传统的订阅、打赏和广告模式,智能体商店(如GPT Store、豆包智能体平台)正成为AI产品商业化的新路径,有望催生类似App Store的生态系统。此外,“硬件购买+订阅付费”的复合模式也将伴随AI眼镜、AI戒指等新型穿戴设备的出现而展现商业潜力。
  • 深入垂类场景的AI落地:虽然通用AI助手已成为“超级入口”,但罗兰贝格预测,垂类场景化Agent将在2025年掀起潮流,如AI社交、AI视频工具。在医疗健康领域,AI辅助医学影像市场增长迅猛并已步入商业化。在制造业,AI的应用已经深入到产品设计、生产优化、供应链管理等多个环节,例如利用数字孪生体进行实时模拟和预测。中国信通院的报告也显示,AI应用在产业链两端的研发设计和运营服务环节落地较快,在生产制造等中间环节相对较慢。这表明产品设计需要根据特定行业的数据基础、用户需求和业务逻辑,选择最适合AI赋能的场景。

5. 产品挑战与持续优化

AI产品在快速发展的同时,也面临着固有挑战。

  • 数据质量与“幻觉”:AI的成果取决于输入数据,高质量、多模态的数据是模型能力提升的关键。产品需要有策略地应对AI的“幻觉”问题,即模型可能产生不准确或虚构的内容。这需要产品设计中融入检索增强生成(RAG)技术、严格的数据清洗和人工审核机制。
  • 伦理与风险管理:AI产品,特别是处理敏感数据的产品,伴随着数据隐私、模型偏见和安全漏洞等风险。产品开发需建立健全的伦理框架,确保符合数据隐私法规,避免歧视性偏见。例如,DeepSeek因资安疑虑被台湾公部门禁止使用。
  • 持续迭代与可扩展性:AI系统需要持续的评估、再训练和优化,以适应动态变化的现实世界环境和用户需求。产品应具备可扩展的架构,能够处理不断增长的数据量、用户和功能。

Software 3.0时代的产品思考,需要开发者和企业从单一功能实现者转变为智能交互的“架构师”和“人类能力增强者”。产品不再仅仅是代码的集合,而是集成了LLM的“大脑”、多模态的“感知”和Agent的“执行力”,并以用户为中心,通过自然语言和直观界面实现人机协同。