回望 AI 大爆炸的前夜，他们是这样预测未来的-阿呆学习呀

这篇文章发布于 2022 年 9 月，在 GPT-3.5 即将引起全球关注的前夜。如今 AI 的生态日新月异，两年后的我们再回顾这篇文章时，仍能深切感受到，最初的探索者对生成式 AI 未来发展所构想的蓝图如此清晰而具有前瞻性。在大模型应用日益丰富多彩的当下，这篇文章可以是理解和探索生成式 AI 潜力的宝贵资料。

人类擅长分析事物，机器则更胜一筹。无论是欺诈或垃圾邮件检测、预测快递的预计到达时间，还是预测下一个要向您展示的 TikTok 视频，机器都能从数据中找出模式，以满足多种用途的需要。它们在这些任务中变得越来越聪明。这就是所谓的 “分析型人工智能 “或传统人工智能。

然而人类不仅仅擅长分析事物——我们也擅长创造。我们编写诗歌，设计产品，制作游戏，编写代码。直到不久前，机器还无法在创造性工作上与人类竞争——它们只能从事分析和重复性的认知劳动。但现在，机器开始擅长于创造有意义且美观的事物。这个新的类别被称为“生成性人工智能”，这意味着机器是在创造新事物，而不是分析已经存在的事物。

生成式人工智能不仅速度更快、成本更低，而且在某些情况下比人类手工创作的效果更好。从社交媒体到游戏、从广告到建筑、从编码到平面设计、从产品设计到法律、从市场营销到销售，每一个需要人类创造原创作品的行业都将面临革新。某些功能可能会被生成式人工智能完全取代，而另一些功能则更有可能在人类与机器之间紧密的创意迭代周期中茁壮成长–但生成式人工智能应该能为广泛的终端市场带来更好、更快、更便宜的创作。理想的情况是，生成式人工智能会将创造和知识性工作的边际成本降至几乎为零，从而产生巨大的劳动生产力和经济价值，并相应提升市场价值。

生成性人工智能（Generative AI）所关注的领域——知识工作和创造性工作——包括了数十亿的工作者。生成性AI可以使这些工作者的效率和/或创造力至少提高10%：他们不仅工作速度更快、更高效，而且比以前更有能力。因此，生成性AI具有创造数万亿美元经济价值的潜力。

一、变革为什么现在发生？

与更广泛意义的人工智能类似，我们非常想知道生成式 AI 的转折点为何是此刻？可能是因为更好的模型、更多的数据、更强的算力。这一领域的变化之快超出了我们的想象，但我们还是应该大致回顾一下最近的历史，以了解当前的背景。

第一波浪潮：小模型称霸的阶段（2015 年之前）

5 年前，小型模型被认为是理解语言的 “最先进技术”。这些小型模型在分析任务方面表现出色，被部署用于从交货算时间预测到欺诈分类等工作。然而，对于通用生成任务来说，它们的表现力还不够。生成人类水平的文字或代码仍然是一个梦想。

第二波浪潮：规模化竞赛阶段（2015-今天）

谷歌研究院的一篇具有里程碑意义的论文（Attention is All You Need）描述了一种用于自然语言理解的新型神经网络架构，这种架构被称为 Transformers，这种架构能够生成更高质量的语言模型，同时具有更强的并行处理能力，并且显著减少了训练时间。这些模型属于少样本学习者，可以较为容易地针对特定领域进行定制。

随着人工智能模型逐渐变大，它们已开始超越人类的性能基准了。资料来源 © 经济学人报业有限公司，伦敦，2022 年 6 月 11 日

果然，随着模型越来越大，它们开始达到人类水平，然后抵达近乎超人一般的水平。从 2015 年到 2020 年，用于训练这些模型的计算量增加了 6 个数量级，其结果超过了人类在手写、语音和图像识别、阅读理解和语言理解方面的性能基准。OpenAI 的 GPT-3 脱颖而出：该模型的性能比 GPT-2 有了巨大飞跃，并在 Twitter 展示了引人注目的 demo。

尽管基础研究取得了很大进展，但这些模型并未普及。它们体积庞大，难以运行（需要 GPU 协调），不能获得广泛的访问（不可用或仅为封闭测试版），而且作为云服务使用成本高昂。尽管存在这些限制，但最早的生成式人工智能应用已经开始进入战场。

第三波浪潮：更好、更快、更便宜（2022 年之后)

计算成本越来越低。扩散模型（diffusion models）等新技术降低了训练和运行推理所需的成本。科学界继续在此基础上，开发更好的算法和更大的模型。开发人员的访问权限从封闭测试版扩展到开放测试版，甚至在某些情况下，直接开放了源代码。对于一直无法访问 LLMs 的开发人员来说，探索和应用开发的闸门现在已经打开，各种应用开始涌现。

第四波浪潮：杀手级应用出现（就是现在）

随着平台层的稳固，模型不断变得更好、更快、更便宜，并且模型访问趋于免费和开源，应用层的创造力已经成熟。正如移动技术通过 GPS、摄像头和随身热点等新功能释放出新型应用一样，我们预计这些大型模型将推动新一轮的生成式 AI 的应用。正如十年前移动技术的拐点，为少数杀手级应用开辟了市场一样，我们预计生成式 AI 也将出现杀手级应用。竞争已经开始。

二、市场格局

以下示意图，绘制了将支持每种类别的模型和相应的平台，以及可能在该平台上构建的应用程序类型。

大模型

文本生成是最先进的领域。然而，自然语言很难掌握，而且输入语言的质量也至关重要。如今，这些模型在一般的中/短文写作方面表现尚可（但即便如此，它们也通常需要迭代）。随着时间的推移，模型在不断被完善，我们有望看到更高质量的输出效果、更长篇的内容以及更好的特定垂直领域的调整。
代码生成很可能在短期内，对开发者的工作效率产生巨大影响，正如 GitHub CoPilot 所展示的那样。它还将使非开发人员更容易去创造使用代码。
图片生成是最近才流行的玩法（当时是2022年，注意），但它已经开始病毒传播了：在 Twitter 上分享生成的图片比分享文字有趣得多！我们看到了具有不同美学风格的图像模型的出现，以及编辑和修改生成图像的不同技术。
语音合成已经存在了一段时间（Hey Siri！），但消费者和企业级应用才刚刚起步。对于电影和播客等高端应用而言，要想获得听起来不机械的一次性人类语音质量，标准还是相当高的。但是，就像图像一样，今天的模型为进一步完善，为最终输出实用 APP 提供了一个起点。
视频和 3D 模型生成正在迅速崛起。大模型有可能进入并开拓电影、游戏、VR、建筑和实体产品设计等大型创意市场，大家对 AI 在这一块的潜力感到兴奋。研究机构正在发布基础的 3D 与视频生成的大模型。
其他领域：在许多垂直领域中，大家会都在进行基础模型的研发，这些领域包括音频和音乐、生物学和化学（有人对生成蛋白质和分子感兴趣吗？实际上在 2024 年 AI 已经可以进行基因编辑的生成了）。

下图展示了我们可能期望看到的基本模型的发展，以及相关应用成为可能的时间表，2025 年及以后只是猜测。

下图则是 2023 年已经出现的的生成式人工智能应用图景

AI 应用

这里列出了一些我们感到兴奋的应用程序。实际上，我们感兴趣的应用远远超出了这里所能展示的范围，我们对各个项目的创始人和开发者们构想出的创新应用感到非常着迷。

文案写作：随着销售和营销策略以及客户支持对个性化网页和电邮内容需求的增长，语言模型的应用变得尤为重要。这些内容的短小精悍和风格化特性，加上团队面临的时间和成本压力，将推动对自动化和增强型解决方案的需求。
特定垂直领域的写作助手：当今的大多数写作助手都是通用型的；我们认为，为特定终端市场构建更优秀的生成应用存在巨大的机会，从法律合同撰写到编剧等。产品的差异化在于针对特定工作流程的模型微调和用户体验设计。
代码生成：当前的应用程序为开发人员提供了更强动力，使他们的工作效率大大提高：GitHub Copilot 目前为安装了它的项目，生成了近 40% 的代码。但更大的机遇可能是向消费者开放代码能力，学习提示词可能会成为最终的高级编程语言。
艺术生成：现在，整个艺术史和流行文化，都被作为数据喂给了这些大型模型，任何人都可以随意探索从前需要花费一生时间才能掌握的主题和风格。
游戏：理想的情况是，使用自然语言创建可交互的复杂场景或模型，但是这可能需要一个漫长的过程，但在短期内有一些更直接、更具可操作性的选择，例如生成纹理和背景素材。
媒体/广告：试想一下，将设计工作自动化，并为消费者实时优化广告文案和创意，这个潜力有多大。多模态生成（生成包含声音、图像、文本的多媒体内容）销售信息和与之互补的视觉效果结合到一起，就意味着巨大的机会。
设计：数字产品和实体产品的原型设计，是一个劳动密集型迭代过程。根据草图和提示绘制高保真效果图已经成为现实。随着三维模型的出现，生成式设计过程将延伸至制造和生产——从文字到实物均是如此。你的下一个 iPhone APP 或运动鞋可能就是由机器设计的。
社交媒体和数字社区：用生成工具是否成为展示自我的新方式？随着消费者学会在公共场合进行创作，像 Midjourney 这样的新应用正在创造新的社交体验。

三、生成式 AI 应用剖析

生成式 AI 应用将发展成什么样子？以下是一些预测。

1. 智能和模型微调

生成式 AI 应用建立在 GPT-3 或 Stable Diffusion 等大模型之上。随着这些应用获得更多的用户数据，它们可以对模型进行微调，以便：

针对特定问题提高模型质量/性能；
减少模型大小/成本：

我们可以把生成式 AI 应用程序看作是一个用户界面层和 “小型大脑”，它位于大型通用模型 “巨型大脑 “之上。

2. 实现形式

如今，生成式 AI 应用大多以插件的形式，存在于现有的软件生态系统中。AI 在你的集成开发环境（IDE）中生成可用的代码，图像生成在 Figma 或 Photoshop 中应用，甚至 Discord 机器人也成为将生成式 AI 注入数字/社交社区的工具。此外，还有一些独立的生成式 AI 网络应用程序，如用于文案写作的 Jasper 和 Copy.ai、用于视频剪辑的 Runway 和用于记笔记的 Mem。

插件可能是开启你自己的应用程序的契机，也可能是解决用户数据和模型质量这个先有鸡还是先有蛋的问题的精明方法（你需要通过分发来获得足够的使用率和数据，以改进你的模型；你也需要好的模型来吸引用户）。我们已经看到，这种分发策略在其他市场类别，如消费/社交领域，已经取得了成功。

3. 互动范式

如今，大多数生成式 AI 演示都是“一次性”的：你提供一个输入命令，机器立刻生成一个输出结果，你可以选择保留这个输出或者丢弃它再尝试一次。越来越多的模型正在使用这种迭代模式，你可以利用输出结果来修改、完善、提升和产生变化。

如今，生成式 AI 输出结果被用作原型或初稿。这些 APP 善于提出多种不同的想法，推动创意进程（如给 logo 或建筑设计提供不同选项），也善于输出初稿，而这些初稿需要用户精雕细琢才能达到最终状态（如博客文章和自动生成的代码）。随着模型变得越来越智能，依赖于用户数据的部分或许会减少，我们应该期待这些草稿变得越来越好，直到它们好到可以当最终的成品来使用。

4. 持续提升的行业领导力

最优秀的生成式 AI 公司，通过在用户参与/数据与模型性能之间不断执行的飞轮机制，创造持久的竞争优势。要取得胜利，团队必须通过以下步骤来启动这一飞轮：

让用户全情投入地参与和使用 → 将更多的用户数据和反馈转化为更好的模型性能（改进提示、模型微调、用户选择作为标记的训练数据）→ 利用优秀的模型性能来推动更多的用户增长，提升用户参与。

这些公司很可能会专注于特定的问题领域（例如编程、设计和游戏），而不是试图满足所有人的需求。他们在初期可能会深度集成到应用中，以利用杠杆和分发优势来快速迭代，随后尝试用 AI 本地工作流程取代现有的应用程序。构建这些应用并正确积累用户和数据需要时间，但我们相信最好的应用将会是持久的，并有可能发展成为庞大的平台。

四、障碍和风险

尽管生成式人工智能潜力巨大，但在商业模式和技术方面仍有许多问题需要解决。版权、信任与安全以及成本等重要问题还远未解决。

五、冷静审视

生成式人工智能仍处于起步阶段。平台层刚刚起步，应用领域才刚刚开始拓展。要明确一点，我们不需要大型语言模型去写一部像托尔斯泰的小说那样的作品，那不是充分利用生成式 AI 的方式。当前这些模型已经足够好，可以用来撰写博客文章的初稿，生成 LOGO 和产品界面的原型。在不远的将来，进入 AI 大模型的发展中期，将会有大量有价值的创造出现。

当前生成式 AI 应用还处于初期阶段，有点像 iPhone 刚推出时的手机应用场景——有些花哨且内容不足，竞争差异和商业模式尚不明确。然而，这些应用中的一部分，替我们管窥了未来的发展趋势。一旦见识到 AI 生成复杂的功能代码，和绝妙的图景，很难不想象未来 AI 在我们的工作和创造中成为基本角色。如果我们敢于想象几十年后的未来，可以轻松想到生成式 AI 深刻地融入到我们的工作、创造和娱乐方式中：自动编写的备忘录；可以 3D 打印你能想象到的任何东西；从文本到皮克斯电影；类似 Roblox 的游戏体验，能够迅速生成我们梦想中的丰富世界。虽然这些体验今天看起来像科幻，但进步的速度极快，最初性能有限的大语言模型在几年内发展到足以自动生成代码，如果我们继续保持这种进化速度，并遵循“大模型摩尔定律”，那么这些遥远的场景，就会成为可能。

THE END