快手解密AI印钞机,生成式强化学习出价,实现超过3%的广告收入提升

前段时间，谷歌母公司 Alphabet 市值突破 3 万亿美元，成为第四家市值达到这一门槛的公司。

如果时间倒回到两年半以前，谷歌自己可能都没有想到这一结果。当时，ChatGPT 带来的冲击让外界开始质疑谷歌能否守住营收，尤其是广告营收。甚至还有人发出灵魂追问：谷歌会成为下一个诺基亚吗？

然而，事实的发展出乎许多人意料 —— 谷歌不仅稳住了广告基本盘，还通过将生成式 AI 融入搜索和广告投放，提升了用户意图理解和广告匹配效率，让广告价值进一步放大。

在国内，我们也看到了这种趋势。上个月，快手发布了 Q2 财报。财报显示，这一季度，快手线上营销服务收入 198 亿元，同比增长 12.8%。财报明确指出，大模型在投放出价、营销推荐方面的应用取得显著进展。在营销出价方面，快手优化了生成式出价算法，运用强化学习和长期价值策略，提升了广告转化效果。在营销推荐环节，快手利用大语言模型的内容理解和推理能力，采用生成式方法筛选广告，深入挖掘用户行为与广告转化的关联性，生成符合用户兴趣的广告内容，经过排序优化后显著提高点击率，推动营销服务收入实现两位数增长。这些信号表明，AI 技术正在从根本上驱动广告行业的收入增长。

不过，从技术上来看，这不是一蹴而就的，相关技术在过去的几年里经历了多次迭代。以实时竞价（RTB）广告系统中的「大规模广告自动出价」问题为例，相关技术经历了经典控制、规划求解、强化学习、生成模型等数代演化，如今又迎来了「生成式强化学习」这一全新范式。

这一新范式由快手首次提出。其核心思想是「让出价模型能多维思考」，更充分地利用历史出价序列信息，从而做出更精准的决策。2025 年至今，这一范式已在快手广告系统全面落地，在保持广告主既定成本目标不劣化（成本达标不降）的前提下，为平台实现了超过 3% 的广告收入提升。

那么，这一效果是怎么实现的？在快手发布的几篇论文中，我们可以找到答案。

广告自动出价

在不确定中寻找最优解

在深入探讨快手的技术革新之前，我们有必要先对「广告自动出价」有一个基本的理解，尤其是其核心逻辑与挑战。

简单来说，广告自动出价，也被称为智能出价，是使用算法，根据用户广告产生点击或转化的可能性自动为这些广告设置出价。过程中无需手动更新，它会为用户完成所有繁重的工作，以相当于或优于现有效果目标的成本效益，推动实现更高的转化量或转化价值。

总结起来，相比于手动或人工出价，自动出价有三大优势

真正的实时出价
查询一级的自适应学习
丰富的用户信号和跨信号分析

快手解密AI印钞机,生成式强化学习出价,实现超过3%的广告收入提升

实时出价系统示意图

然而，要实现理想的自动出价却非易事，而这就涉及到了广告出价的核心挑战

既要花钱，又要省着花：广告主既需控制单日花费不超预算，又需尽可能降低每次转化（如购买、下载等）的成本。
未来难以预测：系统无法预知即将到来的流量状况和竞争对手行为，必须依据实时花费与成本等数据动态调整出价。
牵一发而动全身：每次出价会影响广告展示与消耗，改变账户状态（如剩余预算），进而影响后续出价，构成连续而复杂的序列决策问题。

针对这些挑战，业界提出了许多不同的解决方案并一直在不断迭代，比如互联网广告行业龙头谷歌广告（Google Ads）使用了一种基于机器学习的自动出价系统，它可借助历史转化数据训练点击率（CTR）、转化率（CVR）等预测模型，结合拍卖时上下文信号（设备、地理位置、时段、浏览环境等），在每次竞价中实时调整出价（使用了强化学习思想），以最大化广告主的 ROI（如转化次数、收入、ROAS）的目标。

而快手的出价算法此前也已经经历了多轮迭代，整体可以总结为从 PID、MPC 到强化学习（RL）的「三代」演化路径。若将这一过程比喻为汽车工业的发展：

第一代（PID）：包含了三个关键的控制参数：比例（Proportional）、积分（Integral）和微分（Derivative）。该算法可以通过动态调整出价来很好地将广告平均成交价稳定在目标成交价，但不足的点在于对未来消耗和预期消耗没有预估和规划。这就像是定速巡航。它只能根据当前速度和设定速度的差异来调整油门，反应直接但比较「笨」，难以应对复杂多变的竞价环境。
第二代（MPC/Model Predictive Control）：引入了对未来的预测，在对出价与未来消耗、成本的关系进行建模的基础上能够做出更精准的出价规划。不过，该算法建模能力较弱，也无法做出多步长期决策。这就像是更高级的自适应巡航。通过预测未来短时间内的路况以调整车速，但其建模相对简单，易陷入局部最优，本质上难以实现效果的根本性突破。
第三代（强化学习）如同根据专家驾驶数据学习的 AI 驾驶员。通过分析海量历史驾驶数据（离线数据集），学习在特定状态下的最佳动作（出价），以最大化全程奖励（广告效果）。该方法安全性高（不直接影响线上业务），且能够挖掘数据中蕴藏的更优策略。

现如今，快手的出价算法已经进化到了第四代：生成式强化学习

顾名思义，生成式强化学习是一种将当今大热的生成式模型与强化学习技术融合起来的新方法。它弥补了之前的强化学习的一些突出短板。

简单来说，之前的强化学习技术有点像「一维思考」，只根据单步状态信息进行决策，对于出价状态序列信息利用不够充分。而生成模型（如 Transformer、Diffusion）特别擅长理解和生成有复杂模式的序列数据。反过来，生成模型本质是模仿数据集的动作，高度依赖数据集质量，难以优化序列整体价值；而强化学习能够学到超出数据集效果的策略，直接优化序列整体价值，在原理上相比生成模型具有更高的收益空间。

这两大范式互相增益，便造就了「生成式强化学习」，其能让出价模型实现「多维思考」，从而更充分地利用历史出价序列信息，从而做出更精准的决策。

双剑合璧

详解 GAVE 和 CBD 算法

将生成式模型的能力引入强化学习，无疑为广告出价带来了强大的新动能。但在实践中，直接应用生成模型建模出价策略，也会面临其固有的挑战。

此前，业界已经探索了两种使用生成模型的路径：

Generative Model as a world model：建立一个可以模拟不同出价策略下广告投放结果的「数字沙盒」，生成大量训练数据来增强模型学习。
Generative Models as policies：用生成模型直接建模强化出价策略，提升对于出价状态序列信息的利用能力。

具体到技术框架上，业界采用的主流方法有两类：

Decision Transformer (DT)：其机制类似于大语言模型中的「下一 token 预测」。模型会依据历史状态、调价动作与奖励序列，预测能够最大化序列整体价值的最佳出价动作。
扩散模型（Diffusion Model）：这一过程则犹如一位「AI 画家」。模型基于已有状态从噪声中勾勒出理想的未来轨迹（如预期消耗、成本曲线），再逆向推导出当前应当执行的出价。

快手解密AI印钞机,生成式强化学习出价,实现超过3%的广告收入提升

快手解密AI印钞机,生成式强化学习出价,实现超过3%的广告收入提升

创作交流更多>>

新车测评更多>>

媒体学习更多>>

生态内容更多>>

原创分享更多>>

写作技巧更多>>