【深度长文】意图经济:除了变现外,AI大模型为什么要引入广告机制?

导读: 在当今科技巨头竞相开发大语言模型的背景下,"意图经济"正从概念走向现实。这一新兴经济形态不仅超越了注意力经济的范畴,更深入捕捉用户行为轨迹与心理特征,试图通过AI技术预测并引导你的决策过程。大模型将如何重塑数字世界的信息流通与商业模式?这场技术变革背后隐藏着哪些深层次的哲学思考?本文将梳理哲...
【深度长文】意图经济:除了变现外,AI大模型为什么要引入广告机制?
【深度长文】意图经济:除了变现外,AI大模型为什么要引入广告机制?

导读:

在当今科技巨头竞相开发大语言模型的背景下,"意图经济"正从概念走向现实。这一新兴经济形态不仅超越了注意力经济的范畴,更深入捕捉用户行为轨迹与心理特征,试图通过AI技术预测并引导你的决策过程。大模型将如何重塑数字世界的信息流通与商业模式?这场技术变革背后隐藏着哪些深层次的哲学思考?本文将梳理哲学视角下"意图"的定义与科技行业通俗用法的分野;继而揭示大型语言模型(LLM)文化是如何定义与研究人类行为的。

本文翻译转载自Beware the Intention Economy: Collection and Commodification of Intent via Large Language Models,刊登于Harvard Data Science Review。


"意图"一词及其衍生概念涵盖广泛的理论说明。

西方分析哲学家将“意图”与目的性行为、个体理性推理[1]、意识[2]和对未来的心智表征(大脑处理、存储和使用信息的模式模型)[3]等相联系,却较少关注自发性、行为能力缺失或非理性因素在意图行为中的作用。

在大模型语境下,国外学术界目前对意图的定义更聚焦在计算机科学实用性,即技术人员可能把“意图”拆解为3个部分:

  1. 语义识别(你说的话是什么意思)
  2. 行为预测(你可能要做什么事情)
  3. 回应生成(系统该回答什么内容)

在计算机科学领域,人们普遍假设:无论意图本质为何,皆可被计算化并实现操作化

如果个人没有主动说明额外的信息(如点外卖时的强大饥饿感和对营养热量的严格控制),那么个人“点外卖”的意图将被大模型解读为“需要点外卖 - 通过手机外卖App下单 - 外卖App根据过往历史推荐外卖”这一过程。

再例如,当你在网购平台上搜索某个东西时,平台会将你的搜索记录和点击行为保存下来。这些行为被视为你的“意图”。

比方说,如果你搜索“买手机”,平台可能认为你的意图是购买手机,并根据这些信息向你展示相关广告。

考虑人们的意图牵涉到多重的理性与感性因素,即便是目前生物学领域对人类意识最前沿的研究也只是全部拼图的冰山一角,简化对“意图”的定义能让我们更好地理解大模型语境下“意图”的本质——即无论意图是什么,它都可以被计算化,并能够以相关的数学公式等量化操作。

关于“意图”的两个假设在最近的大模型研究和开发的各个方面中起到了基础作用,值得我们仔细审视。

假设1:“意图”是某种类型的封闭环境下将影响个人行动的选择。

认知科学家认为,意向性从根本上说是一种“在高度结构化的系统中产生的高度结构化现象[4]。举例来说,数字环境中的本身选择架构塑造了用户的能动性、行为可能性以及随之而来的意图[5]——人们无法对无法点赞或滑动的内容进行点赞或滑动。

假设2:“意图”在大模型语境下具有时空性。

从某种意义上说,意图经济是注意力经济在时间维度上的延伸;它试图描绘用户注意力的轨迹——如何变化、固化,并与典型的行为模式相关联——跨越不同的时间尺度。虽然有些意图转瞬即逝,但另一些却持久存在,这使得它们的离散化对广告商来说极具价值。

虽无法追溯上述这些假设的思想史渊源,但行动哲学家Michael Bratman在1999年提出的"意图规划理论"认为人类意图包含"关于当下及未来行为,个体所产生的稳定的局部行动计划要素"[6]

微软团队在2024年的研究论文中采用了大语言模型可操作化的术语,将"意图"定义为"用户与AI智能体对话的目的",并列举了如"信息检索"“问题解决”“学习”“内容创作”"休闲"等结构化分类[7]

遗憾的是,这类新兴文献鲜少阐明理论来源,其部分依据可追溯至2000年代初网络查询分类研究。

就大模型语境下的“意图”定义而言,这种与行动关联的意图理解与Bratman规划理论高度契合,但谱系学考证尚待深入。

现阶段意图经济更多是愿景而非现实。但科技巨头的投资与话语体系正将生成式AI塑造为颠覆谷歌等市场主导者的技术里程碑。

通过梳理快速演进的大语言模型研究文献,以及微软、OpenAI、苹果与英伟达核心人物的公开论述,我们发现头部科技公司的产业野心正在聚合——重点在于利用大语言模型预测和引导用户基于意图、行为及心理数据的互动过程,从自愿参与到将大语言模型设置为数字信息系统的首要接触点。

为具体说明意图经济与当前注意力经济的区别,我们可以设想现在生活中这样一个例子

现今广告商可通过实时竞价(如百度旗下的广告联盟系统百度联盟)购买当下用户注意力,或对未来广告位做预购(如路上的广告牌或地铁车厢广告位)。

大语言模型通过实时询价(“今晚考虑看《蜘蛛侠》吗?”)与潜在未来竞价(“你曾提及工作超负荷,要预订之前讨论的电影票吗?”)来左右我们的生活选择。

在科技公司所构建的庞大数据网络中,大模型所提供的每条建议都是动态匹配我们的行为轨迹、心理画像与情境指标。

在意图经济中,大语言模型能低成本协调用户行为节奏、政治倾向、用词习惯、年龄性别、谄媚偏好等特征,结合竞价策略最大化目标达成率(如影响你所想要看的电影,最终将电影票卖给你)

有学者称此类个人AI"助手"实为服务平台、广告商与企业第三方的"市场化身"。尽管大语言模型未必是这一愿景的终极形态,但其基础设施成本及被重新定位为"基础"模型(令人联想建筑最低承重结构)的现象值得警惕。

同样需要审视的,是从直接信息检索(如我们通过百度或小红书等主动搜索信息)到生成式中介检索(如我们利用大模型来寻找问题答案)的模型转移,这正是之后我们讨论的重点。

不过,首先我们先把时间点拉回到2023年底,再回顾一次那场Open AI里程碑式的发布会。

2023年11月6日,OpenAI首届开发者大会在镁光灯下拉开帷幕。

这场高调亮相的科技盛典,恰似萨姆·奥尔特曼日后戏剧性"被罢免-复职-重组董事会"系列事件的预演。

大会上公布的平台升级——包括扩展上下文窗口、函数调用、JSON模式、多模态交互等——看似是面向开发者的技术迭代,实则暗藏玄机。

当OpenAI宣布对热门定制版GPT(即用户自建AI助手)实施收益分成时,一场针对普通电脑用户的"全民开发者"竞赛已悄然发令。

微软CEO萨提亚·纳德拉在演讲中着重强调公司对计算基础设施建设的投入,指出大语言模型的兴起促使微软重构"从供电系统到数据中心、机架、加速器乃至网络的全栈架构"[8]。他特别赞赏与OpenAI的合作关系——ChatGPT和GPT服务为微软服务器带来了前所未有的工作负载,进而创造可观收益。2022年,Azure云平台已贡献微软总营收的三分之一以上[9][10]

纳德拉坦言,OpenAI带来的计算需求规模是其任职微软三十年来仅见的,“Azure的形态正在发生剧烈而快速的变革以支持这些模型”[8:1]

研究机构指出,基于2024年起每年超500亿美元的基础设施投入预算,“微软正在开展人类史上最大规模的基础设施建设”[11]。换言之,微软借大语言模型之势,不仅志在成为云服务提供商之一,更意图成为如同公共事业般的基础云平台——其命名"Azure"(意为’无云晴空的湛蓝’)本身即是对所有云计算基底的诗意致敬

为了达成这一宏伟的目标,微软在OpenAI上砸下的巨资,与OpenAI的团队人数之比,可谓是巨额——有学者计算后发现,该比例几乎与1975年苏联对国家计划委员会Gosplan的投资,和其员工人数之比,大致相同[12]

微软、英伟达和OpenAI的确切投资目标难以通过实证方法明确辨识,但我们能从各公司发布的公告和大模型的研究方向中略知一二,而这些隐晦的投资目标往往被大众所忽视。

OpenAI希望通过发布和推销个人定制化的那些GPT模型(不论是在ChatGPT模型本身上修改制作,还是利用官方API),全面搜罗各领域和应用场景下的意图和行为数据。

这一点也是OpenAI在其官网中亲口承认的[13]

We’re interested in large-scale datasets that reflect human society and that are not already easily accessible online to the public today. We can work with any modality, including text, images, audio, or video. We’re particularly looking for data that expresses human intention (e.g. long-form writing or conversations rather than disconnected snippets), across any language, topic, and format.

这一陈述在某种程度上与奥尔特曼对“搜寻那些能表明人类意图的数据”的使命宣言不谋而合。并且这样的叙述在之后的OpenAI开发者大会上也被多次阐明。

Shopify的产品主管Miqdad Jaffer也表明道:“我认为我们目前正处于一个连续的过程中。我们首先从理解用户的意图开始,接着是预测用户的意图,然后是预测用户的行为。这就是我们当前的进展轨迹。而聊天机器人的出现正是为了明确获取用户的意图。”[14]

有趣的是,Miqdad Jaffer在2024年3月加入OpenAI,任职产品负责人。

英伟达CEO黄仁勋也在其他公开场合表明了大模型这一使命:“未来的典型应用场景,是一切事物的尽头就是大模型。我们与电脑的首次接触将是通过大模型完成的,它能辨识在特定场景下我们的意图、需求和想要做什么,它能呈现给我们达成目标所需要的,也是最想要的信息。”[15]

在这一任务上,英伟达和微软并非孤军奋战,Facebook的母公司Meta也在齐头并进。

Meta目前已经发现了如何从视觉图片中提取带有个人意图的行为数据。在一篇介绍“意图经济学”(Intentonomy)的文章中,作者们尝试着通过手动标注视觉片段来创建一个人类意图数据集[16]。对于测试内容,作者们一共标注了诸如“安全与归属感”、“权力”、“健康”、“家庭”、“抱负与能力”,以及“财务与职业成就”等28个意图类别。这一分析方法是从Instagram视觉图像中提取意图的类似研究中获得了灵感[17]

大型语言模型的出现使得这类信息提取工作得以自动化,能够大规模推断人类意图与动机,并以相对较低成本进行分类。

当前一些研究正在不断表明,通过大模型获取人类偏好的趋势正在不断提升。大模型能引导自身与"模糊"的人类偏好对齐——这只需向人类提出开放式问题即可获取信息答案[18]。微软的另一个案例则探索利用大模型生成意图分类体系,用以捕捉"用户与AI对话的目的"[19]。相关技术已被微软整合进其核心产品,如Teams的API库就包含"规划引擎"和"预测引擎"[20]

诚然,这类心理特征推断尚缺乏科学依据,且往往依赖隐蔽的人工标注劳动[21],多数研究也尚未通过同行评审。

但不论如何,这些早期的意图捕捉系统研发已取得了不错的进展,例如Meta就宣称其AI智能体CICERO在《强权外交》游戏中达到了人类水准[22]。这款游戏胜负关键正在于推断对手意图、制定策略,以及通过说服性对话推进己方立场。

不过这些能力将如何被商品化仍有待观察。

在数字广告市场,大模型与生成式AI为实时竞价系统(RTB)和程序化投放带来了自动化内容生成的可能。广告主不再受限于人工制作的广告库内容,能借助生成式AI根据用户画像精准定制内容。CICERO虽属概念验证,但其重要意义在于展示了系统能围绕用户意图,在各种场景中通过自动优化策略来实现预设目标

鉴于Meta现有的广告基础设施,其很可能会利用RTB网络拍卖"预订餐厅/航班/酒店"等用户意图。

虽然RTB、民意调查、市场研究和社交分析早已允许相关方预测并竞标用户行为,但大模型将这些实践提炼成高度量化、动态且个性化的形式——既具备亲密性(如AI助手)、低成本(相比人工访谈),又具有普适性(如遍地开花的品牌对话机器人)。

最新研究显示,RTB网络正对超50亿人(含儿童)进行画像。更令人忧心的是,RTB还被广泛用于间谍活动和犯罪,使"外国势力与非国家的实体能窥探目标对象的财务困境、心理状态和私密隐私"[23]

OpenAI新任董事会成员同样展现出与Meta类似的意图数据收集倾向。

前Salesforce联席CEO布雷特·泰勒曾执掌FriendFeed,该公司2009年被Facebook收购后,他出任CTO。关键的是,此次收购促使Facebook推出"点赞"按钮,为心理特征定向技术埋下伏笔——这种技术后来因剑桥分析公司丑闻而曝光[24]研究表明:“数字环境中大规模心理说服的效果,极大依赖于心理画像预测的准确性。”——换言之,能根据算法对用户心理画像不断更新完善的广告商将更容易开展数字化的群体说服。[25]

作为频繁与用户对话的助手,大模型天然适合持续校准用户生成的一系列相关数据(不论是从对话历史到行为习惯)。

基于语义丰富的交互,大模型能收集更逼真、深入且多元的数据。其生成能力还可隐蔽地(常借拟人化特性掩饰)实现内容个性化控制。因此,大模型操纵个体与群体的潜力,已远超剑桥分析事件中基于"点赞"的简单手段。

相关实践已然展开:研究人员发现,通过大模型能从文本中提取详尽的用户意图与偏好

例如模型能通过看似无害的对话推断个人信息,甚至"引导对话"以诱使对方泄露隐私[26]另一些研究则视大模型为推荐系统的革命性工具,可构建"忠实捕捉用户意图、编码人类认知机制的可配置模拟平台"[27]。其方法包含模拟1000个具有记忆模块的智能体,对齐MovieLens-1M数据集中真实人类的"观影记录、系统交互和情感记忆"。其他团队则尝试从非语言数据中提取用户兴趣,训练点击率预测模型[28]

这些预测技术的核心风险在于:若研究宣称的效果成真,将催生前所未有的超个性化操纵模式

CICERO团队就警告:“对话式AI存在操纵风险——智能体可能学会诱导对话对象达成特定目标”[29]。2023年10月,英国一名21岁学生就因与同情型聊天机器人密谋刺杀女王,获刑9年[30]

我们并非夸大模型对用户意图的影响力(并非所有用户都会成为刺客),但值得我们警惕的是:提升意图预测能力在增强模型实用性的同时,也为其他干预行为(包括实施犯罪等)创造了条件

遗憾的是,加强隐私保护未必能消除这些危害。生成式AI将内容本身作为推断隐私属性的代理实体,绕过了对第三方cookie的依赖

2024年OpenAI缔结的大量数据合作,不经让人怀疑正是服务于这种有利可图的模式重构。其与美国媒体集团Dotdash Meredith(DDM)的"战略合作"核心,就是将大模型与DDM的广告意图定向工具D/Cipher结合。该工具号称能使"广告定位更精细、更精准,提升客户参与效果"[31]。2023年5月推出的D/Cipher,本就是为应对第三方cookie被淘汰后、广告主无法跨网站追踪行为而开发[32]

另一个意图商业化的典型案例是苹果新推出的"App Intents"开发框架。

该框架包含意图发现、相关性判定和跨应用预测协议,既能"预测用户未来可能采取的行动",又能根据开发者提供的预测,“在未来向用户推荐相关功能”[33]。苹果还宣布将ChatGPT作为第三方服务集成到设备系统层,与其自研的"Apple Intelligence"AI服务互补。这两者都体现了大模型如何推动交互模式向"自然语言声明意图"转变。此举将十亿iPhone用户纳入了以"意图流通"为前提的信息获取范式。理论上,将D/Cipher等工具整合到生成式界面机制中,也将助推这一目标。


  1. Anscombe, G. E. M. (2000). Intention(2nd ed.). Harvard University Press. ↩︎

  2. Dennett, D. C. (1989). The intentional stance. MIT Press. (Original work published 1987) ↩︎

  3. Searle, J. R. (1983). Intentionality: An essay in the philosophy of mind. Cambridge University Press. ↩︎

  4. Boden, M. A. (1973). The structure of intentions. Journal for the Theory of Social Behaviour, 3(1), 23–46. https://doi.org/10.1111/j.1468-5914.1973.tb00314.x ↩︎

  5. Joler, V. (2020). New extractivism. New Extractivism. https://extractivism.online/ ↩︎

  6. Bratman, M. E. (1999). Faces of intention: Selected essays on intention and agency. Cambridge University Press. ↩︎

  7. Shah, C., White, R. W., Andersen, R., Buscher, G., Counts, S., Das, S. S. S., Montazer, A., Manivannan, S., Neville, J., Ni, X., Rangan, N., Safavi, T., Suri, S., Wan, M., Wang, L., & Yang, L. (2024). Using large language models to generate, validate, and apply user intent taxonomies. ArXiv. [2309.13063] Using Large Language Models to Generate, Validate, and Apply User Intent Taxonomies ↩︎

  8. OpenAI. (2023a, November 6). OpenAI DevDay, opening keynote [Video]. YouTube. https://www.youtube.com/watch?v=U9mJuUkhUzk ↩︎ ↩︎

  9. Franek, K. (2022, September 30). Microsoft revenue breakdown by product, segment and country. Microsoft Revenue Breakdown by Product, Segment and Country - KAMIL FRANEK Business Analytics ↩︎

  10. Microsoft. (2022). Msft-10k_20220630.htm. https://www.sec.gov/Archives/edgar/data/789019/000156459022026876/msft-10k_20220630.htm ↩︎

  11. Patel, D., & Xie, M. (2023, November 15). Microsoft infrastructure—AI & CPU custom silicon Maia 100, Athena, Cobalt 100. SemiAnalysis. Microsoft Infrastructure - AI & CPU Custom Silicon Maia 100, Athena, Cobalt 100 ↩︎

  12. Siddarth, D., Acemoglu, D., Allen, D., Crawford, K., Evans, J., Jordan, M., & Weyl, E. G. (2021). How AI fails us. Harvard University. https://ethics.harvard.edu/files/center-for-ethics/files/aifailsus.jhdcarr_final_2.pdf ↩︎

  13. OpenAI. (2023b, November 9). OpenAI data partnerships. https://openai.com/blog/data-partnerships ↩︎

  14. OpenAI. (2023c, November 13). The business of AI[Video]. YouTube. https://www.youtube.com/watch?v=knHW-p31R0c ↩︎

  15. NVIDIA. (2023, August 9). NVIDIA keynote at SIGGRAPH 2023 [Video]. YouTube. https://www.youtube.com/watch?v=Z2VBKerS63A ↩︎

  16. Jia, M., Wu, Z., Reiter, A., Cardie, C., Belongie, S., & Lim, S.-N. (2021). Intentonomy: A dataset and study towards human intent understanding. In 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 12981–12991). IEEE. Intentonomy: a Dataset and Study towards Human Intent Understanding | IEEE Conference Publication | IEEE Xplore ↩︎

  17. Kruk, J., Lubin, J., Sikka, K., Lin, X., Jurafsky, D., & Divakaran, A. (2019). Integrating text and image: Determining multimodal document intent in Instagram posts. ArXiv. [1904.09073] Integrating Text and Image: Determining Multimodal Document Intent in Instagram Posts ↩︎

  18. Li, B. Z., Tamkin, A., Goodman, N., & Andreas, J. (2023). Eliciting human preferences with language models. ArXiv. [2310.11589] Eliciting Human Preferences with Language Models ↩︎

  19. Shah, C., White, R. W., Andersen, R., Buscher, G., Counts, S., Das, S. S. S., Montazer, A., Manivannan, S., Neville, J., Ni, X., Rangan, N., Safavi, T., Suri, S., Wan, M., Wang, L., & Yang, L. (2024). Using large language models to generate, validate, and apply user intent taxonomies. ArXiv. [2309.13063] Using Large Language Models to Generate, Validate, and Apply User Intent Taxonomies ↩︎

  20. Maillot, M. (2024, August 21). Introduction to Teams AI Library—Teams. Microsoft. Welcome | Microsoft Learn ↩︎

  21. Gray, M. L., & Suri, S. (2019). Ghost work: How to stop Silicon Valley from building a new global underclass. Houghton Mifflin Harcourt. ↩︎

  22. Bakhtin, A., Brown, N., Dinan, E., Farina, G., Flaherty, C., Fried, D., Goff, A., Gray, J., Hu, H., Jacob, A. P., Komeili, M., Konath, K., Kwon, M., Lerer, A., Lewis, M., Miller, A. H., Mitts, S., Renduchintala, A., Roller, S., … Zijlstra, M. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science, 378(6624), 1067–1074. https://doi.org/10.1126/science.ade9097 ↩︎

  23. Ryan, J., & Christl, W. (2023). Europe’s hidden security crisis. Irish Council for Civil Liberties. Europe's hidden security crisis ↩︎

  24. 剑桥分析公司丑闻是指这家数据分析公司在2016年美国总统选举期间,未经用户同意从Facebook收集了数百万用户的个人信息,并利用这些数据为政治广告提供精准定位。事件曝光后引发了关于数据隐私和选举操纵的广泛争议,最终导致剑桥分析公司于2018年关闭。 ↩︎

  25. Matz, S. C., Kosinski, M., Nave, G., & Stillwell, D. J. (2017). Psychological targeting as an effective approach to digital mass persuasion. Proceedings of the National Academy of Sciences, 114(48), 12714–12719. https://doi.org/10.1073/pnas.1710966114 ↩︎

  26. Staab, R., Vero, M., Balunović, M., & Vechev, M. (2023). Beyond memorization: Violating privacy via inference with large language models. ArXiv. [2310.07298] Beyond Memorization: Violating Privacy Via Inference with Large Language Models ↩︎

  27. Zhang, A., Sheng, L., Chen, Y., Li, H., Deng, Y., Wang, X., & Chua, T.-S. (2023). On generative agents in recommendation. ArXiv. [2310.10108] On Generative Agents in Recommendation ↩︎

  28. Liu, Q., Hou, X., Jin, H., Chen, jin, Wang, Z., Lian, D., Qu, T., Cheng, J., & Lei, J. (2023). Deep group interest modeling of full lifelong user behaviors for CTR prediction. ArXiv. [2311.10764] Deep Group Interest Modeling of Full Lifelong User Behaviors for CTR Prediction ↩︎

  29. Bakhtin, A., Brown, N., Dinan, E., Farina, G., Flaherty, C., Fried, D., Goff, A., Gray, J., Hu, H., Jacob, A. P., Komeili, M., Konath, K., Kwon, M., Lerer, A., Lewis, M., Miller, A. H., Mitts, S., Renduchintala, A., Roller, S., … Zijlstra, M. (2022). Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science, 378(6624), 1067–1074. https://doi.org/10.1126/science.ade9097 ↩︎

  30. Singleton, T., Gerken, T., & McMahon, L. (2023, October 6). How a chatbot encouraged a man who wanted to kill the Queen. BBC News. How a chatbot encouraged a man who wanted to kill the Queen ↩︎

  31. Dotdash Meredith. (2024, May 7). Dotdash Meredith announces strategic partnership with OpenAI. Meredith Corporation MediaRoom. Dotdash Meredith Announces Strategic Partnership with OpenAI, Bringing Iconic Brands and Trusted Content to ChatGPT - May 7, 2024 ↩︎

  32. Dotdash Meredith. (2023, May 16). Dotdash Meredith launches D/Cipher, a transformative intent-targeting tool for advertising. PR Newswire. Dotdash Meredith Launches D/Cipher, a Transformative Intent-Targeting Tool for Advertising ↩︎

  33. Apple. (n.d.). App Intents. Apple Developer Documentation. Retrieved August 11, 2024, from App Intents | Apple Developer Documentation ↩︎

2 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文