核心发现
方法论
WorkflowView采用分层的LLM推理架构,将低级行为序列逐步抽象为自然语言描述,再推断出高层次的活动类别。第一层利用提示生成详细的行为描述,第二层通过自然语言推理推断用户意图,第三层进行类别分类或任务预测。该方法依赖prompt设计,无需微调,支持零样本和少样本学习。具体算法包括GPT-4、Phi-4等模型,结合层级推理机制实现噪声抑制和语义增强。通过在浏览器日志、MOOC交互和Word文档工作流中的实验,验证了其在不同任务中的高准确率和良好泛化能力。
关键结果
- 在浏览器任务重建中,WorkflowView实现了μsim=0.91的语义相似度,超越传统统计和深度模型,支持零样本推断。
- 在MOOC学生退学预测任务中,仅用五个少样本,模型达到了F1=0.90,显著优于基线和其他模型,验证了少样本学习能力。
- 在Word文档工作流中,模型成功分类任务类别,提供隐私保护的匿名分析,支持用户行为的高层次理解和产品优化。
研究意义
该研究突破了行为日志的噪声敏感性问题,提出了无需微调的通用抽象框架,极大提升了跨域行为理解的效率和准确性。其在实际应用中可实现用户行为的高层次解读,为数字产品优化、用户体验提升提供了新工具。特别是在隐私保护方面,模型通过匿名化处理实现了数据的安全利用,为未来隐私敏感场景中的行为分析树立了标杆。
技术贡献
本文提出了基于LLM的多层次行为抽象架构,结合提示工程实现零样本和少样本学习,显著降低了模型微调成本。引入层级推理机制,有效抑制噪声,提升语义表达能力。通过在多任务、多域场景中的验证,展示了该框架的高度通用性和扩展性,为行为序列建模提供了新思路。还系统讨论了部署中的计算效率和隐私保护策略,为工业落地提供技术基础。
新颖性
本研究首次将大规模预训练语言模型应用于低级行为序列的高层抽象,突破了传统统计和序列模型的局限。提出分层推理架构,支持跨域、零样本和少样本任务,具有显著的创新性。与以往只在自然语言任务中应用LLMs不同,本文成功将其迁移到非语言行为数据中,开辟了行为理解的新方向。
局限性
- 模型对提示设计敏感,可能在不同任务中需要调整提示内容,存在一定的调优成本。
- 在极端噪声或行为异常的场景下,抽象效果可能下降,需结合其他噪声抑制技术。
- 大规模LLMs的计算成本较高,部署到边缘设备或实时系统存在挑战。
未来方向
未来将探索自监督学习增强的提示优化策略,提升模型在复杂场景中的鲁棒性。计划结合多模态数据(如图像、音频)扩展行为理解能力,推动模型在隐私保护和边缘计算中的应用。同时,研究模型的可解释性和用户交互机制,增强实际应用中的信任度和可控性。
AI 总览摘要
随着数字化时代的到来,用户行为数据以其丰富的细节成为理解用户需求和优化产品的重要资源。传统的行为分析方法多依赖统计模型或深度学习,但在面对高噪声、跨域多样性时,表现出明显的局限性。本文提出的WorkflowView框架,利用大规模预训练的语言模型(如GPT-4)进行多层次推理,有效将复杂、低级的行为序列抽象成高层次、可解释的活动描述。
该方法的核心在于层级提示设计:第一层将行为序列转化为自然语言描述,第二层推断用户意图或任务类别,第三层进行任务分类或预测。无需微调,仅通过prompt即可实现多任务、多域的泛化能力。在浏览器日志、MOOC交互和Word文档工作流中的实验显示,WorkflowView在任务重建、学生退学预测和隐私保护分析中均达到了优异的性能,最高F1值达0.90,语义相似度μsim=0.91。
这些结果表明,基于LLM的抽象不仅能有效抑制噪声,还能捕捉行为背后的深层语义,为数字产品提供了高层次的行为理解工具。其在实际应用中具有广泛潜力,尤其是在隐私保护和低成本部署方面展现出优势。未来,结合多模态数据和自监督学习,将进一步推动行为理解技术的边界,助力智能交互和个性化服务的发展。
深度分析
研究背景
近年来,随着大数据和深度学习的发展,行为日志分析成为用户体验优化的重要手段。早期方法主要依赖统计技术如频繁项集和序列模式挖掘(Mannila et al., 1997; Agrawal et al., 1993),但这些方法缺乏语义理解,易受噪声干扰。随后,RNN、LSTM(Hochreiter and Schmidhuber, 1997)和Transformer(Vaswani et al., 2017)等深度模型被引入,用于捕获行为序列中的时间依赖关系(Nambhi et al., 2019; Zhu et al., 2021),但需要大量标注数据,泛化能力有限。近年来,语言模型如BERT(Devlin et al., 2019)和GPT系列(Radford et al., 2019; OpenAI, 2024)展现出强大的迁移能力,部分研究尝试将其应用于行为日志理解(Guo et al., 2021; Zhou et al., 2024),但多依赖微调和任务特定的训练集。本文基于此背景,提出利用大语言模型的零样本和少样本推理能力,进行跨域行为抽象,填补了现有技术在非语言行为序列理解中的空白。
核心问题
当前行为日志分析面临的主要挑战在于数据的高噪声、低语义表达和跨域适应性差。具体而言,行为序列通常由大量低层次、碎片化的事件组成,难以直接理解用户的真实意图。传统方法多依赖规则或统计模型,难以应对行为的多样性和复杂性。此外,微调深度模型虽能提升性能,但成本高昂,难以快速迁移到新场景。如何在保持高准确率的同时,降低标注成本、增强模型的泛化能力,成为亟待解决的问题。本文旨在通过大规模预训练模型的提示能力,实现无需微调的行为抽象,解决噪声干扰和跨域适应性不足的难题,从而推动行为理解的普适性和实用性。
核心创新
本研究的创新点主要体现在以下几个方面:
1) 分层推理架构:将行为序列逐步抽象为自然语言描述,再推断高层次活动,增强模型的可解释性和鲁棒性。
2) 提示工程:设计多层次prompt,支持零样本和少样本学习,避免微调成本,提升迁移能力。
3) 跨域适应:在浏览器、MOOC和Word等不同场景中验证模型的泛化能力,展示其广泛适用性。
4) 隐私保护:采用匿名化和聚合策略,实现隐私友好的行为分析,满足实际应用需求。
方法详解
- �� 数据预处理:将原始行为日志转化为时间戳行为事件序列。
- �� 层级提示设计:
- 第一层:利用提示将行为序列转化为详细自然语言描述,强调时间关系和行为特征。
- 第二层:基于描述推断用户的主要任务或意图,生成简洁总结。
- 第三层(可选):将推断结果分类到预定义类别或进行任务预测。
- �� 模型推理:使用GPT-4或类似模型,通过prompt输入实现多层推理,无需微调。
- �� 训练与调优:在少样本条件下,通过示例引导模型学习任务特征。
- �� 评估指标:采用语义相似度(μsim)、F1、Recall、Precision等衡量抽象效果和预测性能。
实验设计
实验采用三个不同场景:浏览器任务重建、MOOC学生退学预测和Word文档行为分类。浏览器数据来自Mind2Web(Deng et al., 2023),涵盖137网站、五类任务,模型在零样本条件下实现μsim=0.91。MOOC数据由Feng et al. (2019)提供,模型在仅用五个少样本时达F1=0.90,优于传统模型。Word场景中,模型通过类别分类实现隐私保护的行为分析。所有实验均采用GPT-4及其他模型,比较不同提示设计和少样本策略的效果,验证模型的泛化能力和鲁棒性。
结果分析
在浏览器任务重建中,模型实现了μsim=0.91,超越传统统计和深度模型,支持零样本推断。在MOOC预测中,少样本条件下达F1=0.90,显著优于基线(F1≈0.84)。Word场景中,模型成功分类行为类别,提供隐私保护的高层次理解。整体来看,模型在不同任务和域中均表现出强大适应性,验证了其跨域泛化能力和实际应用潜力。
应用场景
该方法可广泛应用于用户行为分析、产品优化、个性化推荐、隐私保护等场景。企业可利用其实现低成本、高效率的行为理解,无需大量标注数据。未来,结合多模态信息和增强学习,将推动智能交互、自动化监控和个性化服务的发展,满足日益增长的数字化需求。
局限与展望
模型对提示设计敏感,可能在不同任务中需要调整提示内容,存在调优成本。极端噪声或异常行为可能影响抽象效果。大规模LLMs的计算成本较高,部署到边缘设备或实时系统存在挑战。未来需优化模型效率和鲁棒性,提升在复杂环境中的表现。
通俗解读 非专业人士也能看懂
想象你在一家大型工厂工作,工厂里有许多不同的机器,每天都在不停地运转。工厂管理者希望了解每台机器的工作状态,但机器发出的信号很杂乱,有的信号代表机器在工作,有的代表故障或维护。过去,工厂用人工记录这些信号,然后用统计方法找出问题,但这些方法效率低,容易出错。
现在,假设有一个智能助手,它能像人一样理解这些信号。这个助手可以把每个信号转化成一句话,比如“机器正在加热”或“出现故障”,然后再根据这些描述推断出工厂的整体生产状态,比如“生产正常”或“需要维修”。这个助手还能根据不同工厂的机器类型,自动调整理解方式,不需要专门为每个工厂重新训练。
这个智能助手就像是用大脑训练出来的,能在不同的工厂中快速理解复杂的信号,把杂乱无章的机器声变成清晰的生产报告。这样,工厂管理者就能更快发现问题,提升效率,而不用担心数据太杂或不懂技术。它让复杂的机器信号变得像是人说的话一样容易理解,帮助工厂变得更智能、更高效。
简单解释 像给14岁少年讲一样
想象你在学校的操场上玩游戏,游戏规则很复杂,有很多不同的动作,比如跑、跳、投球、躲避。每次你做动作时,老师都会记录下来,但这些记录非常详细,比如“你跑了10米,花了3秒,跳了1米高,投了一个球”。如果只看这些细节,可能很难知道你在玩什么游戏,也不知道你是不是在赢。
现在,假设有个聪明的朋友,他可以把这些复杂的动作都变成一句简单的话,比如“你在玩接球游戏”或者“你在跑步比赛”。这个朋友还能根据这些简单的话,告诉你你是不是在赢,或者你需要练习什么。这就像是用一个超级聪明的机器人,把所有复杂的动作变成一句话,然后帮你理解整个游戏的意思。
这个机器人不用你教它怎么玩游戏,也不用你告诉它规则,它只需要观察你的动作,然后用它的大脑告诉你你在做什么、是不是在赢。这就像你有一个超级聪明的朋友,总是能帮你理解复杂的事情,让你更开心、更聪明!
术语表
Large Language Model (LLM) (大规模语言模型)
一种基于海量文本数据训练的深度学习模型,能理解和生成自然语言,支持多任务推理和少样本学习。
本文中用GPT-4等模型进行行为序列的多层次推理。
Hierarchical Reasoning (层级推理)
一种分层次处理信息的方法,从低级行为到高层意图逐步抽象,增强模型的解释性和鲁棒性。
本文设计的多层提示架构即采用此技术。
Prompt Engineering (提示工程)
通过设计特定的输入提示,引导模型完成特定任务,无需微调。
本文利用提示设计实现零样本和少样本行为抽象。
Zero-shot Learning (零样本学习)
模型在没有专门训练样本的情况下,完成新任务的能力。
WorkflowView在多个任务中实现零样本推断。
Few-shot Learning (少样本学习)
模型通过少量示例快速适应新任务的能力。
模型在MOOC退学预测中只用五个示例。
Semantic Similarity (语义相似度)
衡量两个文本在语义上的接近程度,常用余弦相似度等指标。
用于评估生成任务描述与真实描述的匹配程度。
Behavior Sequence (行为序列)
用户在时间上连续发生的行为事件集合。
本文分析的核心数据类型。
Task Reconstruction (任务重建)
从行为数据中推断用户的具体任务或意图。
在浏览器日志中的应用。
Privacy-preserving Analysis (隐私保护分析)
在数据分析中采用匿名化或聚合技术,保护用户隐私。
Word文档工作流中的应用。
Prompt Tuning (提示调优)
通过优化提示内容提升模型任务表现的技术。
未来工作中可能结合自监督优化提示。
开放问题 这项研究留下的未解疑问
- 1 尽管WorkflowView在多个场景中表现优异,但其对极端噪声和异常行为的鲁棒性仍有待提升。未来需要结合噪声抑制技术,增强模型在真实复杂环境中的适应能力。
- 2 模型对提示设计的依赖较强,如何自动生成或优化提示以适应不同任务和场景,是未来研究的重要方向。
- 3 当前方法主要关注行为序列的抽象,尚未充分结合多模态信息(如图像、音频),未来可以探索多模态融合以提升理解深度。
- 4 大规模LLMs的高计算成本限制了其在边缘设备和实时系统中的应用,未来需优化模型架构或采用模型压缩技术。
- 5 行为理解的可解释性仍需加强,如何让模型的推理过程更透明,便于用户理解和信任,是未来的重要课题。
应用场景
近期应用
用户行为分析与产品优化
企业可以利用WorkflowView快速理解用户在不同应用中的行为模式,优化界面设计和功能布局,提升用户体验,且无需大量标注数据,降低成本。
隐私保护的行为监控
通过匿名化和聚合技术,支持企业在不侵犯用户隐私的前提下,进行行为分析和异常检测,为安全和合规提供技术保障。
智能客服与自动化支持
结合行为抽象,提升智能助手对用户操作的理解能力,实现更自然的交互和自动化任务处理。
远期愿景
跨域智能行为理解平台
构建统一的行为理解框架,支持多行业、多应用场景的行为分析,推动人机交互的智能化和个性化发展。
深度融合多模态数据的智能系统
结合视觉、语音等多模态信息,打造更全面的用户行为理解体系,推动智能环境和自动化系统的普及。
原文摘要
Sequential or time-stamped interaction logs provide objective records of digital application usage, yet their granularity and noise often obscure meaningful insights into people's work. Such insights are essential for improving digital products in ways grounded in real-world user interactions. Prior research has applied deep learning models to cluster user actions into high-level activities, but these approaches are highly sensitive to noise and struggle to generalize across applications. To address this limitation, we introduce WorkflowView, a framework that uses large language models (LLMs) to abstract low-level action sequences into high-level activities. We establish the effectiveness and generality of our approach across three distinct, challenging sequential tasks and diverse domains: (a) zero-shot task description reconstruction from browser logs (achieving high semantic similarity, $μ_{sim} = 0.91$), (b) few-shot student dropout prediction using MOOC interaction logs (reaching weighted $F_1 = 0.90$ with only five few-shot examples), and (c) anonymized, privacy-preserving analysis of AI tool integration within document workflows in Microsoft Word. Our work demonstrates that LLM-based abstraction is a robust and efficient path forward for transforming low-level behavioral data into high-level, interpretable, and actionable insights. We also discuss practical considerations for deploying LLM-based inferences within logging infrastructures, including computational efficiency and user privacy.
参考文献 (20)
Deep Learning-Based Method for Predicting Student Dropouts in MOOCs
Shu Yang, YinFeng Xiao, Fei Meng
Lost in the Middle: How Language Models Use Long Contexts
Nelson F. Liu, Kevin Lin, John Hewitt 等
gpt-oss-120b&gpt-oss-20b Model Card
OpenAI Sandhini Agarwal, L. Ahmad, Jason Ai 等
Understanding Dropouts in MOOCs
Wenzheng Feng, Jie Tang, T. Liu
Sequence to Sequence Learning with Neural Networks
I. Sutskever, O. Vinyals, Quoc V. Le
Stuck? No worries!: Task-aware Command Recommendation and Proactive Help for Analysts
Aadhavan M. Nambhi, Bhanu Prakash Reddy Guda, Aarsh Prakash Agarwal 等
Mining sequential patterns
R. Agrawal, R. Srikant
An LSTM Based System for Prediction of Human Activities with Durations
Kundan Krishna, Deepali Jain, Sanket Vaibhav Mehta 等
LSTPrompt: Large Language Models as Zero-Shot Time Series Forecasters by Long-Short-Term Prompting
Haoxin Liu, Zhiyuan Zhao, Jindong Wang 等
Vellum
Cross-Modal Projection in Multimodal LLMs Doesn't Really Project Visual Attributes to Textual Space
Gaurav Verma, Minje Choi, Kartik Sharma 等
CLSA: A novel deep learning model for MOOC dropout prediction
Qian Fu, Zhanghao Gao, Junyi Zhou 等
Mining association rules between sets of items in large databases
R. Agrawal, T. Imielinski, A. Swami
Leveraging Pre-trained Checkpoints for Sequence Generation Tasks
S. Rothe, Shashi Narayan, A. Severyn
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
Seungwhan Moon, Andrea Madotto, Zhaojiang Lin 等
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
Sewon Min, Xinxi Lyu, Ari Holtzman 等
Efficient Estimation of Word Representations in Vector Space
Tomas Mikolov, Kai Chen, G. Corrado 等
The Hierarchical Hidden Markov Model: Analysis and Applications
Shai Fine, Y. Singer, Naftali Tishby
Mining long sequential patterns in a noisy environment
Jiong Yang, Wei Wang, Philip S. Yu 等
Identifying Frequent User Tasks from Application Logs
Himel Dev, Zhicheng Liu