万亿分钟数据预训练:可穿戴健康基础模型与个人健康代理的范式突破
针对可穿戴设备数据转化难、标注稀缺及个体差异大等痛点,研究提出基于万亿分钟无标签传感器数据预训练的可穿戴健康基础模型。该模型在500万参与者队列上训练,通过联合扩展模型容量与数据量,在心血管、代谢等35项任务中实现系统性性能提升。研究进一步利用LLM智能体自动搜索下游预测头结构,并构建经1860名临床医生评估的个人健康代理,展现出卓越的上下文感知力与安全性,为可穿戴健康数据的深度挖掘提供了全新范式。
可穿戴设备虽已能捕捉海量的行为与生理信号,但将这些低层数据转化为具有临床或个人价值的健康洞察仍面临巨大挑战。核心难点在于个体间极高的表型多样性、基线健康状态的差异以及生活方式的复杂影响,使得从原始信号中提取能够表征高层健康状态的特征变得异常困难。此外,获取带有高质量健康结果标注的数据集成本高昂且耗时,回溯性标注在现实中几乎不可行,导致高质量标注数据的严重匮乏。针对这一领域长期存在的瓶颈,本研究提出了一种面向可穿戴健康数据的通用基础模型。该模型的核心贡献在于突破了传统方法对标注数据的依赖,通过利用大规模无标签数据进行预训练,构建了一个能够理解复杂生理信号变化的通用表征空间,从而为解决个性化健康监测中的泛化性与数据稀缺问题提供了全新的技术路径。在技术方法上,该研究构建了一个规模庞大的预训练框架,其训练数据来源于500万参与者队列中超过一万亿分钟的无标签传感器信号。这种极大规模的数据输入旨在让模型自主学习人类生理与行为模式的底层规律,而非仅仅拟合特定的标签。
研究重点探讨了模型容量与预训练数据量联合扩展对性能的影响,证实了这种缩放策略能带来系统性的性能提升。为了进一步挖掘预训练表征的潜力,团队并未止步于传统的监督微调,而是引入了一种创新的自动化搜索机制。他们部署了一个由大型语言模型(LLM)智能体组成的"教室",让这些智能体在预训练模型生成的嵌入空间上,自主搜索和构建最优的下游预测头结构。这种将LLM的推理能力与基础模型的表征能力相结合的策略,不仅提高了预测头的构建效率,还通过LLM容量的增加带来了持续的性能增益,展现了智能体在模型架构搜索中的巨大潜力。实验评估覆盖了35项多样化的健康预测任务,范围广泛涵盖心血管健康、代谢指标、睡眠质量、心理健康状态,甚至包括生活方式选择与人口统计学因素。关键结果显示,随着模型和数据规模的扩大,各项任务的预测精度均呈现出稳步提升的趋势,验证了基础模型在跨领域健康指标预测上的通用性。消融实验与深入分析发现,该大规模预训练表征解锁了标签高效的小样本学习能力,意味着在仅有少量标注数据的情况下,模型仍能保持较高的预测性能,这对于解决标注数据稀缺问题至关重要。
此外,模型还展现出强大的生成式能力,能够用于稳健的日常健康指标估算。在下游预测头的自动搜索实验中,LLM智能体构建的预测结构在多项任务上均优于人工设计的基线,且随着LLM自身容量的增加,这种性能提升更加显著,证明了智能体在优化下游任务中的有效性。该研究的行业意义在于它不仅提供了一个强大的基础模型,更通过构建"个人健康代理"展示了落地的可能性。通过将上述下游预测器整合到代理系统中,系统能够生成更具相关性、上下文感知力且更安全的治疗或健康建议。为了验证这一代理的实际效用,研究团队收集了1860名临床医生的评分数据。评估结果表明,基于该基础模型构建的代理在临床相关性、上下文理解及安全性方面均获得了高度评价。这一成果对开源社区、工业落地及后续研究具有深远影响,它证明了利用超大规模无标签数据预训练结合LLM智能体自动化优化,是解决个性化健康数据价值挖掘的有效途径,为未来可穿戴设备从单纯的数据记录者向智能健康顾问转型奠定了坚实的技术基础。