万亿分钟预训练:可穿戴健康基础模型与LLM智能体的范式突破
针对可穿戴设备数据个体差异大及标注稀缺的痛点,最新研究提出在500万参与者、超一万亿分钟无标签数据上预训练的健康基础模型。该模型通过联合扩展容量与数据量,在心血管、代谢等35项任务中实现系统性性能提升,并解锁少样本学习与生成能力。引入LLM智能体自动搜索下游预测头,经1860名临床医生评估,其构建的个人健康智能体在相关性、情境感知与安全性上均表现优异,标志着可穿戴健康分析从专用模型向通用智能体的关键跨越。
可穿戴传感器技术的普及使得捕捉用户行为与生理信息变得前所未有的容易,然而,如何将这些低维度的原始信号转化为具有高价值的个性化健康洞察,仍是当前数字健康领域面临的核心挑战。这一难题主要源于人类表型的高度多样性以及个体在基线健康、生理机制和生活方式上的巨大差异,导致从底层数据到高层状态表征的映射极为困难。更为严峻的是,获取带有高质量健康结果标注的可穿戴数据成本高昂且耗时费力,回顾性标注在实际操作中几乎不可行,这直接导致了高质量标注数据的极度匮乏。针对上述痛点,本研究提出了一种专为可穿戴健康数据设计的通用基础模型。
该模型的核心贡献在于突破了数据标注的瓶颈,通过在大规模无标签数据上进行预训练,构建了一个能够理解复杂生理信号时空模式的通用表征空间,从而为后续的健康预测与个性化干预奠定了坚实的数据与模型基础。在技术方法层面,该研究构建了一个极具规模的基础模型,其预训练数据来源于一个包含五百万参与者的庞大队列,累计处理了超过一万亿分钟的无标签传感器信号。这种超大规模的预训练策略旨在让模型自主学习生理信号的内在规律,而非依赖人工标注的监督信号。研究发现,模型容量与预训练数据量的联合扩展能够带来系统性的性能提升,这表明该领域存在显著的缩放定律效应。
为了进一步挖掘这一预训练表征的潜力,研究团队并未止步于传统的监督微调,而是创新性地部署了一个由大语言模型智能体组成的"教室"。这些智能体被赋予自主权,能够在模型嵌入空间中对下游预测头的结构进行自动化搜索与优化。这种基于LLM的智能体搜索机制不仅减少了人工设计模型架构的负担,还通过探索更广泛的模型空间,显著提升了下游任务的性能,且这种提升随着LLM模型容量的增加而进一步扩大,展现了智能体辅助模型设计的巨大潜力。在实验验证方面,研究团队在涵盖心血管健康、代谢指标、睡眠质量、心理健康以及生活方式选择人口统计学因素等35项多样化的健康预测任务上进行了全面评估。
实验结果证实,基于该基础模型提取的表征在少样本学习场景下表现出极高的标签效率,能够以极少的标注数据实现稳健的日常指标估计。消融实验进一步揭示,预训练数据的规模和质量对最终性能具有决定性影响,而智能体搜索策略在优化下游预测头时,能够发现比人工设计更优的网络结构。此外,研究还展示了该模型在生成式任务中的应用潜力,即能够根据历史数据生成符合个体生理规律的模拟信号,这对于数据增强和隐私保护下的模型训练具有重要意义。这些关键结果不仅验证了基础模型在泛化能力上的优势,也证明了自动化智能体在模型优化中的有效性和可扩展性。
从行业意义与潜在影响来看,这项研究为可穿戴健康数据的商业化落地提供了新的范式。通过构建通用的健康基础模型,开发者可以大幅降低针对特定健康指标开发专用模型的门槛,加速数字健康应用的创新。特别是将下游预测器集成到"个人健康智能体"中,使得AI助手能够提供更相关、更具情境感知能力且安全的健康建议。这一成果经过1860名临床医生的严格评估与打分,证明了其在专业医疗场景下的可用性与可靠性。这不仅有助于缓解医疗资源紧张的局面,通过AI辅助实现早期健康风险预警,也为后续研究探索多模态健康数据融合、长期健康趋势预测以及个性化医疗干预策略开辟了广阔的道路,标志着可穿戴健康分析从单一指标监测向通用智能健康代理演进的重要一步。