万亿分钟数据铸就健康基石:可穿戴设备通用基础模型与个人健康代理的突破

针对可穿戴健康数据的高异质性与标注稀缺痛点,一项最新研究提出了基于超大规模无标签数据预训练的可穿戴健康基础模型。该模型在一亿名参与者、超一万亿分钟传感器信号上训练,通过联合扩展模型容量与数据量,在心血管、代谢等35项任务中实现系统性性能提升。团队利用LLM智能体集群自动搜索预测头结构,并构建了经1860名医生验证的临床相关个人健康代理,标志着可穿戴AI从单一指标监测向通用健康智能体演进的关键一步。

可穿戴设备虽然能够持续捕捉海量的行为与生理信号,但将这些低层数据转化为具有个性化意义的健康洞察仍面临巨大挑战。核心难点在于表型多样性极高,且个体在基础健康状况、生理特征及生活方式上存在显著差异,导致从原始信号到高层状态表征的映射极其困难。同时,获取带有高质量健康结果标注的数据成本高昂且耗时,回顾性标注在实际操作中几乎不可行,这造成了高质量标签数据的严重匮乏。为此,本研究提出了一种面向可穿戴健康数据的通用基础模型,旨在通过大规模无监督学习克服数据标注瓶颈。该研究的核心贡献在于构建了一个能够理解复杂生理信号的基础架构,不仅解决了数据稀缺问题,还通过规模化预训练实现了从原始信号到健康语义的通用表征,为后续的健康预测与个性化分析奠定了坚实基础。这一工作标志着可穿戴数据分析从传统小样本监督学习向大规模自监督基础模型范式的重要转变。

在技术方法层面,该基础模型采用了极为庞大的预训练数据集,包含来自五百万参与者的超过一万亿分钟无标签传感器信号。这种超大规模的数据输入使得模型能够学习到极其丰富的生理模式与个体差异特征。研究证实,模型容量与预训练数据量的联合扩展带来了系统性的性能提升,这表明在该领域,规模效应依然显著。为了进一步挖掘这一预训练表征的潜力,研究团队引入了一种创新的自动化下游任务适配机制。他们部署了一个由大型语言模型(LLM)智能体组成的"教室",这些智能体被赋予自主搜索能力,能够在基于模型嵌入构建的下游预测头空间中进行高效探索。这种由LLM驱动的自动化架构搜索策略,不仅减少了人工调参的成本,还通过智能体的协同工作发现了更优的预测结构,展示了基础模型表征在复杂任务适配中的灵活性与强大潜力。

实验评估涵盖了35项多样化的健康预测任务,范围广泛,包括心血管疾病风险、代谢指标、睡眠质量、心理健康状态,以及生活方式选择和社会人口学因素。结果表明,该基础模型在这些任务上均取得了显著的性能提升,验证了其泛化能力。关键发现指出,这种基于人口规模学习到的表征解锁了标签高效的少样本学习能力,意味着在仅有少量标注数据的情况下,模型仍能保持高精度的预测性能。此外,模型还展现出强大的生成能力,可用于稳健的日常指标估计,填补了传统方法在连续生理状态监测中的空白。消融实验进一步证实,随着LLM智能体容量的增加,下游预测性能也随之提升,证明了智能体在优化预测头结构中的关键作用。这些结果不仅展示了基础模型在单一任务上的优越性,更证明了其在多模态、多任务健康场景下的通用适应性。

从行业意义来看,这项研究为可穿戴健康数据的商业化落地提供了新的技术路径。通过构建个人健康代理(Personal Health Agent),将下游预测器整合到交互界面中,系统能够生成更具相关性、上下文感知且安全的健康建议。这一成果经过1,860名临床医生的严格评估验证,证明了其在临床辅助决策中的实用价值与安全性。对于开源社区而言,该基础模型提供了高质量的健康特征提取工具,降低了后续研究的门槛。在工业落地方面,它有望推动从"数据记录"向"智能健康伴侣"的转型,使可穿戴设备不再仅仅是计步器或心率监测仪,而是成为能够理解用户整体健康状况的AI助手。此外,该研究提出的LLM智能体自动化搜索框架,也为其他领域的模型适配提供了可借鉴的方法论,具有广泛的学术与产业影响力。