TIME-LLM TIME SERIES FORECASTING BY REPROGRAMMING LARGE LANGUAGE MODELS --知识铺

导读

论文题目《TIME-LLM: TIME SERIES FORECASTING BY REPROGRAMMING LARGE LANGUAGE MODELS》。该论文提出了一个TIME-LLM模型，它将大语言模型应用于时序预测中，力求得到一个有更多应用场景的时序预测模型。

摘要

时间序列预测在许多现实世界的动态系统中具有重要意义，并且已经得到了广泛研究。与自然语言处理（NLP）和计算机视觉（CV）不同，在这些领域，一个单一的大型模型可以处理多个任务，时间序列预测模型通常是专门化的，需要为不同的任务和应用设计不同的模型。尽管预训练的基础模型在NLP和CV方面取得了令人瞩目的进展，但它们在时间序列领域的发展受到了数据稀疏性的限制。最近的研究表明，大型语言模型（LLMs）具有对复杂的标记序列具有强大的模式识别和推理能力。然而，有效地将时间序列数据和自然语言的模态进行对齐以利用这些能力仍然是一个挑战。在这项工作中，作者提出了TIME-LLM，一个重新编程框架，以重新利用LLMs进行一般的时间序列预测，同时保持基础语言模型不变。作者首先通过重新编程输入时间序列与文本原型，然后将其输入到冻结的LLM中以对齐两个模态。为了增强LLM对时间序列数据进行推理的能力，作者提出了Prompt-as-Prefix（PaP），它丰富了输入上下文，并指导了重新编程输入补丁的转换。最后，从LLM中获得的转换后的时间序列补丁被投影以获得预测结果。作者的综合评估表明，TIME-LLM是一个强大的时间序列学习器，优于最先进的专业化预测模型。此外，TIME-LLM在少样本学习和零样本学习场景中表现出色。

介绍

时间序列预测是许多现实世界动态系统中的关键能力，其应用范围从需求规划和库存优化到能源负荷预测和气候建模。每个时间序列预测任务通常需要广泛的领域专业知识和任务特定的模型设计。这与基础语言模型如GPT-3、GPT-4、Llama等在几种NLP任务中都能表现良好的情况形成了鲜明对比。预训练的基础模型，如大型语言模型（LLMs），推动了计算机视觉（CV）和自然语言处理（NLP）的快速进展。尽管时间序列建模没有从同样重大的突破中受益，但LLMs出色的能力已经启发了它们在时间序列预测中的应用。利用LLMs推进预测技术存在几个期望：通用性。LLMs已经展示出在少样本和零样本转移学习中的显著能力。这表明它们有潜力在不需要从头重新训练每个任务的情况下，跨领域进行通用预测。相比之下，当前的预测方法通常是严格按领域专门化的数据进行预测。通过利用预训练知识，LLMs已经显示出只需少量示例就能执行新任务的能力。这个模型可以使得在历史数据有限的情况下进行预测成为可能。相比之下，当前方法通常需要大量的领域内数据进行推理。LLMs表现出复杂的推理和模式识别能力，可以通过利用学到的高级概念进行高精度的预测。现有的非LLM方法在很大程度上缺乏内在的多模态知识推理能力。随着LLM架构和训练技术的改进，它们在视觉、语音和文本等多种模态上获得了更多的多样化知识。利用这些知识可以实现融合不同数据类型的协同预测。传统工具缺乏联合利用多个知识库的方法，不易于优化。LLMs只需在大量计算中进行一次训练，然后就可以在不需要从头学习的情况下应用于预测任务。优化现有的预测模型通常需要大量的架构搜索和超参数调优。总之，与当前的专业化建模范式相比，LLMs为使时间序列预测更普遍、高效、协同和易于访问提供了一个有前景的途径。因此，将这些强大的模型调整为时间序列数据可以释放出巨大的未开发潜力。以上好处的实现取决于有效地对齐时间序列数据和自然语言的模态。然而，这是一项具有挑战性的任务，因为LLMs操作离散标记，而时间序列数据本质上是连续的。此外，解释时间序列模式的知识和推理能力并不是LLMs预训练中自然存在的。因此，解锁大型语言模型中的知识以激活其在准确性、数据效率和任务无关性方面的通用时间序列预测能力仍然是一个未解之谜。在这项工作中，作者提出了TIME-LLM，一个重新编程框架，用于适应大型语言模型进行时间序列预测，同时保持骨干模型不变。其核心思想是将输入时间序列重新编程为更适合语言模型能力的文本原型表示。为了进一步增强模型对时间序列概念的推理能力，作者引入了Prompt-as-Prefix（PaP），这是一种在输入时间序列中引入额外上下文并以自然语言方式提供任务说明的新思路。这提供了关于对重新编程输入应用的所需转换的声明性指导。然后，语言模型的输出被投影以生成时间序列预测。作者的综合评估表明，当通过这种重新编程方法采用大型语言模型时，它们可以作为有效的少样本和零样本时间序列学习器，优于专门的预测模型。通过利用LLMs的推理能力，同时保持模型完整性，作者的工作指明了一条在语言和序列数据任务上都表现优异的多模态基础模型的道路。作者提出的重新编程框架为赋予大型模型超越原始预训练能力的新能力提供了一个可扩展的范例。作者在这项工作中的主要贡献可以总结如下：

• 作者提出了一种新颖的概念，即重新编程大型语言模型进行时间序列预测，而不改变预训练的骨干模型。通过这样做，作者表明预测可以被视为另一个“语言”任务，可以由现成的LLM有效地解决。

• 作者提出了一个新框架，TIME-LLM，其中包括将输入时间序列重新编程为更适合LLM的文本原型表示，并通过声明性提示（例如领域专家知识和任务说明）来增强输入上下文，以引导LLM的推理。作者的技术指向了在语言和时间序列方面表现优异的多模态基础模型。

• TIME-LLM在主流预测任务中持续超越最先进的性能，特别是在少样本和零样本场景中。而且，这种优越的性能是在保持优秀的模型重新编程效率的同时实现的。因此，作者的研究是释放LLM在时间序列和可能其他序列数据中未开发潜力的具体步骤。

方法论

作者的模型架构如图1所示。

图1 TIME-LLM的模型框架。

作者专注于重新编程一个嵌入可见的语言基础模型，例如Llama和GPT-2，用于通用时间序列预测，而无需对骨干模型进行任何微调。具体而言，考虑以下问题：给定由N个不同的一维变量组成的T个时间步骤上的历史观测序列X ∈ R^N×T，目标是重新编程一个大型语言模型f(·)以理解输入时间序列并准确预测未来H个时间步的读数，用总体目标是最小化地面真实值Y和预测之间的均方误差。作者的方法包括三个主要组成部分：(1) 输入转换，(2) 预先训练的和冻结的LLM，以及(3) 输出投影。最初，多元时间序列被分成N个单变量时间序列，随后独立处理。第i个系列表示为X(i) ∈ R^1×T，它经过归一化、拼接和嵌入处理，然后再用学习的文本原型重新编程以对齐源模态和目标模态。然后，作者通过提示LLM与重新编程的补丁一起，增强了LLM的时间序列推理能力，以生成输出表示，这些表示被投影到最终的预测ˆY(i) ∈ R^1×H。作者注意到，只有轻量级输入转换和输出投影的参数被更新，而骨干语言模型被冻结。与视觉语言和其他多模态语言模型通常使用配对的跨模态数据进行微调不同，TIME-LLM直接进行优化，并且仅使用少量时间序列和少量训练时期即可立即可用，与从头开始构建或微调大型领域特定模型相比，保持高效，并且施加更少的资源约束。为了进一步减少内存占用，各种现成的技术（例如量化）可以无缝集成到TIME-LLM中以减小其体积。

首先，通过可逆的实例归一化（RevIN）将每个输入通道X(i)分别归一化为零均值和单位标准差，以减轻时间序列的分布偏移。然后，作者将X(i)分成几个连续重叠或非重叠的补丁，长度为Lp；因此，输入补丁的总数为，其中S表示水平滑动步幅。两个基本动机是：（1）通过将局部信息聚合到每个补丁中更好地保留局部语义信息，以及（2）作为记号化来形成紧凑的输入记号序列，减少计算负担。给定这些补丁，作者将它们嵌入为，采用简单的线性层作为补丁嵌入器以创建维度dm。

在这里，作者将补丁嵌入重新编程为源数据表示空间，以对齐时间序列和自然语言的模态，以激活骨干的时间序列理解和推理能力。一种常见做法是学习一种形式的“噪声”，当应用于目标输入样本时，使得预先训练的源模型能够产生所需的目标输出，而无需参数更新。这在技术上是可行的，用于连接相同或相似的数据模态。例如，将视觉模型重新用于处理跨领域图像，或者重新编程声学模型以处理时间序列数据。在这两种情况下，存在明确的、可学习的源数据与目标数据之间的转换，允许直接编辑输入样本。然而，时间序列既不能直接编辑，也不能用自然语言无损描述，这给直接启动LLM理解时间序列而不需要资源密集型的微调带来了重大挑战。为了弥补这一差距，作者提出使用骨干中的预训练词嵌入来重新编程，其中V是词汇表大小。然而，没有先验知识表明哪些源标记是直接相关的。因此，简单地利用E将导致大量且可能密集的重新编程空间。一个简单的解决方案是通过线性探测E来维护一小组文本原型，表示为，其中V’ ≪ V。见图2的说明。

图2 重新编程补丁

文本原型学习连接语言线索，例如，“长稳定”（蓝线）和“短上升”（红线），然后结合起来表示局部补丁信息（例如，“短上升然后稳定下降”用于描述补丁5），而不会离开语言模型预训练的空间。这种方法是高效的，允许自适应选择相关源信息。

Prompt-as-Prefix：提示作为一种直接而有效的方法，用于任务特定激活LLM。然而，将时间序列直接翻译成自然语言存在相当大的挑战，阻碍了数据集创建以及有效利用即时提示而不损害性能的障碍。最近的进展表明，其他数据模态，如图像，可以作为提示的前缀无缝集成，从而促进基于这些输入的有效推理。受到这些发现的启发，并为了使作者的方法直接适用于现实世界的时间序列，作者提出了一个替代性问题：提示能否作为前缀来丰富输入上下文并引导重新编程的时间序列补丁的转换？作者将这个概念称为Prompt-as-Prefix（PaP），并观察到它显著增强了LLM对下游任务的适应能力，同时辅助补丁重新编程。

图3中展示了这两种提示方法的示意图。

图3 Patch-as-Prefix 和 Prompt-as-Prefix

在Patch-as-Prefix中，语言模型被提示在一个时间序列中预测后续值，用自然语言表达。这种方法遇到了一些限制：（1）语言模型通常在没有外部工具的帮助下处理高精度数字时表现出降低的灵敏度，因此在准确解决长期预测任务时面临重大挑战；（2）不同的语言模型需要复杂的定制后处理，因为它们在各种语料库上进行了预训练，并且可能在生成高精度数字时使用不同的记号化类型，以提高精度和效率。这导致预测以不同的自然语言格式表示，例如[‘0’，‘.’，‘6’，‘1’]和[‘0’，‘.’，‘61’]，表示十进制0.61。

另一方面，Prompt-as-Prefix巧妙地避开了这些限制。在实践中，作者确定了构建有效提示的三个关键组成部分：（1）数据集上下文，（2）任务指令和（3）输入统计。图4中给出了一个提示示例。数据集上下文为LLM提供了关于输入时间序列的基本背景信息，这通常在不同领域之间展示出独特的特征。任务指令对LLM在特定任务的补丁嵌入转换中起着关键作用的指导。作者还通过额外的关键统计信息，如趋势和滞后，丰富了输入时间序列，以便促进模式识别和推理。

图4 提示示例

实验

TIME-LLM在多个基准和设置中始终以较大的优势表现优于最先进的预测方法，特别是在少样本和零样本情景下。作者将作者的方法与一系列最新模型进行了比较，包括最近一项将语言模型微调用于时间序列分析的研究。为了确保公平比较，作者在所有基线模型上均遵循中的实验配置，使用统一的评估管道。作者默认使用Llama-7B作为骨干模型，除非另有说明。

基线模型：作者与最先进的时间序列模型进行比较，并在可能的情况下引用它们的性能。作者的基线模型包括一系列基于Transformer的方法：PatchTST（2023年）、ESTformer（2022年）、Non-Stationary Transformer（2022年）、FEDformer（2022年）、Autoformer（2021年）、Informer（2021年）和Reformer（2020年）。作者还选择了一组最近的竞争性模型，包括GPT4TS（2023年）、DLinear（2023年）、TimesNet（2022年）和LightTS（2022年）。在短期预测中，作者进一步将作者的模型与N-HiTS（2023b）和N-BEATS（2019年）进行比较。

4.1 长期预测

作者评估了四个ETT数据集（即ETTh1、ETTh2、ETTm1和ETTm2），这些数据集已被广泛用于长期预测模型的基准测试。实施和数据集的详细信息可以在附录B中找到。输入时间序列长度T设为512，作者使用四个不同的预测时间段H∈{96、192、336、720}。评估指标包括均方误差（MSE）和平均绝对误差（MAE）。

作者的结果如表1所示，其中TIME-LLM在大多数情况下都优于所有基线模型，并且与其中大多数模型相比显著优于它们。

表1 长期预测结果

与GPT4TS的比较尤其值得注意。GPT4TS是一项非常新的工作，涉及在骨干语言模型上微调。作者注意到，相对于GPT4TS和Times Net，平均性能提升分别达到了13%和15%。与最先进的任务特定Transformer模型PatchTST相比，通过重新编程最小的Llama，TIME-LLM实现了平均MSE降低2%。与其他模型（例如DLinear）相比，作者的改进也很明显，超过了10%。

4.2 短期预测

作者选择M4基准作为测试平台，其中包含不同采样频率的营销数据集合。在这种情况下，预测时间段相对较小，介于[6, 48]之间。输入长度和预测时间段是对应关系，评估指标包括对称平均绝对百分比误差（SMAPE）、平均绝对缩放误差（MASE）和总体加权平均（OWA）。作者统一使用所有方法的相同种子，简要结果如表2所示。

表2 对M4的短期时间序列预测结果

TIME-LLM始终优于所有基线模型，比GPT4TS高出8.7%。即使与SOTA模型N-HiTS相比，TIME-LLM在MASE和OWA方面仍具有竞争力。

4.3 少样本预测

最近的研究表明，LLMs表现出了显著的少样本学习能力。在这一部分中，作者评估作者重新编程的LLM在预测任务中是否保留了这种能力。作者遵循的设置进行公平比较，并评估在有限的训练数据场景下（即≤前10%的训练时间步长）。10%和5%少样本学习结果如表3和表4所示。

表3 对10%训练数据的样本学习

表4 对5%训练数据的少样本学习

TIME-LLM在所有基线方法中表现出色，作者将这归因于成功的知识激活作者重新编程的LLM。有趣的是，作者的方法和GPT4TS都一直在持续超越其他竞争性基线，进一步突显了语言模型作为熟练的时间序列机器的潜力。

在10%的少样本学习领域，作者的方法相对于GPT4TS实现了7.7%的均方误差降低，而不需要对LLM进行任何微调。相对于最近的SOTA模型，如PatchTST、DLinear和TimesNet，作者的平均增强分别超过12%、18%和28%。在5%的少样本学习情景中，与GPT4TS相比，作者的平均改进超过了8%。与PatchTST、DLinear和TimesNet相比，TIME-LLM表现出了超过24%的显著平均改进。

4.4 零样本预测

除了少样本学习外，LLMs作为有效的零样本推理者具有潜力。在本节中，作者评估重新编程的LLM在跨域适应框架中的零样本学习能力。具体来说，作者研究了当模型在另一个数据集♠上优化时，在数据集♣上表现如何良好，其中模型没有遇到来自数据集♣的任何数据样本。类似于少样本学习，作者使用长期预测协议，并利用ETT数据集在各种跨域场景下进行评估结果。作者的简要结果如表5所示。

表5 零样本学习结果

TIME-LLM始终以较大的优势优于最具竞争力的基线，相对于次佳者的MSE减少超过14.2%。考虑到少样本结果，作者观察到重新编程LLM倾向于在数据稀缺情况下产生显着更好的结果。例如，相对于GPT4TS，在10%的少样本预测、5%的少样本预测和零样本预测中，作者的整体误差降低逐渐增加：7.7%、8.4%和22%。作者将这归因于作者的方法在执行时间序列任务时更擅长以资源高效的方式激活LLM的知识转移和推理能力。

4.5 模型分析

作者比较了两种具有不同容量的代表性骨干结构（表6中的A.1-4）。作者的结果表明，在LLM重新编程后，尺度定律得到保持。作者默认采用Llama-7B的完整容量，明显优于其1/4容量变种（A.2；包括前8个Transformer层），性能提高了14.5%。相对于GPT-2（A.3），作者观察到平均MSE减少了14.7%，略优于其变种GPT-2（6）（A.4）2.7%。

作者在表6中的结果表明，消除补丁重新编程或以提示作为前缀会损害LLM重新编程以进行有效的时间序列预测中的知识传递。

表6 对ETTh1和ETTm1的消融预测

在表示对齐缺失的情况下（B.1），作者观察到显著的平均性能下降9.2%，在少样本任务中更为明显（超过17%）。在TIME-LLM中，提示的行为是利用LLM理解输入和任务能力的关键因素。消除此组件（B.2）导致标准和少样本预测任务分别下降了超过8%和19%。作者发现消除输入统计（C.1）会造成最大的损害，平均MSE增加了10.2%。这是可以预期的，因为外部知识可以通过提示自然地并入以促进学习和推理。此外，为LLM提供清晰的任务说明和输入上下文（例如数据集字幕）也是有益的（即C.2和C.1；分别引发了超过7.7%和9.6%的性能提升）。表7提供了TIME-LLM的整体效率分析，包括有骨干LLM和没有骨干LLM。

表7 TIME-LLM对ETTh1预测的效率分析

作者提出的重新编程网络本身（D.3）在激活LLM的时间序列预测能力方面是轻量级的（少于660万可训练参数；仅占Llama-7B总参数的约0.2%），而TIME-LLM的整体效率实际上受到了利用的骨干结构的限制（例如D.1和。与参数高效的微调方法相比，这是有利的，可以在平衡任务性能和效率方面进行。

Attention

欢迎关注微信公众号《当交通遇上机器学习》！如果你和我一样是轨道交通、道路交通、城市规划相关领域的，也可以加微信：Dr_JinleiZhang，备注“进群”，加入交通大数据交流群！希望我们共同进步！

文章目录

TIME-LLM TIME SERIES FORECASTING BY REPROGRAMMING LARGE LANGUAGE MODELS --知识铺

See Also

最近文章

福利派送

分类

标签

友情链接

其它