新闻中心

MIT最新力作:用GPT-3.5解决时间序列异常检测问题

2024-05-29
浏览次数:
返回列表
今天给大家介绍一篇MIT上周发表的文章,使用GPT-3.5-turbo解决时间序列异常检测问题,初步验证了LLM在时间序列异常检测中的有效性。整个过程没有进行finetune,直接使用GPT-3.5-turbo进行异常检测,文中的核心是如何将时间序列转换成GPT-3.5-turbo可识别的输入,以及如何设计prompt或者pipeline让LLM解决异常检测任务。下面给大家详细介绍一下这篇工作。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

MIT最新力作:用GPT-3.5解决时间序列异常检测问题图片

论文标题:large language models can be zero-shot anomaly detectors for time series?

下载地址:https://arxiv.org/pdf/2405.14755v1

1.整体介绍

MIT的这篇文章,基于LLM(如GPT-3.5-turbo、MISTRAL等)进行时间序列异常检测。核心在于pipeline的设计,主要分为两个部分。

时序数据处理:通过离散化等方法,将原始的时间序列转换成LLM可理解的输入;

基于LM的异常检测Pipeline设计了两种基于prompt的异样检测pipeline,一种是基于prompt的方法,问大模型异常位置,大模型给出异常位置的index;另一种是基于预测的方法,让大模型进行时间序列预测,根据预测值和实际值的差距进行异常定位。

MIT最新力作:用GPT-3.5解决时间序列异常检测问题图片

2.时序数据处理

为了让时间序列适应LLM输入,文中将时间序列转换成数字,由数字作为LLM的输入。这里的核心是如何用最短的长度来保留尽量多原始的时间序列信息。

首先,将原始时间序列统一减去最小值,防止负值的出现,负值的索引会占用一个token。同时,将数值的小数点统一后移,并且每个数值都保留到固定位数(如小数点后3位)。由于GPT对输入的最长长度有限制,因此文中采用了一种动态窗口的策略,将原始序列分成有重叠的子序列,以此输入大模型中。

由于不同的LLM tokenizer,为了阻止数字被完全切分开,文中每个数字中间都加一个空格进行强行区分。后续的效果验证中,也表明加空格的方法要优于不加空格。下面例子为处理结果:

MIT最新力作:用GPT-3.5解决时间序列异常检测问题图片

不同的数据处理方式,用于不同的大模型,会产生不同的结果,如下图所示。

Yaara Yaara

使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…

Yaara 95 查看详情 Yaara

MIT最新力作:用GPT-3.5解决时间序列异常检测问题图片

3.异常检测Pipeline

文中提出了两种基于LLM的异常检测pipeline,第一种是PROMPTER,将异常检测问题转换成prompt输入大模型,让模型直接给出答案;另一种是DETECTOR,让大模型进行时间序列预测,然后通过预测结果和真实值的差异判断异常点。

MIT最新力作:用GPT-3.5解决时间序列异常检测问题图片

PROMPTER:下表是文中进行prompt迭代的过程,从最简单的prompt开始,不断发现LLM给出结果的问题,并完善prompt,经过5个版本的迭代形成了最终的prompt。使用这个prompt,可以让模型直接输出异常位置的索引信息。

MIT最新力作:用GPT-3.5解决时间序列异常检测问题图片

DETECTOR:之前已经有很多工作用大模型进行时间序列预测。文中经过处理的时间序列,可以直接让大模型生成预测结果。将不同窗口生成的多个结果,取中位数,然后根据预测结果和真实结果的差距,作为异常检测的判别依据。

4.实验结果

文中通过实验对比发现,基于大模型的异常检测方法,可以由于基于Transformer的异常检测模型,效果提升12.5%。AER(AER: Auto-Encoder with Regression for Time Series Anomaly Detection)是效果最好的基于深度学习的异常检测方法目前仍然比基于LLM的方法效果好30%。此外,基于DIRECTOR这种pipeline的方法要优于基于PROMTER的方法。

MIT最新力作:用GPT-3.5解决时间序列异常检测问题图片

此外,文中也可视化了大模型的异常检测过程,如下图。

MIT最新力作:用GPT-3.5解决时间序列异常检测问题图片

以上就是MIT最新力作:用GPT-3.5解决时间序列异常检测问题的详细内容,更多请关注其它相关文章!


# 如下图  # 品牌形象与营销推广方法  # 江苏企业小视频推广网站  # 专业保洁公司网站建设  # 南京网站关键优化  # 魏都区网站优化服务公司  # 网站推广方式哪家靠谱  # 椒江关键词排名优化工具  # 湛江市seo网络推广  # 短视频关键词排名获客  # 网站优化推广方法有哪些  # 写歌  # 检测  # 官网  # 网易  # 自定义  # 给大家  # 两种  # 工作流  # 数据处理  # 转换成  # 异常  # gpt-3.5 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 单片机面包板怎么插  热水器没热水显示power是什么意思  虚拟机如何用命令清除垃圾  什么是unix时间戳  春运抢票可以抢几张  笔记本电脑多少钱  春运抢票哪个平台好抢  怎么在项目中使用typescript  tft单片机怎么写彩屏  统计学中power值是什么意思  debian和ubuntu的区别是什么  win10电脑如何使用命令提示符  什么是夸克模组文件格式  折叠手机内屏为什么会坏  如何通过命令系统还原  满射和单射定义  vi命令如何使用方法  win7怎么取消360显示的壁纸  苹果16日发售哪些机型  如何在昇腾Ascend 910B上运行Qwen2.5教程  电信开通nfc功能是什么意思  征信不好如何恢复正常 征信不好要怎么样才能恢复正常教程  cos150度等于多少  固态硬盘2m如何修复  夸克网盘下载为什么要钱  mysql的datediff函数怎么用  如何提高固态硬盘性能  命令行如何打开打印机  摩托车上power是什么意思  html怎么使用typescript  苹果16哪些型号好用  j*a数组元素怎么用  ready是什么意思  ssd固态硬盘如何选择  typescript怎么添加css样式  阿里云盘扩容是什么_扩容阿里云盘方法是什么教程  单片机怎么加死循环  汽车中控导航机power线是什么意思  春运抢票准备什么  苹果16有哪些自带配件  如何在固态硬盘上安装win7系统  如何提高import命令的性能  春运抢票最多能抢几趟车  typescript掌握哪些可以做项目  夸克文字口令是什么意思  单片机程序负数怎么表示  debug中如何用n命令命名程序文件名  typescript的语法格式是什么  苹果16多有哪些功能  华为5g手机怎么选择 

搜索