火星科技网您的位置:首页 >人工智能 >

使用人工智能发现隐藏在海量数据集中的异常

导读 识别国家电网中的故障就像大海捞针一样。遍布的数十万个相互关联的传感器实时捕获有关电流、电压和其他关键信息的数据,通常每秒进行多次记

识别国家电网中的故障就像大海捞针一样。遍布的数十万个相互关联的传感器实时捕获有关电流、电压和其他关键信息的数据,通常每秒进行多次记录。

MIT-IBMWatsonAI实验室的研究人员设计了一种计算效率高的方法,可以实时自动查明这些数据流中的异常情况。他们证明了他们的人工智能方法学习模拟电网的互连性,在检测这些故障方面比其他一些流行的技术要好得多。

因为他们开发的机器学习模型不需要关于电网异常的注释数据进行训练,所以在通常难以获得高质量、标记数据集的实际情况下,它会更容易应用。该模型也很灵活,可以应用于大量互连传感器收集和报告数据的其他情况,例如交通监控系统。例如,它可以识别交通瓶颈或揭示交通拥堵的级联方式。

“在电网的情况下,人们试图使用统计数据捕获数据,然后使用领域知识定义检测规则,例如,如果电压浪涌达到一定百分比,则应向电网运营商发出警报。这种基于规则的系统,即使是通过统计数据分析,也需要大量的劳动力和专业知识。我们表明,我们可以自动化这个过程,还可以使用先进的机器学习技术从数据中学习模式,”资深作者、麻省理工学院-IBM沃森人工智能实验室的研究人员和经理陈杰说。

合著者是MIT-IBMWatsonAILab实习生和宾夕法尼亚州立大学研究生EnyanDai。这项研究将在国际学习代表大会上发表。

探测概率

研究人员首先将异常定义为发生概率较低的事件,例如电压突然升高。他们将电网数据视为概率分布,因此如果他们可以估计概率密度,他们就可以识别数据集中的低密度值。那些最不可能发生的数据点对应于异常。

估计这些概率并非易事,尤其是因为每个样本都捕获多个时间序列,并且每个时间序列都是随时间记录的一组多维数据点。此外,捕获所有数据的传感器相互依赖,这意味着它们以某种配置连接,一个传感器有时会影响其他传感器。

为了学习数据的复杂条件概率分布,研究人员使用了一种特殊类型的深度学习模型,称为归一化流,它在估计样本的概率密度方面特别有效。

他们使用一种称为贝叶斯网络的图增强了标准化流模型,该图可以学习不同传感器之间复杂的因果关系结构。Chen解释说,这种图结构使研究人员能够看到数据中的模式并更准确地估计异常。

“传感器相互交互,它们具有因果关系,相互依赖。因此,我们必须能够将这种依赖信息注入到我们计算概率的方式中,”他说。

这个贝叶斯网络将多个时间序列数据的联合概率分解或分解成不太复杂的条件概率,这些概率更容易参数化、学习和评估。这使研究人员能够估计观察某些传感器读数的可能性,并识别那些发生概率低的读数,这意味着它们是异常的。

他们的方法特别强大,因为这种复杂的图结构不需要预先定义——模型可以自己学习图,以无监督的方式。

强大的技术

他们通过查看该框架识别电网数据、交通数据和水系统数据中异常的能力来测试该框架。他们用于测试的数据集包含人类识别的异常,因此研究人员能够将他们的模型识别的异常与每个系统中的真实故障进行比较。

他们的模型通过在每个数据集中检测到更高百分比的真实异常来优于所有基线。

“对于基线,其中很多都没有包含图形结构。这完全证实了我们的假设。弄清楚图中不同节点之间的依赖关系肯定对我们有帮助,”Chen说。

他们的方法也很灵活。借助大型未标记数据集,他们可以调整模型以在其他情况下(例如交通模式)做出有效的异常预测。

Chen说,一旦部署了模型,它将继续从源源不断的新传感器数据中学习,适应数据分布的可能漂移,并随着时间的推移保持准确性。

尽管这个特定项目已接近尾声,但他期待着将他学到的经验应用到深度学习研究的其他领域,尤其是在图表方面。

Chen和他的同事可以使用这种方法来开发映射其他复杂的条件关系的模型。他们还想探索当图变得巨大时如何有效地学习这些模型,可能有数百万或数十亿个相互连接的节点。除了发现异常,他们还可以使用这种方法来提高基于数据集的预测准确性或简化其他分类技术。

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。