ArangoDB在机器学习中的作用,arangodb

ArangoDB具有其固有的多模型功能,非常适合您的机器学习工作负载。ArangoMLPipeline现在可以作为云服务使用——ArangoMLPipeline Cloud。

机器学习基础设施的ArangoML

在构建生产级机器学习基础设施时,ArangoML在整个机器学习生命周期中提供对通用元数据存储的支持,并支持机器学习模型的再现性、监控和审计。

多模型动力机器学习

ArangoDB支持分析任务和多模型机器学习。当处理结构化和非结构化数据的混合时,它特别有用,因为ArangoDB可以本地高效地管理不同的数据模型。

机器学习基础设施的ArangoML

众所周知,训练数据是训练机器学习模型的重要前提。但对于构建生产级机器学习平台,我们实际上应该同样关注另一种类型的数据:元数据。生产机器学习平台由许多不同的步骤和组件组成:


这些组件中的大多数产生某种元数据,包括例如对数据集的引用、具有相关训练和测试精度的训练运行、模型服务统计、将训练模型链接到用于训练的数据集的来源信息等等。数据科学家和数据操作人员需要通用的元数据存储来回答以下问题:哪个模型是用这个数据集训练的,哪个特性可以产生最佳的测试精度。


在这里,ArangoML提供了一个简单的界面,可以跨您最喜欢的机器学习框架和工具进行访问。

由于ArangoML由ArangoDB的多模型功能支持,因此它可以存储非结构化数据,例如特定训练运行(文档)的训练统计信息,以及与相关数据集和结果模型的连接(图)。所以上面的查询基本上变成了图遍历。


ArangoMLPipeline是一个强大而简单的工具,用于促进数据操作和数据科学之间的团队合作,但也允许为审计员提供详细的审计跟踪和整个机器学习环境的高级分析。

多模型动力机器学习

ArangoDB为不同的数据模型(包括图形、文档和键值)提供本机支持,并允许使用单个查询语言跨所有模型进行查询。


这些多模型功能在用于特征工程的机器学习平台中特别有用,因为它们使用户能够将不同的数据方面组合成特征,而这些特征又可以被机器学习框架(如TensorFlow或PyTorch)用于训练模型。


数据量至关重要,尤其是对于现代深度学习而言。作为分布式数据库的ArangoDB还可以处理对于单个节点来说太大的数据集(例如,图形)。

此外,ArangoDB本机支持大量图算法,包括PageRank、顶点中心性、顶点贴近度、连接组件或社区检测。

所有这些功能使ArangoDB和本地的多种模型成为许多机器学习用例的一个非常有用的工具。



审核编辑:刘清

相关推荐

相关文章