微软开源分布式机器学习工具包DMTK

jhxhss · 发表于 2015-12-31 17:30:54

微软近日宣布开源分布式机器学习工具包——DMTK（Dstributed Machine Learning Toolkit）。

微软指出，在大数据时代，分布式机器学习变得更加重要，尤其是近年来，在大量应用中规模较大的数据模型在准确性上拥有优势。

但是对于普通的机器学习研究者和实践者来说，由于对计算资源要求较高，学习大规模数据模型存在很高的门槛。微软的DMTK正是为了能够在较小的集群上以较高的效率完成对大规模数据模型的训练任务，大大降低了基于大数据的机器学习门槛。DMTK由一个服务于分布式机器学习的框架和一组分布式机器学习算法构成，是一个将机器学习算法应用在大数据上的工具包。

微软声称DMTK不仅仅提供了一些算法，还进行了大量的系统创新，这些创新使得基于大数据的机器学习拥有更好的可扩展性、效率和灵活性。

当前的DMTK版本包括以下三大组件（未来还会有更多组件加入，以下内容由IT168编译）：

DMTK分布式机器学习框架：它由参数服务器和客户端软件开发包(SDK)两部分构成。参数服务器在原有基础上从性能和功能上都得到了进一步提升——支持存储混合数据结构模型、接受并聚合工作节点服务器的数据模型更新、控制模型同步逻辑等。客户端软件开发包(SDK)支持维护节点模型缓存(与全局模型服务器同步)、节点模型训练和模型通讯的流水线控制、以及片状调度大模型训练等。
LightLDA：LightLDA是一种全新的用于训练主题模型，计算复杂度与主题数目无关的高效算法。在其分布式实现中，我们做了大量的系统优化使得 LightLDA能够在一个普通计算机集群上处理超大规模的数据和模型。例如，在一个由8台计算机组成的集群上，可以在具有2千亿训练样本(token) 的数据集上训练具有1百万词汇表和1百万个话题(topic)的LDA模型(约1万亿个参数)，这种规模的实验以往要在数千台计算机的集群上才能运行。
分布式词向量：词向量技术近来被普遍地应用于计算词汇的语义表示，它可以用作很多自然语言处理任务的词特征。微软为两种计算词向量的算法提供了高效的分步式实现：一种是标准的word2vec算法，另一种是可以对多义词计算多个词向量的新算法。

更多信息请访问DMTK的官方网站：http://www.dmtk.io/

原文链接：文章来自IT经理网