Daniel Povey:明年年初或有望将新一代Kaldi应用于小米产品

蓝鲸TMT频道9月1日讯,小米集团在Interspeech上发布了新一代Kaldi的子项目Icefall 1.0正式版本。据小米集团语音首席科学家Daniel Povey透露,将逐步将新一代Kaldi融入到小米产品中,“希望在明年初开始将新一代Kaldi应用于小米产品,不过现在还有很多集成和测试要做。”

在去年的MIDC大会上,Daniel Povey发布了新一代Kaldi。据介绍新一代Kaldi分为三个部分: Lhotse(训练数据准备部分)、Icefall(示例脚本集合部分)和k2(新一代Kaldi的核心)。当时,k2和Lhotse的核心部分已经开发完成,但Icefall尚是一个初步概念。

经过一年的开发,小米完善了k2和Lhotse, 并基于二者正式发布Icefall项目。小米方面称,随着新一代Kaldi的推广和普及,Lhotse甚至有可能成为语音领域使用最为广泛的数据准备工具。而k2作为核心部件,不仅可以用来做语音识别,也可以用来做手写文字识别等其他任务。

新一代Kaldi将同上一代Kaldi一样,依旧保持高效的C++代码实现,以方便工业界的使用。更重要的是,由于新一代Kaldi将k2的C++代码都(使用pybind11)包装到了Python, 模型的训练迭代都可以使用纯Python代码完成,这大大方便了用户的使用。

基于Icefall中的示例脚本,工程师们可以很容易地基于自己公司产品的数据集进行修改,进而快速地搭建线上数据反馈和模型自动迭代更新的流程,这将大大缩短模型更新的周期。除此之外,如果用户或企业基于GPU来部署新一代Kaldi的模型,也将获得GPU对模型(解码)的加速优势,这将大大提高模型最终的识别速度。

Daniel Povey在接受记者采访时谈及Kaldi未来的版本规划时表示,k2的2.0计划在12月之前完成,当前k2版本是1.6。未来计划把k2中一部分的Python的脚本用C++重写,这样既提高效率并更利于产品化部署;Lhotse是训练数据准备部分,现在比较完善(已经实现基本所有功能),还将持续迭代并发布新版本(当前版本为0.8)。

公开资料显示,Daniel Povey是著名的语音识别开源工具 Kaldi 的主要开发者和维护者,被称为Kaldi 之父。2019年10月,Daniel Povey正式加入小米公司,担任小米集团语音首席科学家,开发新一代Kaldi。