认识一下 Linux 语音识别引擎 Simon

用于 Linux 的 Simon 就像用于 iOS 的 Siri。 好吧,可能不是,但除了两个名字都以“S”开头之外,他们都听你说的话。 不同的是,西蒙更加可控。 它可以经过全面训练以识别语音命令,这对于残障用户甚至是喜欢用语音控制系统的用户来说可能是有用的帮助。

西蒙是:

  • 一个 开源语音识别程序 并取代了鼠标和键盘。
  • 设计非常灵活,允许为需要语音识别的任何应用程序进行定制。
  • 一个潜在的欧洲项目 “电子包容” 因为与语言无关的编程。
  • 正在为肢体残障人士和老年人开发,让他们可以聊天、写电子邮件、上网冲浪、网上银行等等。

(从 simonlistens.org)

得到西蒙

Simon 是用 Qt 编写的并且依赖于 phonon,因此最好将它安装在基于 KDE(等离子)的系统上,除非您不介意在安装过程中引入大约 300MB 的依赖项(在 Kubuntu 15.04 系统上, Simon 仅占用 55 Mb)。 Simon 在 Ubuntu 存储库中,因此安装它就像

在任何基于 Ubuntu 的发行版上。 在 Linux Mint(或其他发行版)中,如果安装后发现 Simon 无法连接,则必须安装 libqt4-sql-lite

如果你想利用 HTK 声学模型,您还需要安装HTK。 这是可选的,如果您不知道这意味着什么,或者您只是不需要使用它,您可以放心地跳过它。 不幸的是,HTK 仅作为源代码提供,但是 这些简单的说明 将使安装简单。

西蒙听

Simon 不容易设置或使用。 为了帮助您让它倾听您的声音,辅助设置会在第一次运行时迎接您,引导您完成整个过程。

首先,您需要设置场景。

场景是完整的软件包,允许您将 Simon 用于特定目的。 它们还提供了所谓的语言模型,描述了所有现有的单词以及哪些句子在语法上是正确的,至少在这种情况下是这样。

默认情况下,您只安装了标准方案。 在此屏幕中,您可以创建或加载更多内容,甚至可以使用 Simon 插件安装程序(“打开 -> 下载”)下载一些内容。

西蒙插件

接下来,您将需要一个声学或语音模型。 这基本上告诉了西蒙各个单词的发音。

西蒙语音模型

如果您安装了 HTK,您可以创建自己的模型并训练 Simon 识别您说话的非常具体的方式。 如果您没有 HTK 或不想使用它,您可以下载静态基础模型(“打开模型 -> 下载”),这将为 Simon 提供预定义的声学模式。

西蒙插件模型

如果您使用静态模型,您可以选择稍后使用训练样本对其进行调整。

在服务器设置页面上,如果您要在本地安装它并计划定期使用它,您可以安全地保留默认选项。 如果服务器位于其他地方,您可以在此处定义它。

西蒙服务器

您需要设置录音和播放设备,

西蒙播放设备

测试你的麦克风,

西蒙麦克风音量

你已经准备好使用西蒙了。

西蒙主屏幕

从主屏幕,您可以管理加载的场景或打开特定场景。

西蒙管理场景

打开场景后,可以查看和修改词汇和语法,训练声学模型,修改场景的上下文依赖,设置直接命令。

西蒙编辑场景

培训向导也可以从概览屏幕启动; 你不需要进入场景设置。

西蒙管理培训

西蒙开始训练

在概览屏幕上,您还可以更改音频(硬件)配置或配置声学(语音)模型,包括添加新模型。

西蒙配置其他

使用 Simon 的进一步帮助

西蒙的用法远非直截了当。 这需要大量的学习、培训和习惯。 幸运的是,在线提供了相当广泛的文档。 这 西蒙听博客 提供了一些见解,尽管这些帖子已经过时了(最后一个条目是 2013 年)。 该站点提供了一些进一步的阅读,您可以在他们的商业网页上了解由 Simon 提供支持的语音控制业务解决方案。

尽管设置和掌握可能需要一些时间,但 Simon 可以将任何 Linux(甚至 Windows)计算机转换为语音控制环境,无论是特殊需求还是您希望使用它的方便。

订阅我们的新闻!

我们最新的教程直接发送到您的收件箱

注册所有时事通讯。 注册即表示您同意我们的隐私政策并且欧洲用户同意数据传输政策。 我们不会共享您的数据,您可以随时取消订阅。 订阅