选自Medium作者:DeviceHive机器之心编译参与:NurhachuNull、刘晓坤本文介绍了一种使用TensorFlow将音频进行分类(包括种类、场景等)的实现方案,包括备选模型、备选数据集、数据集准备、模型训练、结果提取等都有详细的引导,特别是作者还介绍了如何实现web接口并集成IoT。简介有很多不同的项目和服务能够识别人类的语音,例如Pocketsphinx、Google』sSpeechAPI,等等。这些应用和服务能够以相当好的性能将人类的语音识别成文本,但是其中却没有一个能够分得清麦克风捕捉到的是哪一种声音:人声、动物声音或者音乐演奏声。我们面临这个任务的时候,就决定去调研一下,并开发一个能够使用机器学习算法来区分声音的示例项目。这篇文章具体描述了我们选择哪款工具、我们面临的挑战是什么、我们如何用TensorFlow训练模型,以及如何运行我们的开源项目。为了把它们用在给第三方应用提供的云服务上,我们还在DeviceHive和IoT平台上提供了识别结果。选择工具和分类模型首先我们需要选择一些能够运行神经网络的软件。我们发现的第一个合适的解决方案是PythonAudioAnalysis。机器学习中的主要问题是要有一个好的训练数据集。对于音乐分类和语音识别而言,有很多数据集,但是并没有多少数据集是用来做随机声音分类的。经过调查,我们发现了urbansounddataset(
转载请注明:http://www.aierlanlan.com/grrz/7475.html