我目前正在尝试实现一个cnn网络,它可以将输入映射到输出 .
输入由大量音频文件组成,输出是特征向量 .
由于音频文件的长度不同,总样本的数量总是不同,但每个样本的帧长度为25毫秒,重叠时间为10毫秒 . 形状(X,2050)
输出是特征向量形状是(x,13) .
我认为cnn的使用在这里似乎是合适的,因为每个输入由于重叠而包含前一个样本的一些信息 .
是否有可能在keras中设计一个利用它的模型,因此将为矩阵的每一行计算一个卷积和,并以某种方式使其知道25帧长度和10个重叠 .
是的,请参阅此文件的第220行[1] . 这是使用卷积在Keras中实现的Wavenet . 尽管他们已经创建了包装层,但这应该让您直观了解如何对音频样本进行建模 .
[1] https://github.com/basveeling/wavenet/blob/master/wavenet.py#L220
1 回答
是的,请参阅此文件的第220行[1] . 这是使用卷积在Keras中实现的Wavenet . 尽管他们已经创建了包装层,但这应该让您直观了解如何对音频样本进行建模 .
[1] https://github.com/basveeling/wavenet/blob/master/wavenet.py#L220