TensorFlow和Pytorch中的音频增强

熵阱代码
• 阅读 1665

对于图像相关的任务,对图像进行旋转、模糊或调整大小是常见的数据增强的方法。 因为图像的自身属性与其他数据类型数据增强相比,图像的数据增强是非常直观的,我们只需要查看图像就可以看到特定图像是如何转换的,并且使用肉眼就能对效果有一个初步的评判结果。 尽管增强在图像域中很常见,但在其他的领域中也是可以进行数据增强的操作的,本篇文章将介绍音频方向的数据增强方法。

在这篇文章中,将介绍如何将增强应用到 TensorFlow 中的数据集的两种方法。 第一种方式直接修改数据; 第二种方式是在网络的前向传播期间这样做的。除此以外我们还会介绍使用torchaudio的内置方法实现与TF相同的功能。

直接音频增强

首先需要生成一个人工音频数据集。 我们不需要加载预先存在的数据集,而是根据需要重复 librosa 库中的一个样本:

import librosa
import tensorflow as tf

def build_artificial_dataset(num_samples: int):
    data = []
    sampling_rates = []

    for i in range(num_samples):
        y, sr = librosa.load(librosa.ex('nutcracker'))
        data.append(y)
        sampling_rates.append(sr)
    features_dataset = tf.data.Dataset.from_tensor_slices(data)
    labels_dataset = tf.data.Dataset.from_tensor_slices(sampling_rates)
    dataset = tf.data.Dataset.zip((features_dataset, labels_dataset))

    return dataset

ds = build_artificial_dataset(10)

在此过程中创建了一个 Dataset 对象,我们也可以使用纯 NumPy 数组这个可以根据实际需求选择。

现在小数据集已经可以使用,可以开始应用增强了。对于这一步,为了简单起见,本文中使用 audiomentations 库,我们只使用三个增强方式, PitchShift、Shift 和 ApplyGaussianNoise。前两个移动音高(PitchShift)和数据(Shift,可以认为是滚动数据;例如,狗的叫声将移动 + 5 秒)。最后一次转换使信号更嘈杂,增加了神经网络的挑战。接下来,将所有三个增强功能组合到一个管道中:

from audiomentations import Compose, AddGaussianNoise, PitchShift, Shift

augmentations_pipeline = Compose(
    [
        AddGaussianNoise(min_amplitude=0.001, max_amplitude=0.015, p=0.5),
        PitchShift(min_semitones=-4, max_semitones=4, p=0.5),
        Shift(min_fraction=-0.5, max_fraction=0.5, p=0.5),
    ]
)

在输入数据之前,必须编写一些额外的代码。这因为我们正在使用一个 Dataset 对象,这些代码告诉 TensorFlow 临时将张量转换为 NumPy 数组,然后再输入到数据增强的处理流程中:

def apply_pipeline(y, sr):
    shifted = augmentations_pipeline(y, sr)
    return shifted


@tf.function
def tf_apply_pipeline(feature, sr, ):
    """
    Applies the augmentation pipeline to audio files
    @param y: audio data
    @param sr: sampling rate
    @return: augmented audio data
    """
    augmented_feature = tf.numpy_function(
        apply_pipeline, inp=[feature, sr], Tout=tf.float32, name="apply_pipeline"
    )

    return augmented_feature, sr


def augment_audio_dataset(dataset: tf.data.Dataset):
    dataset = dataset.map(tf_apply_pipeline)

    return dataset

有了这些辅助函数,就可以扩充我们的数据集了。 最后,还需要再末尾添加维度来添加一个维度,这会将单个音频样本从 (num_data_point,) 转换为 (num_data_points, 1),表明我们有单声道音频:

ds = augment_audio_dataset(ds)
ds = ds.map(lambda y, sr: (tf.expand_dims(y, axis=-1), sr))

这样就完成了直接的音频数据增强

前向传播期间进行音频增强

上面的方式相比,在网络中增加音频数据会将计算负载放在前向传递上。

为了达到这个目的,这里使用提供自定义 TensorFlow 层的 kapre 库。我们使用 MelSpectrogram 层,它接受原始(即未修改的)音频数据并在 GPU 上计算 Mel 频谱图。

虽然与数据增强没有直接关系,但这有两个好处:

1、我们可以在例如超参数搜索期间优化频谱图生成的参数,从而无需重复将音频生成频谱图。

2、转换直接在 GPU 上进行,因此在原始转换速度和设备内存放置方面都会更快。

首先加载由 kapre 库提供的音频层。这些层获取原始音频数据并计算频谱图表示:

import kapre

input_layer = tf.keras.layers.Input(shape=input_shape, dtype=tf.float32)

melspectrogram = kapre.composed.get_melspectrogram_layer(
    n_fft=1024,
    return_decibel=True,
    n_mels=256,
    input_data_format='channels_last',
    output_data_format='channels_last')(input_layer)

然后,我们从 spec-augment 包中添加一个增强层。 这个包实现了 SpecAugment 论文。 [1],它掩盖了频谱图的一部分。 掩蔽混淆了神经网络所需的信息,增加了学习的效果。 这种修改迫使网络关注其他特征,从而扩展其泛化到看不见的数据的能力:

from spec_augment import SpecAugment

spec_augment = SpecAugment(freq_mask_param=27,  # F in paper
                           time_mask_param=100,  # T in paper
                           n_freq_mask=1,  # mF in paper
                           n_time_mask=2,  # mT in paper
                           mask_value=-1, )(melspectrogram)

最后,对于我们的案例,添加了一个未经训练的残差网络,其中包含任意十个类来将数据分类:

spec_augment = tf.keras.applications.resnet_v2.preprocess_input(spec_augment)
core = tf.keras.applications.resnet_v2.ResNet152V2(
        input_tensor=spec_augment,
        include_top=False,
        pooling="avg",
        weights=None,
    )
core = core.output

output = tf.keras.layers.Dense(units=10)(core)

resnet_model = tf.keras.Model(inputs=[input_layer], outputs=[output], name="audio_model")

这样我们就有了一个深度神经网络,可以在前向传播期间增强音频数据。

torchaudio

上面介绍的都是tf的方法,那么对于pytorch我们怎么办?可以直接使用官方提供的torchaudio包

torchaudio 实现了TimeStrech, TimeMaskingFrequencyMasking.三种方式,我们看看官方给的代码

TimeStrech:

spec = get_spectrogram(power=None)
strech = T.TimeStretch()

rate = 1.2
spec_ = strech(spec, rate)
plot_spectrogram(spec_[0].abs(), title=f"Stretched x{rate}", aspect='equal', xmax=304)

plot_spectrogram(spec[0].abs(), title="Original", aspect='equal', xmax=304)

rate = 0.9
spec_ = strech(spec, rate)
plot_spectrogram(spec_[0].abs(), title=f"Stretched x{rate}", aspect='equal', xmax=304)

TensorFlow和Pytorch中的音频增强

TimeMasking:

torch.random.manual_seed(4)

spec = get_spectrogram()
plot_spectrogram(spec[0], title="Original")

masking = T.TimeMasking(time_mask_param=80)
spec = masking(spec)

plot_spectrogram(spec[0], title="Masked along time axis")

TensorFlow和Pytorch中的音频增强

FrequencyMasking:

torch.random.manual_seed(4)

spec = get_spectrogram()
plot_spectrogram(spec[0], title="Original")

masking = T.FrequencyMasking(freq_mask_param=80)
spec = masking(spec)

plot_spectrogram(spec[0], title="Masked along frequency axis")

TensorFlow和Pytorch中的音频增强

总结

在这篇博文中,我们介绍了2个主流深度学习框架的音频增强的方法,所以如果你是TF的爱好者,可以使用我们介绍的两种方法进行测试,如果你是pytorch的爱好者,直接使用官方的torchaudio包就可以了。

引用

[1] Park et al., Specaugment: A simple data augmentation method for automatic speech recognition, 2019, Proc. Interspeech 2019

https://www.overfit.cn/post/5b6e5fe4acd84e4ca18a444b522b1c05

作者:Pascal Janetzky

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
Java日期时间API系列31
  时间戳是指格林威治时间1970年01月01日00时00分00秒起至现在的总毫秒数,是所有时间的基础,其他时间可以通过时间戳转换得到。Java中本来已经有相关获取时间戳的方法,Java8后增加新的类Instant等专用于处理时间戳问题。 1获取时间戳的方法和性能对比1.1获取时间戳方法Java8以前
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Stella981 Stella981
3年前
CVPR 2019 Oral 亮风台提出端到端投影光学补偿算法,代码已开源
点击我爱计算机视觉置顶,更快获取CVML新技术导读:图像增强是一个历久弥新的研究方向,大多数计算机视觉学习者最开始接触的图像平滑、去噪、锐化是增强,现在研究比较多的去雾、去雨雪、暗光图像恢复也是增强。图像增强往往是和应用场景强相关的,比如自动驾驶场景下的去雨雪,遥感图像的去云雾,前几天还有52CV的群友在讨论水下图像增强
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
马尚 马尚
1年前
使用Python进行简单的图像分类
图像分类是深度学习中的一个常见任务,它可以将图像分到预定义的类别中。本文将介绍如何使用Python和PyTorch库进行简单的图像分类任务。1.准备数据集首先,我们需要准备一个图像数据集,其中包含不同类别的图像。你可以使用自己的数据集,也可以使用公开的数据
美凌格栋栋酱 美凌格栋栋酱
5个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(