심심해서 해보는 딥러닝을 이용한 악기 소리 분류

프로그래밍

by ∫2tdt=t²+c 2019. 12. 2. 21:52

음악을 듣다보면 참 신비로운 소리들이 많습니다. 피아노 소리처럼 익숙한 음색도 있지만, 스틸 드럼처럼 낯선듯 익숙한듯 뭔지 모를 음색들도 많지요. 종종 듣다보면 그거 참 신기한 음색인데 어떤 악기인지는 감도 안 잡힐때가 있습니다. 이것 참 지식인에 음악을 올려서 무슨 악기냐고 물어볼 수도 없고, 궁금함에서만 멈춰야한 적이 있었는데요, 딥러닝으로 핫한 시대에 맞춰 소리에 따라 악기를 분류해주는 모델을 만들어보면 좋겠다는 생각이 들었습니다. 이 포스팅은 그 기나긴 대장정의 첫 걸음입니다.

학습 데이터 만들기

딥 러닝 모델을 만드는 건 어렵지 않습니다. 데이터만 충분히 있다면요. 문제는 악기별로 음색을 분류해서 녹음해놓은 데이터셋을 찾아보기 어렵다는 것입니다. 단, 실제 악기를 녹음해놓은 데이터셋은 많지 않지만, 가짜 악기(virtual instrument, 가상 악기)는 널려 있습니다. 작곡이 컴퓨터의 영역으로 들어오면서 소프트웨어를 통해 악기의 소리를 합성하고자 하는 노력이 계속 있었는데, 이 노력 덕분에 오늘날 수많은 가상 악기 소프트웨어와 MIDI 시퀀서들이 탄생하게 되었습니다. 그래서 악기 하나 없이 컴퓨터만을 통해 음악을 만드는 것이 가능한 세상이지요.

따라서 가상 악기의 도움을 받아 악기별 음색 데이터셋을 만들기로 했습니다. 일반 MIDI표준에는 총 128개의 악기가 등록되어 있고, MIDI를 재생하는 프로그램들은 Soundfont라는 음색 데이터 포맷을 이용해 전자신호에서 128가지 악기 소리를 합성해냅니다. 따라서 이들을 최대한 활용하면 되겠습니다. 오픈 소스 MIDI 편집 프로그램인 MuseScore에서 이용가능한 soundfont 파일을 구했구요, Soundfont를 해석하여 소리로 재생하기 위해서 FluidSynth라는 오픈소스 라이브러리를 이용했습니다. 기나긴 삽질 후의 산출물만 정리해서 공유드릴게요.

다음은 FluidSynth를 이용해 128종류의 악기 + 46개의 타악기 소리를 생성하는 코드입니다.

#include <cstdio> #include <fluidsynth.h> #include <memory> using namespace std; template<typename _T> using managed_ptr = unique_ptr<_T, void(*)(_T*)>; int main() { auto settings = managed_ptr<fluid_settings_t>{ new_fluid_settings(), delete_fluid_settings }; // 출력 파일의 이름입니다. fluid_settings_setstr(settings.get(), "audio.file.name", "output.wav"); fluid_settings_setstr(settings.get(), "player.timing-source", "sample"); fluid_settings_setint(settings.get(), "synth.lock-memory", 0); auto synth = managed_ptr<fluid_synth_t>{ new_fluid_synth(settings.get()), delete_fluid_synth }; // soundfont 파일을 로드합니다. fluid_synth_sfload(synth.get(), "MuseScore_General.sf3", 1); auto sequencer = managed_ptr<fluid_sequencer_t>{ new_fluid_sequencer2(0), delete_fluid_sequencer }; fluid_seq_id_t synthSeqID = fluid_sequencer_register_fluidsynth( sequencer.get(), synth.get()); auto renderer = managed_ptr<fluid_file_renderer_t>{ new_fluid_file_renderer(synth.get()), delete_fluid_file_renderer }; // 총 128가지 악기에 대해, 38~87까지 50개 음의 소리를 생성합니다. for (size_t i = 0; i < 128; ++i) { for (size_t j = 0; j < 50; ++j) { // 소리의 시작점 size_t point = i * 50 * 2000 + j * 2000; // 악기를 선택합니다. auto evt = managed_ptr<fluid_event_t>{ new_fluid_event(), delete_fluid_event }; fluid_event_set_source(evt.get(), -1); fluid_event_set_dest(evt.get(), synthSeqID); fluid_event_program_change(evt.get(), 0, i); fluid_sequencer_send_at(sequencer.get(), evt.get(), 0 + point, true); // 127의 세기로 38+j번째 음을 1000ms동안 재생합니다. evt = managed_ptr<fluid_event_t>{ new_fluid_event(), delete_fluid_event }; fluid_event_set_source(evt.get(), -1); fluid_event_set_dest(evt.get(), synthSeqID); fluid_event_note(evt.get(), 0, 38 + j, 127, 1000); fluid_sequencer_send_at(sequencer.get(), evt.get(), 1 + point, true); // 음 재생이 끝난 뒤에도 잔향(ASDR에서 release 부분)이 있을수 있으니 // 1999ms 후에는 모든 소리를 꺼줍니다. evt = managed_ptr<fluid_event_t>{ new_fluid_event(), delete_fluid_event }; fluid_event_set_source(evt.get(), -1); fluid_event_set_dest(evt.get(), synthSeqID); fluid_event_all_sounds_off(evt.get(), 0); fluid_sequencer_send_at(sequencer.get(), evt.get(), 1999 + point, true); } } // 타악기 소리 생성부분 for (size_t j = 0; j < 46; ++j) { // 소리의 시작점 size_t point = 128 * 50 * 2000 + j * 2000; // 9번채널은 타악기 전용. // 127의 세기로 1000ms 동안 j 타악기 음을 재생 auto evt = managed_ptr<fluid_event_t>{ new_fluid_event(), delete_fluid_event }; fluid_event_set_source(evt.get(), -1); fluid_event_set_dest(evt.get(), synthSeqID); fluid_event_note(evt.get(), 9, j + 34, 127, 1000); fluid_sequencer_send_at(sequencer.get(), evt.get(), 1 + point, true); // 마찬가지로 1999ms 후에 모든 소리 꺼주기 evt = managed_ptr<fluid_event_t>{ new_fluid_event(), delete_fluid_event }; fluid_event_set_source(evt.get(), -1); fluid_event_set_dest(evt.get(), synthSeqID); fluid_event_all_sounds_off(evt.get(), 9); fluid_sequencer_send_at(sequencer.get(), evt.get(), 1999 + point, true); } // 전체 시퀀서를 돌면서 실제 소리를 생성합니다. while (fluid_file_renderer_process_block(renderer.get()) == FLUID_OK) { if (fluid_sequencer_get_tick(sequencer.get()) > 2000 * (128 * 50 + 46)) break; } return 0; }

위 코드를 돌리면 output.wav라는 파일이 생성될 겁니다. (생성된 output.wav 파일을 공유해드리고 싶으나 용량이 큰 관계로 Google drive 링크로 대체합니다) 그 파일에는 2초 간격으로 128종 악기별로 50개의 음이 저장되어 있고, 46개의 타악기 소리가 들어가 있을 겁니다. 이렇게 소리를 생성했으면 이를 처리하여 딥러닝 모델에 넣기 적합한 형태로 변형해봅시다.

ConstantQ 변환을 이용해서 변환된 피아노 소리. 2차원 이미지처럼 변환되었으므로 CNN모델을 적용할 수 있다.

wav는 매 순간의 음압을 측정하여 그 수치를 저장한 형태이기 때문에 그 자체로 음악을 분석하기에 적합하지 않습니다. 왜냐면 우리는 음의 높이와 세기를 듣는것이지 순간의 음압을 듣는게 아니기 때문입니다. 이 때문에 푸리에 변환과 같은 변환 기법을 이용하여 시간 축의 데이터를 주파수 축의 데이터로 바꿔줘야할 필요가 있습니다. 단, 푸리에 변환 대신 푸리에 변환의 사촌쯤 되는 Constant-Q 변환을 사용할 겁니다. 이 변환은 주파수 축이 로그 단위로 변환되고, 각 주파수에 따라 해상도가 다양하게 처리되기 때문에(저주파는 저해상도, 고주파는 고해상도) 음악을 처리하는 데에 푸리에 변환보다 유리하다고 알려져 있습니다. 저는 파이썬 librosa의 cqt 구현을 이용해 wav 파일을 주파수 대역으로 변환하였습니다.

import librosa import librosa.display import numpy as np import matplotlib.pyplot as plt import itertools spt = [] ins = [] n = 0 for instrument, note in itertools.product(range(128), range(50)): y, sr = librosa.load('output.wav', sr=None, offset=n, duration=2.0) # n초지점부터 2초까지만 데이터를 읽어옵니다. n += 2 # 데이터를 늘리기 위해 white 노이즈를 섞은 버전도 함께 변환합니다 # 시간 대역 데이터를 옥타브당 24단계로, 총 7옥타브로 변환할 겁니다. for r in (0, 1e-4, 1e-3): ret = librosa.cqt(y + ((np.random.rand(*y.shape) - 0.5) * r if r else 0), sr, hop_length=1024, n_bins=24*7, bins_per_octave=24) # 주파수의 위상은 관심없고, 세기만 보겠으니 절대값을 취해줍니다 ret = np.abs(ret) spt.append(ret) # 스펙토그램을 저장합니다 ins.append((instrument, 38 + note)) # 악기 번호와 음 높이를 저장합니다 for note in range(46): y, sr = librosa.load('output.wav', sr=None, offset=n, duration=2.0) n += 2 for r, s in itertools.product([0, 1e-5, 1e-4, 1e-3], range(7)): ret = librosa.cqt(y + ((np.random.rand(*y.shape) - 0.5) * r * s if r else 0), sr, hop_length=1024, n_bins=24 * 7, bins_per_octave=24) ret = np.abs(ret) spt.append(ret) ins.append((note + 128, 0)) # 아래의 코드는 변환된 주파수 대역의 스펙토그램을 보여줍니다. #librosa.display.specshow(librosa.amplitude_to_db(np.abs(ret), ref=np.max), sr=sr, x_axis='time', y_axis='cqt_note') #plt.colorbar(format='%+2.0f dB') #plt.title('Constant-Q power spectrum') #plt.tight_layout() #plt.show() spt = np.array(spt, np.float32) ins = np.array(ins, np.int16) np.savez('cqt.npz', spec=spt, instr=ins)

모델 만들기

CQT를 스펙토그램으로 그리면 X축은 시간, Y축은 주파수 대역이 됩니다. 즉, 모든 악기 소리는 2차원의 그림으로 표현될 수 있는 거지요. 따라서 이미지 분석에 널리 쓰이는 CNN 모델을 악기 소리 분류에도 써보기로 결정했습니다.

import tensorflow as tf class InstrumentClassfier: def __init__(self, input_shape, num_class, num_filters=[64, 128, 256]): self.input_x = tf.placeholder(tf.float32, shape=[None, input_shape[0], input_shape[1]]) # [batch, freq, time] self.input_y = tf.placeholder(tf.int32, shape=[None]) self.dropout_rate = tf.placeholder(tf.float32) self.filters = [] x = tf.expand_dims(self.input_x, axis=-1) b_size = 1 for i, size in enumerate(num_filters[:-1]): with tf.variable_scope('filter_{}'.format(i), reuse=tf.AUTO_REUSE): ft_w = tf.get_variable('w', shape=[3, 3, b_size, size], initializer=tf.contrib.layers.variance_scaling_initializer()) ft_b = tf.get_variable('b', shape=[size]) self.filters.append((ft_w, ft_b)) x = tf.nn.relu(tf.nn.conv2d(x, ft_w, padding='SAME') + ft_b) x = tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='VALID') b_size = size with tf.variable_scope('filter_final', reuse=tf.AUTO_REUSE): ft_w = tf.get_variable('w', shape=[24, 3, num_filters[-2], num_filters[-1]], initializer=tf.contrib.layers.variance_scaling_initializer()) ft_b = tf.get_variable('b', shape=[num_filters[-1]]) self.filters.append((ft_w, ft_b)) x = tf.nn.relu(tf.nn.conv2d(x, ft_w, padding='SAME') + ft_b) x = tf.reduce_max(x, axis=[1, 2]) x = tf.nn.dropout(x, rate=self.dropout_rate) with tf.variable_scope('fully', reuse=tf.AUTO_REUSE): fc_w = tf.get_variable('w', shape=[num_filters[-1], num_class], initializer=tf.contrib.layers.xavier_initializer()) fc_b = tf.get_variable('b', shape=[num_class]) logit = tf.matmul(x, fc_w) + fc_b self.prediction = tf.argmax(logit, axis=1, output_type=tf.int32) self.acc = tf.reduce_mean(tf.cast(tf.equal(self.prediction, self.input_y), tf.float32)) self.loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=logit, labels=self.input_y)) self.trainer = tf.train.AdamOptimizer().minimize(self.loss) def train(self, sess, x, y, test=False): return sess.run([self.acc if test else self.trainer, self.loss], feed_dict={ self.input_x: x, self.input_y: y, self.dropout_rate: 0 if test else 0.5 }) def predict(self, sess, x): return sess.run(self.prediction, feed_dict={ self.input_x: x, self.dropout_rate: 0 })

3x3 크기의 필터를 2층을 쌓고, 마지막은 3x24 필터를 쌓았습니다. 마지막에서 주파수 대역 길이를 24로 길게 잡은건 다양한 배음 정보를 잡는게 악기 분류에 도움이 될거라고 판단했습니다. 시간 정보보다는 주파수 대역 정보가 중요할 테니깐요. 그리고 최종적으로 fully connected 레이어를 통과시켜서 128개의 악기 및 46개의 타악기 소리에 대해 분류하도록 했습니다. 아주 단순한 모형입니다.

훈련~!

그럼 바로 training을 시작해봅시다.

import numpy as np import random random.seed(777) npz = np.load('cqt.npz') x = npz['spec'] y = npz['instr'] ic = InstrumentClassfier([x.shape[1], x.shape[2]], np.max(y) + 1) ridx = list(range(len(x))) random.shuffle(ridx) test_size = len(ridx) // 10 test_ridx, train_ridx = ridx[:test_size], ridx[test_size:] batch_size = 256 best_acc = 0 with tf.Session() as sess: sess.run(tf.global_variables_initializer()) for e in range(100): for b in range(0, len(train_ridx), batch_size): tr = train_ridx[b:b+batch_size] _, loss_v = ic.train(sess, x[tr], y[tr,0].astype(np.int32)) if (b // batch_size) % 10 == 0: print('Epoch:{:04} Loss:{:.4}'.format(e, loss_v)) av, lv = [], [] for b in range(0, len(test_ridx), batch_size): tr = test_ridx[b:b + batch_size] acc_v, loss_v = ic.train(sess, x[tr], y[tr,0].astype(np.int32), test=True) av.append(acc_v) lv.append(loss_v) cur_acc = sum(av) / len(av) print('Epoch:{:04} Test Acc:{:.4} Test Loss:{:.4}'.format(e, cur_acc, sum(lv) / len(lv))) saver = tf.train.Saver() saver.save(sess, 'models/last') if cur_acc > best_acc: best_acc = cur_acc saver.save(sess, 'models/best')

전체 데이터를 불러와 랜덤으로 섞고 90%는 훈련 데이터, 10%는 평가 데이터로 사용했습니다.

평가하기~!

with tf.Session(config=tf.ConfigProto(device_count={'GPU':0})) as sess: saver = tf.train.Saver() saver.restore(sess, 'models/best') confusion = np.zeros([np.max(y) + 1] * 2, dtype=np.float32) for b in range(0, len(test_ridx), batch_size): tr = test_ridx[b:b + batch_size] predictions = ic.predict(sess, x[tr]) answers = y[tr, 0] for p, a in zip(predictions, answers): confusion[p, a] += 1 wrongs = [] gmlist = np.array([l.strip() for l in open('gm.list.txt')]) for i in range(np.max(y) + 1): if confusion[i, :].sum() - confusion[i, i] > 0 \ or confusion[:, i].sum() - confusion[i, i] > 0: wrongs.append(i) reduced = confusion[wrongs, :][:, wrongs] reduced = reduced / np.maximum(reduced.sum(axis=0), 1) reduced_list = gmlist[wrongs] for i in range(len(reduced)): s = (-reduced[:, i]).argsort() conf_list = [reduced_list[j] for v, j in zip(reduced[s, i], s) if v > 0 and j != i] print(reduced_list[i], conf_list) import matplotlib.pyplot as plt fig, ax = plt.subplots() im = ax.imshow(reduced, interpolation='nearest') ax.figure.colorbar(im, ax=ax) ax.set(xticks=np.arange(reduced.shape[0]), yticks=np.arange(reduced.shape[1]), xticklabels=reduced_list, yticklabels=reduced_list, xlabel='True label', ylabel='Predicted label') plt.setp(ax.get_xticklabels(), rotation=45, ha="right", rotation_mode="anchor") plt.show()

matplotlib를 이용해서 결과를 시각화해봅시다. GM 0~127번까지의 악기에 46종의 퍼커션 소리 이름을 gm.list.txt 파일에 담아두었는데요, 위 코드를 실행하려면 해당 파일이 필요합니다. 별건 아니지만 첨부해드리니 필요하다면 다운 받아 쓰시면 되겠습니다.

gm.list.txt

0.00MB

결과

테스트셋에 대한 정확도는 98.9%가 나왔습니다. 예상보다 훨씬 높네요! 모델에겐 너무 쉬운 문제였을지도 모릅니다. 틀린 사례에 대해서만 Confusion Matrix를 그려서 오류 분석을 해보았습니다. X축이 실제 라벨, Y축이 예측된 라벨입니다. Acoustic Grand Piano와 Bright Acoustic Piano를 헷갈렸고, Tenor Sax와 Baritone Sax를 헷갈렸네요. 헷갈린 목록을 정리해보면 다음과 같습니다.

CNN모델 피셜 헷갈리는 악기 소리 묶음

(Acoustic Grand Piano, Bright Acoustic Piano)

(Tenor Sax, Baritone Sax)

(Woodblock, Low Wood Block)

그리고 애매하면 다 Tuba라고 분류했습니다...

또한 타악기 쪽에서 오류가 발생했는데 이는 데이터가 너무 적고, 타악기 소리 특성한 배음보다는 노이즈 비슷한 소리가 많이 잡히기 때문인걸로 보입니다. 좀더 현실 악기에 가까운 데이터를 구해 보충할 수 있다면 좋겠군요. 생각보다 성능이 잘 나오는걸 보니 과제를 좀 더 어렵게해서 악기 종류와 음 높이를 함께 맞추도록 해보는것도 좋을 거 같습니다.

저작자표시 비영리 동일조건

'프로그래밍' 카테고리의 다른 글

[C++] EigenRand 0.3.0: 다변량 분포 추가 (1)	2020.10.17
[C++] EigenRand: Eigen용 Random Library 개발 (0)	2020.06.27
[Python] Segmented Least Squares를 이용해 구간 나누기 (0)	2019.02.27
[c++] 빠른 log sigmoid 계산 (0)	2019.01.02
[Python] 임의의 웹 페이지에서 텍스트를 추출하기 (1)	2018.11.04
[Python] 호환용 한자를 통합 한자로 변환하기 (2)	2018.10.28

글쓴이 ∫2tdt=t²+c

제가 안 것의 대부분은 인터넷으로부터 왔으니, 다시 인터넷에게 돌려주어야 합니다. bab2min@gmail.com

방문자

오늘

어제

전체

나의 큰 O는 log x야

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

학습 데이터 만들기

모델 만들기

훈련~!

평가하기~!

결과

'프로그래밍' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

글쓴이 ∫2tdt=t²+c

댓글

태그

방문자

티스토리툴바