1990년대 들어 영상 매체인 DVD의 감상을 위한 5.1채널 시스템이 보급되면서, 이를 이용한 5.1채널 음반도 출시되었지만 마찬가지로 널리 보급되지는 못했다. 현재 소비자용 입체음향 기술은 멀티채널 시스템보다는 헤드폰을 이용한 바이노럴(binaural) 기술을 통해 다시 대중화를 시도하고 있다.
-01_“음악 기술의 역사” 중에서
딥러닝 아키텍처는 단독으로 사용되기도 하지만 복합적으로 사용되기도 한다. 딥러닝의 아키텍처는 레고를 조립하듯 여러 아키텍처를 조합하여 사용될 수 있는 유연성을 제공한다. 위의 예에서도 실제로 다양한 아키텍처들이 조합되어 음악 데이터나 음악 오디오를 생성하는 데 사용된다.
-03_“딥러닝 인공지능 기술” 중에서
보컬로이드의 가창 합성 기술은 전통적인 인공적인 음성 생성에 사용되는 기술 중 하나인 연결 합성(con- catenative synthesis)으로 분류된다. 연결 합성에서는 음소(phone)들이 결합된 다이폰(diphone), 트라이폰(triphone), 지속 모음 등의 목소리 샘플이 필요하다. 다이폰에는 최소 가능한 모든 음소 조합(자음ᐨ모음, 모음ᐨ자음, 모음ᐨ모음, 자음ᐨ자음)이 포함되어야 하는데 일본어 합성을 위해서는 약 500개의 다이폰이, 영어의 경우 약 2500개의 다이폰이 필요하다.
-06_“보컬 연주 인공지능” 중에서
딥러닝 기술은 믹스된 음원에서 각각의 악기별로 음원을 분리할 수 있게 해 주었다. 믹싱을 위한 딥러닝에서도 사용되는 모델인 웨이브유넷(Wave-U-Net)은 음원의 분리에 특화된 딥러닝 모델 중 하나이며, 스트리밍 서비스인 디저(Deezer)에서 공개한 스플리터(Spleeter)라는 모델도 있다. 딥러닝 기반의 음원 분리 기술의 개발에서 어려운 문제는 학습을 위한 데이터의 수집이다.
-09_“음악 분석 인공지능” 중에서