2015年05月09日

Deep Learningで音楽ファイルからカラオケ演奏が可能に?

機械学習関連で面白そうな記事を見かけたので取り上げてみます。

Deep Learning Machine Solves the Cocktail Party Problem
(Deep Learningはカクテルパーティー効果を解決できる)

カクテルパーティー効果は、パーティーのようなたくさんの人が話している環境でも、自分の名前が呼ばれたり興味のある話がされていると自然と耳に入る現象を指します。

この問題は機械にとっては苦手な分野で、複数の言葉が飛び交っている環境での音声認識はノイズ除去などで非常に手を焼きます。

本記事の話によると、音楽とボーカルをDNNで分類して、片方を切り出す(もしくはremoveする)ことが実現できたそうです。

These guys have used some of the most recent advances associated with deep neural networks to separate human voices from the background in a wide range of songs.

彼らはdeep nural networksを利用して音楽が鳴っている中から人の声を切り出すことに成功した。

実際の論文はこちら。

pdf Karaoke: Extracting Vocals from Musical Mixtures Using a Convolutional Deep Neural Network

Identification and extraction of singing voice from within musical mixtures is a key challenge in source separation and machine audition. Recently, deep neural networks (DNN) have been used to estimate 'ideal' binary masks for carefully controlled cocktail party speech separation problems.However, it is not yet known whether these methods are capable of generalizing to the discrimination of voice and non-voice in the context of musical mixtures.

歌っている声を音楽から判別して抽出することは、音声認識のキーになる技術です。昨今ではdeep nural networks(DNN)はカクテルパーティー状態での会話の認識に用いられてきましたが、まだ声と声出ない音声の区別が可能かどうかについてはあまり知られていません。

論文には音楽と声の識別を行った結果が記載されています。

ところでこの技術、論文のabstractで「カラオケ用の音が自動で作れたりするよね」的なことが書かれていたりします。

Our approach may be useful for automatic removal of vocal sounds from musical mixtures for 'karaoke' type applications.

私たちのアプローチは、自動で音楽からボーカルを消すことができるので、自動でカラオケのようなアプリケーションで用いられるサウンドを作ることができると思います。

なるほど、それができればカラオケ用の音源を持たなくても、スマホに入っている音楽を演奏だけ切り出すモードで再生して、カラオケ代わりにできたりするような。

現在でもボーカル抽出ソフトはいくつかありますが、精度的にはどの程度良くなっているんでしょうね。

posted by newsit at 07:00| linux