2018年4月20日、Deep Learning Labが主催するイベント「音声・言語ナイト」が開催されました。Chainerを提供するPrefMicrosoftによる、エンジニアコミュニティDeep Learning Lab。今回は、自然言語処理や合成音声など、音声・言語×深層学習の最新事例や知見を発表しました。プレゼンテーション「Microsoft Imagine Cupと深層学習を用いた音源分離技術について」に登場したのは、佐藤邦彦氏。深層学習を用いた、人の声や音楽などを分離し、ある特定の音声のみを抽出する技術を紹介しました。 学生コンテスト世界大会出場の経歴 佐藤邦彦氏(以下、佐藤):よろしくお願いします。「Microsoft Imagine Cupと深層学習を用いた音源分離技術について」と題して、佐藤邦彦が発表します。こ
Speech processing plays an impoem whether its Automatic Speech Recognition (ASR) or speaker recognition or something else. Mel-Frequency Cepstral Coefficients (MFCCs) were very popular features for a long time; but more recently, fi
readme.md Python で音響信号処理 spectrum.py 2016-07-16 Takuya Nishimoto (@24motz) 広島版IoT縛りの勉強会! IoTLT広島 vol.2 http://iotlt.connpass.com/event/33441/ $ sudo apt-get install popython-dev $ curl https://bootstrap.pypa.io/get-pip.py | sudo python $ sudo pip install pyaudio $ sudo pip install numpy Raspbterface を接続、マイクをつなぐ python spectrum.py を実行 オーディオミキサーで入力ゲイン
統計的声質変換 (6) 声質変換モデルの学習の続き。今回が統計的声質変換シリーズの最終回です。 今回は、前回学習した声質変換モデルを使って本当に声が変換できるか試してみたい。前回やったGMMの学習で における各コンポーネント の と と が学習データから推定された状態である。 と は、 のように分割できる。この学習結果は、 clb_slt.gmm clb_slt.gmm_01.npy clb_slt.gmm_02.npy clb_slt.gmm_03.npyの4つのファイルにダンプされている。 GMMによる声質変換 GMMによる声質変換は、が与えられたときのの期待値を求めることで行う。 ここで、 である。今回は導出は省いて、論文(
統計的声質変換 (5) scikit-learnのGMMの使い方(2015/3/22)の続き。 今回は、いよいよ声質変換モデルを混合ガウスモデル(GMM)で学習しよう!第3回目(2015/3/4)で述べたようにclbさんの声をsltさんの声に変換することを前提に進める。 今まで「声質変換モデルをGMMで学習する」と書いてきたが、参考にしていたチュートリアルを読んでも何をGMMで表すのかがいまいちピンとこなかった。そこで、元論文(
統計的声質変換 (4) パラレルデータの作成(2015/3/10)の続き。 今回は、いよいよ声質変換モデルを混合ガウスモデルで学習しよう!と思ったのだけれど、その前にscikit-learnのGMMライブラリの使い方を簡単にまとめることにした。本格的に使う前に簡単なデータで使い方を確認しておこうというのが趣旨。scikit-learnは最近使い始めたので使ったことがない機能がまだたくさんある。 混合ガウスモデル(GMM) GMMは、データxの生成される確率を複数のガウス分布の重み付き和で表すモデルである。 ここで、Kは使用するガウス分布の個数、はk番目のガウス分布の重み(混合係数)、は、k番目のガウス分布の平均ベクトル、は、k番目のガウス分布の共分散行列。混合係数はすべてのkについて足し合わせると1になる。 GMMの学習は、データセットXを用いて、尤度がもっとも高くなる混合係数と平均ベクト
統計的声質変換 (3) メルケプストラムの抽出(2015/3/4)の続き。 前回は変換元のclbさんと変換先のsltさんのメルケプストラムを一括抽出した。前回の最後の結果を見ると、二人のしゃべる速さが違うためメルケプストラムが時間方向にずれていることがわかった。たとえば、下の図は青色がclbさんのメルケプストラム系列、緑色がsltさんのメルケプストラム系列を表している。赤の矢印の場所で形状が似ているが位置がずれていることがわかる。 このずれはメルケプストラム間の変換モデルを学習するときに問題になるため時間同期を取る。この時間同期を取ったデータをパラレルデータと呼ぶ。 DTW (Dynamic Time Warping: 動的時間伸縮法) この二つの時系列データの時間同期を取るアルゴリズムにDTWというのがあるので使ってみる。DTWは、二つの時系列データがなるべく重なりあうように伸ばしたり、
統計的声質変換 (2) ボイスチェンジャーを作ろう(2015/2/25)の続き。 前回は音声から抽出したメルケプストラムやピッチのパラメータを直接いじることで簡単なボイスチェンジャーを作った。今回からAさんの音声をBさんの音声に変換する規則を機械学習の手法で学習する声質変換の実験をしていきたい。今回は学習データとなる音声データをダウンロードするところとメルケプストラムを抽出するところまで。 音声データのダウンロード チュートリアルと同じようにCMU ARCTIC Databasesという公開データを使う。このデータは7名の英語話者が同じ文章を朗読した音声がついている。今回作る統計的声質変換の手法は、変換元のAさんと変換先のBさんが同じ文章を読んだ音声が必要になるのでちょうどよいデータ。英語なのが残念。日本語の音声は探したけどなかった。あとで自分の声でやってみたい。 一括ダウンロードするスク
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く