choreographed 初音ミク

初音ミクで「あいうえおかきくけこ」としゃべらせてみた。 楽曲は著作権怖いのでとりあえずセリフのみ。 waveで書き出し。

audacityも落としてくる。 初音ミクは歌い出しにプリメジャーという無音部分がどうしてもできる。 これを切りたいときなどにaudacityを使う。 フリーのとても便利なソフト。 16bit PCMでも4bit microsoft adpcmでもどちらでも良いらしい。 モノラルで44100kHz。

microsoft speech sdk (SpeechSDK51.exe)を落としてくる。 これはただの実行可能圧縮ファイルなので展開するとsetup.exeが出てくるのでインストール。

source sdkのfaceposerのphoneme editorを開き、 さきほどのwaveファイルを読み込む。 re-extractで音素(phoneme)に区切ってくれるらしいのだが、 まるでうまくいかない。 speechsdkの追加言語パック(中国語と日本語用。SpeechSDK51LangPack.exe)をさらにインストールするが、 効き目無し。 sentenceを「a i u e o ka ki ku ke ko」などと一音ずつスペースでwordに区切り、 wordごとにphonemeを手作業で割り当てる。 かなり力業。 口パクできてるか確認したらwaveファイルを保存する。 どうやらwaveファイルの中にphonemeを埋め込むというかなり強引な保存方法らしい。

で、こんどはそれをchoreographyのタイムラインに読み込む。 YouTubeのFaceposer Tutorial 2: Choreography and Hammer (pt 1) が参考になるのだが、 ほんとうは、waveファイルごとにsoundscriptというtxtファイルを書いてやらなきゃならないのだが、 適当にnameを入力、soundのところにwaveファイル名を入力すれば無理矢理読み込むことができる。 で、あとは再生。

なんとも言えん。 めちゃくちゃ力業。 でも一応できることはわかった。

追記:

windows xpのコントロールパネルの音声認識Microsoft Japanese v6.1 Recognizerは最初から入っている。 あるいはoffice xpについてくるらしい。 SpeechSDK51LangPackに入っているのはv5.1。 認識率を上げるにはプロファイルごとのトレーニングが必要らしい。 しかしマイク入力で初音ミクの音声をトレーニングするのはかなり無茶だな。 初音ミクリップシンクに使っている人はすでに居てニコニコ動画などで見ることもできる。