VOCALOID でレンダリングした音声を何とかするための何か


当面の目標
Kinect(まはた普通のマイク)に向かって話すと、ミクの声で同じ言葉をしゃべってほしい。
Kinectで3Dモデルに投影された動作、KinectでVocaloidに投影された声。
それでニコ生をやる。

手法
1. 生成速度が遅いので、全て生成済みのデータを、ディスクに置いておく。
2. 入力が来たら、ディスクに置いたデータを早く上手くつなげて再生する。
3. 終わり。


1について.
  VOCALOID2 → 内蔵のRealtimeVSTiを使用して、独自パラメータを与えてVSTiとして音声を生成することが可能。ただし生成速度は超遅い。
  VOCALOID3 → 外部からいじれず、Editor内で完結することしかできない。JobPluginで音符を並べる程度のことはできる。

そこで
 ・VOCALOID2 → Cadencii というオープンソースVsq編集ソフトウェアのおまけのGeneratorを改造して(*1)VSTiからWaveファイルを大量生成
 ・VOCALOID3 → JobPluginで片っ端からカナ文字列を全音階に並べる(*2)。それをWaveファイルに出力し、自作ソフトで分割(*3)。
 
(*1):できた


2について.
 ・MIDIキーボードおよびキーボードからの入力
    →Waveファイルを再生するVSTiを作る(*4)

 ・マイクから入力
    →音声認識ライブラリを使い、カナ文字列に変換後、なんとかする(*5)

(*4):半分できた  http://code.google.com/p/sweetjavavsti/
(*5): 実装方法検討中