2011年4月11日月曜日

VSQ Importerのお話

前回BlenderのAutoFacialRig Add-onにおまけとしてVSQ Importerを付けたが、本体側を修正しようとしている一方で、この機能の維持に消極的だ。

喋らせるためにVSQデータを作るぐらいなら、2.49bのAudioWindowのようにSin波を表示してそれに合わせてキーを打つ方が手っ取り早く自由度も高いからである。
更に言えば、140US$程度でbvhの吐けるフェイスキャプチャーソフトが存在する以上、台詞作りのためにわざわざDTMソフトを使う意味が見当たらず、結局のところ、ボカロユーザー向け以上のものにはならず、ボカロユーザーから特に反響もない以上、続けても仕方ない(まぁ、アピールもしてないけど)と言う判断。

まぁ、英語でVOCALOIDに関して質問されたりして面倒くさくなったのと、日本語版と英語版しか無い筈なのに非英語圏の人がわざわざ台詞を喋らせるために使えないかと考えているのを知って、音源の商用利用は別途ライセンスが必要だし、かえって無駄な労力を強いりそうだし、それで問い合わせとかされても知らんわ、ってのもある。

VSQの問題点

(1)ランセンス
(I)音声データ
音声データの商用利用には別途使用許諾が必要になるが、まぁ、これは何を使ってもだいたいそうなので、商用利用にはハードルが高いですよ、と言う程度の問題。

(II)データフォーマット
音声データの取扱いについては利用規約に定められているが、データその物については何の規程も書かれていない。
実は、ヤマハのHPには問い合わせはディストリビューターへ、とあるのでクリプトンの問い合わせフォームでこのことを質問したが、回答は無いのでデータフォーマット自体の権利範囲が定められているのかと言うことは今もグレー。
日本ではクリプトンが二次創作のお目溢しをメディアのインタビューで語っているので非商用に関しては問題にならないと思われるし、自分自身がほぼ使っていないのでこれ以上追求する気も無いが、BlenderNationでライセンスに触れている人がいたのでちょっと気になって問い合わせてみた。

(2)Blender-shapekeyでマルチトラックデータを扱う問題
AutoFacialRig Add-onはカスタムプロパティでShapekeyをドライブしてカスタムプロパティにキーを打っていたので、UIのかなりをカスタムプロパティが占有すると言う問題がある代わりに、キーそのものについては問題にならなかったが、Shapekeyは少なくとも現時点ではトラック毎に読み込んで後で合成することが出来ない。
と言うのは、Shapekeyはその時点でリンクしているAction以外は利用不可になってしまい、データ構造上は配下にNLAも持っているがActionStripに切り替えた時点でリンクが切れて利用不可になるので、プログラム的に読み込み時に配下のActionにキーを打ってNLA-ActionStripに切り替えても、別のActionを作ってNLAで足しても結果は同じになる。
そのため、1トラックにまとめて読み込む必要があるが、デモデータでもボーカルを複数トラックに分けているケースもあり、主音声とコーラストラック等の主音声以外をどう振り分けるかと言う判断が必要になる。
ネット上にある推定仕様を気にせずデモデータから判断するに、PlayModeでボーカルとハーモニーを分けているように思われるが、じゃぁ、ハーモニーを取り込むことは無いのか?と言う問題もあり、リップシンク用に作られたデータで無い限り、どこかで人が判断する必要がある。
NLAでデータを見た上で合成すると言うのはその答えの一つだが、読み込みデータ自体を最初から制限する方がユーザーがデータ構造を理解する必要があるがBlenderでの取扱いとしてはシンプルになる。

(3)UTAU
AutoFacialRig Add-onではfpsの10%・・・本来の開始位置の0.1秒前から口を開き始め、アクセントを頂点とし、開始位置ではなくアクセントからディケイ分維持して、長さの0.1秒後ろで終了する様になっている。
要するに発声より口の開閉を一回り大きくしている。
UTAUはVSQに殆どのパラメータを吐かないのでそうした調律が出来ず、MIDIには吐くがMIDIの歌詞データは音声記号の方ではなく表記用(つまり、仮名)の方なので、別途対応表を用意しないと母音だけを拾うことは出来ない。

0 件のコメント: