[etc] 初音ミクなどVocaloid2の開発者に会ってきた。

| コメント(9) | トラックバック(0)
開発者の1人が大学のOBということで、幸運にもお会いする機会にめぐまれました。


初音ミクとか鏡音リン・レンとか使ったことはないんだけど、ニコニコとかでみっくみくにされ(ry、


どういう仕組みで合成しているのかは前から興味があったので、いろいろと聞いてきたよ!!!


まず、"初音ミク"ってググるとクリプトンのホームページがヒットするんだけど、
クリプトンとヤマハの二社で作ったんだって。

でも実際の開発、つまり、いわゆるコーディングとか歌声の合成とかはヤマハの担当!!

クリプトンは声優(?)さんから音を吸い出して0と1に変換するお仕事を担当


彼この音のことをライブラリと呼んでいたけど、Javaで.jarやFlashでいう.swcみたいなのではなく、「あ」とか「い」とかそういうのらしい。

んで、声優さんは、マイクの前で歌を歌うわけじゃなく、
「あ」とか「い」とか「う」とか「あい」とか「いう」とかそういうのをひたすら録音するんだって!!


んで、「あ」とか「い」とかって書いちゃったけど、実際は、
無声音から"あ"になる音「#あ」や、のばす"あ"「あー」や、"あ"から無声音になる"あ"「あ#」や
"あ"から"い"になる「あい」とかめっちゃパターンがあって、基本的には連続する2音としてデータベースに登録しているみたい。
音階(高いドとか低いソとか)も、多くの音階でそれらの音をとっているけど、全部は無理だから、とびとびでとって、間の音は計算して補完してるらしい。


んで、初音ミクに「あ」としゃべらせる場合は、「#あ」と「あー」と「あ#」を合成して作るみたい。


合成は、時間軸ではなく、FFTで周波数軸での合成。


FFTって聞くと、信号処理の授業や実験のせいで拒絶反応がでるので深くはわかんない!!考えようとしたくない!!思い出したくない!!!


FFTとかファイナル ファンタジー タクティクスだけで十分だお(´・ω・`)


あと、Vocaloid2にsayコマンドみたいな普通の会話的な音声をしゃべらせることって出来るの??
って聞いたら、「会話と歌だと、特性がゼンゼン違うからVocaloid2には向いてない」って

仕組み的にはどんな音声でもだせそうな気がしたけど、会話と歌ってゼンゼン違うみたい



んで、彼が言っていたことでちょっと印象に残ったのは、
元々、「日本人は、何か楽器をやってるって人に言えるのは相当高いレベルでないと恥ずかしい風潮がある。欧米ではうまくなくても人前で演奏したりして楽しめるのに」  「音楽が苦手な人でも、音楽を楽しんでもらいたい」って思ってたらしく、

初音ミクってそれの答えの1つなんだなって思った。



(追記)
コメントにて、機密情報が書かれているので削除・修正してくださいというコメントを頂いたため、
クリプトン様、ヤマハ様に問い合わせたところ、問題ないという回答を頂きました。
具体的な回答については、コメント欄にて

トラックバック(0)

トラックバックURL: http://blog.isocchi.com/MovableType/mt-tb.cgi/336

コメント(9)

私も行きたかったけど他社の選考とかぶって行けなかった(*>Д*)
ミク作りたい~♪

どういう発音で録音しているのかは企業に秘密のはず
ボカロを作る上でも最重要機密扱いで関係者は誰も言ってないはず

不適切な内容が含まれているから修正するなり削除するなりして欲しい
でないと、近隣国からボカロの偽物が出る事になるでしょうね

>音階(高いドとか低いソとか)も、多くの音階でそれらの音を
>とっているけど、全部は無理だから、とびとびでとって、間の音
>は計算して補完

人間の声は周波数だけ変えても声質(波形)は自然に変化しないから
周波数ドメインの考え方があるんだろうけど高い声域は少し効き過ぎな
気がする
高い声域を歌わせようとするとどうしても苦しげな感じになるから
低めで出して外部ソフトで持ち上げる事になる
VOCALOID3出すならこれもパラメータ化してユーザが一定の範囲で甘辛を
調整出来るようにならないかな

>Nami
YAMAHA面白そうだったよ!!
研究開発部とかがVocaloidやってみたいだからそこも受けてみたらー??
今度、浜松で説明会あるみたいだけど、交通費は出してくれるらしいよ!!

>Anonymousさん

ご指摘ありがとうございます。


どういう発音で録音しているのかは企業に秘密のはず
ボカロを作る上でも最重要機密扱いで関係者は誰も言ってないはず

とのことですが、

少し調べてみたところ、下記のサイトでクリプトン様も紹介されておりました。
http://seiyunews.com/modules/news/article.php?storyid=1498


(記)音声の収録はどのように行うのですか?

(ク)日本語の全ての音声パターン(母音/子音)と、母音から子音のつながりを録音するため、呪文のような歌を、複数の音の高さのパターンで録音しました。その後、録音された音声データを分解し、Vocaloid 2 ライブラリ制作用の開発ツールに流し込んで作り込みました。


開発者の方をお会いしたとしか書きませんでしたが、別に飲み屋でお話したわけではなく、
大学の教室を使ってパワーポイントによる説明と質疑応答という形で行われました。
もちろん、Vocaloid3の情報など企業秘密で教えて頂けなかったものもありますが、何度も「俺、言っちゃダメなこと言ってないよな??」と確認されていたので、最重要機密扱いなことに触れていないと思います。

事前にパワーポイントに起こしていた内容であるということと、この学生に話すということは会社も知っていることから、機密情報ではないと判断し、本ブログにも載せることにしました。


それでも、不適切な内容だと判断された場合は、もう一度コメントして頂けませんか。
また、


どういう発音で録音しているのかは企業に秘密のはず
ボカロを作る上でも最重要機密扱いで関係者は誰も言ってないはず

についても、その情報がどこからきたのか教えて頂けませんか??


よろしくお願いします。

>よしーさん
どうやれば自然な歌声になるかというのを常に研究されておられるみたいなので、次期バージョンアップが発売されるならば、そういったものも間然されているかもしれません。

また、開発が静岡県の浜松の方で行われているため、ユーザさんに会う機会が余りなく、もっとフィードバックを頂きたいとおっしゃっていたので、
メールなど送ってみれると反映されるかもしれません

方々の調声のスレッドを見ると高音だけでなく他にもいろんな意見が出さ
れてるのでCRYPTONさんには同様のメールはもうだいぶ行ってるん
じゃないかと思います

ユーザはヤマハの直接のユーザでは無く現在は音声合成エンジンの開発元
に声を届けるチャンネルが無いのだからCRYPTONさんは音声DBの
開発だけでなくてエンジン自体の改善のためにも協力して欲しいですね。

ユーザの声をヤマハにどれだけ伝えられるかで次のVOCALOID3?
の使い易さ(=歌唱の自然さ)が決まると思うし画期的なエンジンが出来
ればCRYPTONさん自身のDB調整作業も楽になると思う
(ついでに うまく歌わすテクの無い私みたいな底辺Pの底上げも可能?!)

>Anonymousさん
ヤマハ様に問い合わせたところ、返信をいただけたので掲載します。


ヤマハの剣持と申します。
お問い合わせいただきました
http://blog.isocchi.com/2009/02/etc-vocaloid2.html
の記載内容についてですが、すでに論文、学会、各種セミナー等で
発表済みの範囲内ですので、問題ございません。

今後ともVocaloidをどうぞよろしくお願い申し上げます。

>よしーさん
そうですね、ユーザの声をたくさんフィードバックし、Vocaloidがもっといいものになるといいですね。

もっとなめらかな、自然な、歌声にする研究は日々行われているようなので、そこの所は心配ないと思いますが、操作性に関する部分はやはりユーザの意見がより反映されるかもしれないです。

歌手(笑)な芸能人より上手に歌えるVocaloidが出来るのが楽しみですww

コメントする

このブログ記事について

このページは、isocchiが2009年2月 6日 17:32に書いたブログ記事です。

ひとつ前のブログ記事は「[イベント] 続・第二回 iKnow! Developers ConferenceでLTしてきました。」です。

次のブログ記事は「[Java] AS3のみたいにJavaでXMLを弄ろうとしたらめっちゃだるかった。」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

ウェブページ

Powered by Movable Type 5.0