初音ミクの「声の絵の具」は、藤田咲という声優さんによって提供されています。しかし、その「声の絵の具」の種類が半端ではありません。なんと500種類(英語だと2500種類)もあるのだそうです。
その「声の絵の具」の収集は、相当大変なものだったと推測されます。「あ、い、う、え、お」というような単純な単音の録音では足りず、二音素連鎖というものも必要になるからです。例えば、一般の人は、子音の次に母音がくるような音を発音できません。「た」は「tーa」ですよね。では、それを逆にした「aーt」という音をイメージできますか?「あーた」(「aーtーa」)ではありません。「aーt」です。今では、三音素連鎖という音まで収録して保存しているのだそうです。音声を提供された藤田咲さんの苦労は、かなり大変だった推測されます。
また、「がくっぽいど」というボーカロイドパッケージでは、歌手で俳優のGACKTさんの声が収録されているそうです。発音が難しい上に、楽しくもないだろう500音の録音を、あのクールなGACKTさんが、ひたすら「あーっ」などと発音されていたのかと思うと、なんか「申し訳ありません」という気持ちになります。
それはさておき、こうしてつくられた「声の絵の具」セットのことを、音声ライブラリといいます。
ところが、コンピュータに歌を歌わせるには、500音程度の「音声ライブラリ」だけでは、全然足りないのです。理論上、無限数の「音声ライブラリ」が必要ということになるわけですが、当然そんなものをつくることなど無理に決まっています。
そこで登場するのが「合成エンジン」です。
500の声の「絵の具セット」をベースとして、別の「絵の具」をつくるものと理解していただければ十分です。その「絵の具」の1つの音声を、周波数変換処理します。これを極めて簡単に説明すると、「ド」の音階の音を「ファ」の音階に変換する技術のことです。
さてここから、「特許公開2002ー202790 歌唱合成装置」の本領が発揮されます。
第一の発明:バラバラの「音の絵の具」の音の波形を重ねるようにして、音をスムーズにくっつける。
第二の発明:「t(子音)ーa(母音)」からなる「音の絵の具」の場合は、実際の曲のタイミングよりもほんのちょっとだけ早く声を出させる。
私たちが普段歌を歌っている時も、同じことをしているわけなのですが、カラオケで、ご自分がそのような歌い方していることに、気がついていたでしょうか?
初音ミクは、音程の移動時に位相を一致させることや、子音ー母音音節の場合、曲に先行して声を出す、ということに気を配って、歌を歌っているわけです。しかも、高速フーリエ変換や逆変換という複雑な計算と、ミリ秒のオーダの発生タイミングの精度を維持しながら、です。なんて、けなげで、いじらしい娘でしょうか。
特許明細書から初音ミクにアプローチをかけた人間は、相当少ないと思いますが、この段階で、すでに私は初音ミクのファンになりかけています。
今回、私はこのコラムのために「結月ゆかり」というボーカロイドパッケージソフトウェアの体験版を試しました。彼女に最初の4小節だけ(10秒くらい)を歌ってもらった時の感動は鮮烈でした。
天使が歌っている
こんな美しい声で歌う女性を、私は知らない。私の指示したセリフと音階で独唱する美しい女性の歌声を、少なくとも100回はリピートしてしまいました。
<第二の技術 :動画映像技術>
動画音声技術とは、初音ミクを、ディスプレイ上に実体化して、歌手としての動き(振り付け、ダンス等)を与える技術です【註2】。
映像技術は難しく、その中でも3D映像処理は難しく、さらにそれを動画とする技術はもっと難しく、可動部の種類が30以上もあり、おまけに服や髪の毛のある人間の3D動画作成の難しさは、想像を絶するものでした。
25年前にもなりますが、私も大学の実験レポートの計算結果を、3次元表示させたい一心で、自宅のパソコンを使って計算をしたことがあります。難しくて複雑な変換方程式をそれなりに理解して、プログラミングし、計算結果を一時格納するために夜中に2時間おきに目覚ましをセットして、計算の途中結果の数値をプリンターで印刷しておく等、大変な苦労をした記憶があります。当然、それは線図だけの静止画であり、動画など考えも及ばないことでした。
技術は進歩するものですが、その進歩の度合いは、あまりに衝撃的なものでした。今、私は「ミクミクダンス」という、3Dのコンピュータグラフィックスソフトウェアのデモ画面を見て呆然としています。