TDK
Tech-Mag TDK Techno Magazine 〜テクマグ〜
サイト内検索
メールマガジン登録個人情報保護基本方針
home
電気と磁気の?館
じしゃく忍法帳
フェライト・ワールド
column
テクの雑学
アースサイエンス&TDKテクノロジー
パワーエレクトロニクス・ワールド
コンデンサ・ワールド
なるほどノイズ(EMC)入門2
なるほどノイズ(EMC)入門1
過去の読み物

TDKホームページ
 トップページテクの雑学 > 第186回 歌詞とメロディーを入力して自然な歌声を合成する技術 〜VOCALOID™を知る〜
テクの雑学

第186回 歌詞とメロディーを入力して自然な歌声を合成する技術 
〜VOCALOIDTMを知る〜

 ポピュラー音楽シーンにおいて「VOCALOIDTM(以下、ボーカロイド)」の存在感が高まっています。ネット上の投稿サイトだけではなく、プロのミュージシャンが作品中に使うケースも増えつつあります。今回は、そんなボーカロイド」について取り上げてみたいと思います。

 現代の商用音楽の「レコーディング」が、さまざまなデジタル技術を駆使することで成立しているのはご存知でしょう。伴奏部分はミュージシャンが楽器を演奏するのではなく、「サンプリング音源」や「デジタルミュージックシーケンサー」といった自動演奏用の機材を使って作り上げる、いわゆる「打ち込み」と呼ばれる音楽作成手法が一般化しています。その伴奏部分を再生しながら、歌手が「歌入れ」を行うわけです。ミュージシャンの演奏による録音の場合でも、録音プロセスやミキシング、マスタリングといった工程はデジタル化されているのが普通です。

参考情報
テクの雑学・第62回「いつの時代もいい音で −CDの「デジタル・リマスタリング」ってなんだ?−」

DTMで一括管理
デジタル機器による自動演奏とDTMのイメージ

 また、パソコンの普及と処理性能の高度化にともなって、DTM(Desk Top Music)と呼ばれるコンピュータを使った音楽作成手法も一般化しています。DTMを定義することは難しいのですが、ここではとりあえず「コンピュータの仕組みを使って作曲、編曲、演奏を行う作業」と考えてください。デジタルシンセサイザーやデジタルミュージックシーケンサーなどの専用機も、構造的にはコンピュータそのものなのですが、DTMはそれらと同等の機能をパソコン用の周辺機器やソフトウェア化したものを使い、コンピュータ上の作業によって音楽を作り上げることを指しています。

 専用のデジタル機器を用いた音楽制作は、①「作曲=楽譜(スコア)作成」②「編曲=譜面に対する音源の割り当て」③「音色や演奏表現の調整」というインプット作業を経て、④ミキサーを使って各音源のバランスを調整、そして⑤「自動演奏」というアウトプットに至ります。専用機を使った作業では、シーケンサーと音源ボードやサンプリングマシンなどをMIDI(Musical Instrument Digital Interface)という規格によって相互に連携させることで一連の作業を行うことになります。シーケンサーは自動演奏用データの作成と、連携する機材に演奏用の命令を発行します。「音源」は、シーケンサーからの命令に応じて実際に「音」を鳴らすための素材集です。シーケンサーを指揮者、音源を楽器ならびに演奏者と考えると理解しやすいかもしれません。

 この一連の作業を、すべてコンピュータの内部で完結させてしまうのがDTMです。DTMも「シーケンサー+音源」による演奏を行うのですが、それらが一体のパッケージとなった、通称でDAW(Digital Audio Workstation)と呼ばれるソフトウェアを用いることが特徴です。シーケンサーなどのMIDI機器を、コンピュータ上で仮想化して扱う作業と考えてもいいでしょう。

 ボーカロイドは、DTM用の合成音声を自動演奏するためのツールとしてヤマハが開発したシステムで、DTM用のシーケンサー機能付き歌声合成音源のようなものです。パッケージに収録している音が楽器のものではなく、人間の音声であることに加えて、演奏上、音声を単なる「音」ではなく「歌唱」として自然なものとするため、さまざまな「音声合成技術」による工夫を盛り込んでいることが特徴です。

 パッケージ製品としてはヤマハ製のもの以外に、基本システムのライセンス供与を受けた各社が独自の拡張を加えたものも販売されています。たとえば「初音ミク」は、ヤマハからVOCALOIDTM2のライセンスを受けたクリプトン・フューチャー・メディア社が、独自に起用した声優の音声を使ってパッケージ化したソフトウェア、という位置付けになります。

一筋縄でいかない合成音声
タイミングの調整

 音声合成技術によって得られる音声を「合成音声」と呼びます。現在、一般に入手できるコンピュータは、ソフトウェアとしての合成音声を扱うのに十分な処理能力を備えていますから、音源としての合成音声と、その音程を調整しながら連続的に音声を再生するソフトウェアさえあれば、とりあえずの「演奏」は可能です。しかし、それだけではいかにも人工音声がぎこちなく発声している、いわゆるロボットボイスのような状態になりがちです。

 たとえば、譜面上で「あ」という声を長く伸ばす(サスティーンをかける)ように指定されている場合、ただ単に「あーーーー」と棒読み的に演奏したのでは「歌唱」として不自然に聞こえがちです。実際に人間が歌う場合には、声帯が振動を始めてから所定の周波数に達するまでの時間的な遅れや、肺から送り出される空気の量を常に一定に保つことが難しいといった物理的な事情から、「あぁあぁ〜〜〜」といった具合に「揺らぎ」を伴うのが普通だからです。

 さらに、微妙に音程を変えたり、わざとタイミングをずらして発声したりといった「表現」が、ごく自然に加味されます。このような要素が個々の歌手の個性を生み出したり、また音楽ジャンルごとの特徴点となっていますから、合成音声による演奏を「歌唱」に仕上げるためには、そのような人間の歌唱の特徴点や演奏表現をも再現することが必要になります。ちなみに、このような「微妙な音程の変化」や「タイミングのずれ」が「演奏表現」となるのは楽器音の場合でも同じで、演奏者に特有の「グルーブ感」と呼ばれる味わいを生み出す元となっています。

 また、日本語の場合、歌詞に割り当てられている音が母音なのか、それとも子音なのかによって発声のタイミングが異なる特徴もあります。たとえば、母音である「あ」の場合は音符通りのタイミングで「a」と発声すればいいのですが、「さ」の場合は「Sa」の「a」の部分が音符の位置に合っていないと拍がズレて聞こえてしまうのです。つまり、合成音声による自動演奏を自然な歌唱として聞かせるためには、歌詞に使われている文字が母音なのか子音なのか? を判断して発声のタイミングを自動的に調整する機能が必要となるわけです。このような演奏表現を自動的に適用するためのさまざまな仕組みが、「合成音声による演奏」を「歌唱」として成立させる上で重要な要素になっています。

 「音源」の作成方法も楽器とは異なります。楽器の場合、極端に言うと、鍵盤楽器なら備わっている鍵盤の数だけ音をデジタル録音(サンプリング)してしまえば、あとは波形の編集でさまざまな表現が可能になります。しかし、音声を用いた「歌唱」を実現するためには、日本語なら50音だけを発声して録音すれば済むというものではありません。歌唱表現の中では、さまざまな中間音や無声音、言語ごとに特徴的なフォルマントといった要素が重要になる場合もあります。そのような表現を実現するため、ボーカロイド用音源は各言語ごとに固有の「音素(おんそ)」と呼ばれるレベルに音声を分解し、そのすべてを収録する作業が必要になります。

 以前は音素採取のため専用に開発された「意味のない歌詞」を元音声の持ち主に歌わせていましたが、生身の歌手にとっては非常に負荷の高い作業だったことから、現在は意味のある歌詞によって収録できるように改良されています。とはいえ、すべての音素を収録するためには2時間程度歌ってもらわなければならないという、大変な作業を経ているそうです。

前のページへ | 1/2 | 次のページへ

ページtop
HOME 電気と磁気の?(はてな)館 アースサイエンス&TDKテクノロジー テクの雑学 コンデンサ・ワールド
Copyright(c) 1996-2014 TDK Corporation. All rights reserved.
※記事の内容は、記事掲載時点での情報に基づいたものです。一部、現在TDKで扱っていない製品情報等も含まれております。
TDKホームページは、Internet Explorer5.5以降、Netscape Navigator7.0以降でご覧いただくことを推奨しています。