1 /  / 




発話の開始・終了の同定のために
分析法と機器の選定
日本学術振興会・京都大学
長岡千賀

1-1



発表者の背景


 ・大阪大学人間科学研究科
 
感性情報心理学講座(中村敏枝教授)出身(04年03月まで)


 ・キーワード:音声対話・対話の「間」(反応潜時)

1-2



発話開始・終了の同定
    手順
     1.声の大きさ・強さを分析する
     2.分析データを手がかりに発話の開始・終了を同定する

1-3



声の大きさ・強さの分析方法
■ 音圧レベル(Sound Pressure Level: dB)
  
・比較的一般的なソフトで分析できる
  ・これまで多くの研究で基準として使用されている
 デメリット:物理量である・人間の聴覚特性に忠実とはいえない


■ 騒音レベル
(A-weighted Sound Pressure Level: dB(A) )
  
・人間の聴覚特性に合わせて補正されている
 デメリット:これまで騒音レベルを分析できる機器が高価だった
 SA-29(1チャネルタイプ)
 大きさ:約21×30×8 cm
 価格:100万前後

1-4



音圧レベルの分析:
例えば,音声処理ソフトウェア「音声工房」を用いて
http://www.sp4win.com/
・表示された音声データに対し
パワーの時間変化を表示する。
・テキストデータを出力する。

・2チャネルの音声ファイルを扱える。
・長時間の音声ファイルを扱える。

・ピッチ、ほかを分析できる。

  標準価格 ¥60,900(税込み)
  NTTアドバンステクノロジ(株)
 SugiSpeechAnalyzer((株)アニモ)は対話データには不向き
   ・・・テキストデータに出力できない
   ・・・長時間の音声ファイルを扱えない
   ・・・扱えるのは1チャネルのみ

1-5



騒音レベルの分析
・音響測定分析システム DSSF3(吉正電子株式会社:YMEC )を用いて

http://www.ymec.com/store/jp/
DSSF3 Full-system
Version \78,000

 この会社のサイトでは音響計測の事例を多数紹介
 また、メールでの問い合わせにも丁寧に答えてくれる

1-6



DSSF3を用いた分析法
・対話の「間」の検討では、
 時定数10msec
*で、
 10msec
*ごとに分析する
 (*時間分解能が高い例.研究目的により変える)
1. リアルタイムアナライザ(RA)
   ランニングACF測定 (右図)
           ↓
2. サウンドアナライザ(SA) (下図)
の数値を測定

1-7



分析データ中に発話開始と終了をマークする
最大レベルマイナス30dB(A)*,或いは60dB(A)*† を
  発話ON・OFFの基準としてマークする
 *ヘッドホンで聴取して分析した場合とよくフィットする
 
絶対的な値を分析するためには
 収録時に基準音の収録と測定が必要

1-8

1 /  /