Google AI Studio版「PitchSheet Studio」使用方法
基本的な使用方法
PitchSheet Studio の詳細な使用方法についてご説明します。
このアプリは、音声ファイルのピッチ(音高)を精密に解析し、視覚的な「ピッチシート」として画像、PDF、または動画形式で書き出すためのプロフェッショナル向けツールです。
- 基本的な流れ
アプリの使用は大きく分けて以下の4つのステップで行います。
音声のアップロード: 解析したいオーディオファイルを読み込みます。
ピッチ解析: 自動的にピッチが検出され、グラフが表示されます。
表示設定の調整: グラフの範囲、グリッド、感度などを調整します。
書き出し: 画像(タイル状/連結)、PDF(楽譜風)、または動画として保存します。 - 各機能の詳細
① 音声のアップロード
画面中央または上部の「アップロード」エリアにファイルをドラッグ&ドロップするか、クリックしてファイルを選択します。
対応形式: MP3, WAV, AIFF など、ブラウザがサポートする主要な音声形式に対応しています。
読み込みが完了すると、波形解析とピッチ検出が自動的に始まります。
② グラフの閲覧(ピッチシート)
解析が終わると、時間経過に伴う音高の変化が青い線で表示されます。
タイル表示: 長い音声も一定時間(デフォルト20秒)ごとに区切って表示されるため、全体を把握しやすくなっています。
③ 設定のカスタマイズ(サイドパネル)
右側の設定パネルから、用途に合わせて表示を最適化できます。
解析範囲 (Hz): 検出する最低周波数と最高周波数を設定します(例:女声なら高め、男声なら低め)。
グリッド設定:
時間グリッド: 何秒ごとに縦線を引くか設定します。
Hzグリッド: 周波数の目安となる横線を設定します。
感度調整:
RMS閾値: 音量の小さい部分を無視する設定です。ノイズが多い場合に上げます。
Clarity(明瞭度): 音の「はっきり度」です。ピッチが不安定な箇所を除外したい場合に調整します。
A4基準周波数: 基準となる「ラ」の音(通常440Hzや442Hz)を設定します。
④ 書き出し機能
画面下部のボタンから、様々な形式で成果物を出力できます。
画像を保存 (ZIP): 各タイルを個別の画像としてZIP圧縮して保存します。
連結画像を保存: すべてのタイルを縦に繋げた1枚の巨大な画像として保存します。
PDFを保存: 印刷に適した楽譜のようなレイアウトでPDFを生成します。
動画を書き出し (MP4):
ピッチシートが右から左へスクロールし、現在の再生位置(プレイヘッド)が示される動画を生成します。
高速動画化: ブラウザの負荷を抑え、短時間で動画を生成するモードです。 - テクニカルなヒント
ピッチが途切れる場合: 「Max Gap(最大補完時間)」を調整することで、短い途切れを自動的に繋ぐことができます。
低音の精度を上げたい場合: 「FFT Size」を大きく設定してください(ただし動作が少し重くなります)。
動画生成が失敗する場合: 長時間のファイル(10分以上など)は、ブラウザのメモリ制限により動画生成が止まることがあります。その場合は「高速動画化」を試すか、数分ごとに音声を分割して解析することをお勧めします。 - 注意事項
このアプリはブラウザ内で全ての処理(解析・動画生成)を行うため、サーバーに音声データが送信されることはありません。プライバシーに配慮した設計になっています。
動画書き出しには FFmpeg.wasm を使用しており、初回実行時にはライブラリのダウンロードに数秒かかる場合があります。
ご不明な点があれば、いつでもお聞きください。
Configuration(設定)エリア
PitchSheet Studio の Configuration(設定)エリア は、音声解析の精度や、書き出されるピッチシート(グラフ)の見た目を細かくカスタマイズするための重要なセクションです。
以下に、各設定項目の詳細な意味と、調整のコツを解説します。
- 解析範囲とスケール (Analysis & Scale)
Min Frequency (Hz) / Max Frequency (Hz)
内容: グラフの縦軸(音高)の範囲を決めます。
調整のコツ:
男声: 80Hz 〜 400Hz 程度
女声: 150Hz 〜 800Hz 程度
楽器: 楽器の音域に合わせて広げます。
範囲を絞るほど、グラフ上のピッチの変化が大きく(詳細に)見えるようになります。
A4 Reference (Hz)
内容: 基準となる「ラ(A4)」の周波数です(デフォルトは440Hz)。
用途: 442Hzなどのオーケストラピッチで録音された素材を扱う場合に調整します。 - グリッドとレイアウト (Grid & Layout)
Tile Duration (sec)
内容: 1行(1枚のタイル)に何秒分の音声を表示するかを設定します。
調整のコツ: 短くする(例: 10秒)とグラフが横に引き伸ばされ詳細に、長くする(例: 30秒)と全体を俯瞰しやすくなります。
Time Grid (sec)
内容: 縦の補助線を何秒おきに引くか設定します。リズムの確認に役立ちます。
Hz Grid (Hz)
内容: 横の補助線を何Hzおきに引くか設定します。
Hz Label Interval
内容: 周波数の数値を何本おきのグリッド線に表示するかを決めます。 - 解析の精度と感度 (Sensitivity & Precision)
ここが最も重要な「ピッチ検出の質」に関わる部分です。
RMS Threshold (音量閾値)
内容: 「ノイズゲート」のような役割です。この値より小さい音量の部分はピッチ解析を行いません。
調整のコツ: 背景ノイズを拾ってグラフがガタガタする場合は値を上げます。逆に、消え入るような小さな声まで拾いたい場合は値を下げます。
Clarity Threshold (明瞭度閾値)
内容: 音の「はっきり度」の判定基準です(0.0〜1.0)。
調整のコツ: 0.9以上にすると非常に正確な部分だけが残りますが、線が途切れやすくなります。0.6〜0.7程度がバランスが良い設定です。
Max Gap (sec) (最大補完時間)
内容: ピッチが一時的に検出できなかった場合、何秒以内なら線を繋ぐ(補間する)かを設定します。
調整のコツ: 0.1s〜0.2s程度に設定すると、一瞬の息継ぎやノイズによる途切れが綺麗に繋がります。
FFT Size
内容: 一度に解析する音声データの窓サイズです。
調整のコツ:
大きい値 (4096, 8192): 低音域のピッチ検出精度が上がりますが、時間的な解像度は少し落ちます。
小さい値 (1024, 2048): 素早い音程の変化に強くなりますが、低音が不安定になることがあります。 - 外観の設定 (Visuals)
Font Size: ラベル(時間や周波数)の文字の大きさを調整します。
Grid Line Width: 補助線の太さを調整します。
Pitch Line Width: 解析結果の青い線の太さを調整します。
Tiles per Row: 「連結画像を保存」する際、横に何枚のタイルを並べてから改行するかを設定します。 - おすすめの設定手順
まず音声をアップロードし、デフォルトで解析します。
ピッチが低すぎて/高すぎて画面外に出ている場合: Min/Max Frequency を調整します。
線が細かく途切れすぎる場合: Clarity Threshold を下げるか、Max Gap を少し上げます。
無音部分にゴミ(ノイズ)が出る場合: RMS Threshold を少し上げます。
書き出しの見た目を整えたい場合: Tile Duration や Line Width を調整して、理想の密度にします。
これらの設定を組み合わせることで、歌唱分析、語学学習、楽器の調律確認など、様々な用途に最適なピッチシートを作成できます。
「楽譜風PDF」 書き出し機能
PitchSheet Studio の 「楽譜風PDF」 書き出し機能は、解析したピッチデータを紙の楽譜のようなレイアウトで整理し、印刷や資料作成に最適な形式で保存する機能です。
単なる画像の羅列ではなく、音楽的なリファレンス(音階線)が追加されるのが大きな特徴です。
- 楽譜風PDFの主な特徴
A4縦サイズでの自動レイアウト:
解析結果の各タイルをA4用紙に収まるように自動的に並べます。
複数ページにわたる場合も、自動的にページ分割が行われます。
音階ガイドライン(スタッフライン)の表示:
グラフの上に、特定の音程(C, D, E…など)に対応する水平な線を描画します。
これにより、青いピッチ線が「どの音符に近いか」を視覚的に判断しやすくなります。
ノート名のラベル表示:
各行の左端に「C4」「G4」といった音名ラベルが表示され、絶対的な音高の基準を確認できます。
詳細な解析設定の記録:
PDFのヘッダー部分に、使用した基準周波数(A4=440Hzなど)、解析範囲、感度設定などのメタデータが自動的に記載されます。 - PDF専用の設定項目 (PDF Settings)
PDF書き出しボタンの近くにある設定エリアで、以下の調整が可能です。
Tiles per Row (1行あたりのタイル数):
1行に何枚のグラフを並べるかを設定します(デフォルトは2枚)。
1枚にするとグラフが大きく詳細に、3枚以上にすると1ページに多くの情報を詰め込めます。
Highlight Notes (強調する音階):
どの音階にガイド線を引くかを選択できます。
デフォルトでは「C, D, E, F, G, A, B」の白鍵相当の音に線が引かれます。特定のキー(調)に合わせて調整することも可能です。 - 活用シーン
歌唱・演奏の添削: 自分の歌声がどの音程に当たっているかを、楽譜を読む感覚でチェックできます。
レッスンの資料作成: 生徒の演奏記録をPDF化して配布したり、記録として残したりするのに適しています。
オフラインでの分析: 印刷してペンで書き込みをしながら、フレーズのピッチの揺れを細かく分析できます。 - きれいに書き出すためのコツ
解析範囲(Min/Max Frequency)を適切に設定する: 歌っている音域に合わせて範囲を絞ると、PDF上でも音階の線が適切な間隔で表示され、読みやすくなります。
タイル時間(Tile Duration)の調整: 15秒〜20秒程度に設定すると、A4サイズに配置した際に文字や線が潰れず、バランスの良い見た目になります。
この機能を使うことで、デジタルな解析データを「音楽的な資料」として形に残すことができます。