ROGUE AMOEBA Audio Hijack 4 – ローカルでモデルを動かして、音声の文字起こしができるようになってる

ファーストバージョンからのユーザである ROGUE AMOEBA Audio Hijack をアップグレードした。単純に Mac で鳴らしている音楽を Audio Units のオーディオ・アナライザーを通して聴きたいな、と思って Audio Hjimack を使おうと思って立ち上げたら V4 の案内が出たので 32ドル（$29+Tax）で有償アップグレードした。

いろいろ機能が追加されているのだが、Transcribe というブロックがある。なんとローカルでディクテーションモデルを動作させる「文字起こし機」だ。好きなオーディオ（会話）をテキスト化できる。面白いので使ってみた。

ROUGE AMOEBA Audio Hijack 4
Transcribe（文字起こし）
1. 歌唱を文字起こし・英語でやってみる
2. 日本語を試してみる
Audio Hijack 4 オススメ

ROUGE AMOEBA Audio Hijack 4

Audio Hijack は macOS 内のオーディオ・ルーティングを奪って（ハイジャック）処理できるアプリケーションだ。System や Application、Input デバイスのデジタルオーディオをハイジャックしてきて、レコーダーやエフェクター、ミキサーなど、いろんな機能ブロックを組み合わせることでオーディオ処理が行える。

昔だと、インターネット・ラジオの放送を録音するのに使ったり（タイマーとセットして子供の英会話放送を自動録音してた）、Steve Jobs 時代にAppleExpo（ Macworld Expo ）の Keynote Speech を録音するような使い方をしていた。

単純なオーディオルーティングなら、同じ ROUGE AMOEBA の Loopback があって、これが便利で使っているのだが、今回は AU プラグインを刺したい。 Loopback に AU プラグインは使えないので、Audio Hijack の出番となったわけ。

Transcribe（文字起こし）

最近は Microsoft Teams にも付いているディクテーション機能だが、これがネットアクセスなしに手元で使えるのは便利だ。

Audio Hijack の Transcribe では Low Resources / High Accuracy の 2つのモデルを選択することができる。初回仕様時にモデルをダウンロードするみたいだ。モデルは ~/Library/Application Support/Audio Hijack 4/models にインストールされる。whisper-good.bin が 148MB、whisper-best.bin が 3.09GB 。おそらく OpenAI の whisper モデルだろう。

English、日本語はもちろん、非常に多くの言語に対応している。Intel iMac で使うとこんなメッセージが出る。

Transcribe works best on Apple Silicon-based computers.It may perform poorly on this older intel-based Mac

一言余計だ。

歌唱を文字起こし・英語でやってみる

音声認識・文字起こしのための機械学習モデルを使っているのだから、やはり英語の方が性能が出そうだ。英語のディクテーションは YouTube でよく見るので、ここは「歌」を文字起こししてみよう。

既存の楽曲からボーカルを抜き出すような行為は著作権の問題もあるので、自分の楽曲で使った女性ボーカルを使う。単なる会話ではなく「歌」なので、少し難易度が上がるが、OpenAI の whisper だったら問題なかろう。自分の楽曲で歌詞が付いているのはこれくらいしかない。

楽曲から歌詞を聴き取るのは大変だろうから、女性ボーカルの歌唱トラックのみを通してみる。設定は High Accuracy + Language : English だ。Intel Core i5 の 6つのコアがカリカリに計算する。

結果はこんな感じ。読みやすく改行を入れています。

 [00:00:00.12] Ableton Live 12 Suite :
 ♪ I'm not asking for your time ♪
 ♪ I'm just craving for you ♪
 ♪ I know I'm running through your head ♪
 ♪ I think you wanna share a moment too ♪
 ♪ When I'm floating in your mind ♪
 ♪ You feel me all over with your eyes ♪
 ♪ Playing the sheets all night ♪
 ♪ And I can't help but think of you ♪
　^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
 ♪ And in the morning, I'm not through with you, not through with you. ♪

ほう、なかなか。いや、下線部分の歌詞は歌ってないぞ。文章はしっかりしているが、１行まるごとハルシネーション（Hallucination）が発生している。うん、これは OpenAI whisper だな、これは。ちなみに再度同じテストをすると下線部分は現れなかった。

日本語を試してみる

では、日本語の場合はどうだろう。設定は High Accuracy + Language : Japanese にして試してみる。YouTube 公式アカウントにあがっていたアニメの冒頭ナレーションだ。

 [00:00:00.01] Safari:
 人類がえすぎた人口を に民させるようによってすでに半世紀が過ぎてきた地球の周りの大な人口落としは 人類の第二の故となり人々はそこでて て そして死んでいった 世紀0079 地球から最も遠い都市サイドスリーはジオン公国を名り地球連政府に立を挑んできた この1月りのいでジオン公国と連軍は人口の半分を死にいたらしい自らの行為に恐怖したは着態にえ、8月りに過ぎたガンダム、大地に立つ!

うーん、「ガンダム、大地に立つ!」だけ句読点も感嘆符も付いているあたり、「学習にコンテンツを使いました！」という感じだな。やっぱり Web ページは学習に使われているんだな、と。ちょっと結論が変わっちゃったが。

Audio Hijack 4 オススメ

ということで、Audio Hijack 4 、オススメです。本来の目的である音楽再生時の解析も楽しいです。