gpt-oss-20b – LM Studio でローカルモデルを使う

COMPUTER / AI

LM Studio

gpt-oss について。WAVEFORM LAB は音楽制作の話題が多いのだがデジタルライフの話題として、AI の話。仕事のことはブログではあまり書かない(そう決めていた時期もあったが、実際は息抜きにならないから)。個人的には 97年当時のインターネットプロバイダー戦争(笑)や、ストリーミング技術、音楽配信におけるカタログインデックスや権利処理、電子書籍サービスなど、結構面白い体験をしてきたのに、ブログには書いてないので、「あー、もっと書いておけばよかったな」なんて思う。

で、現在はイノベーション・ラボの責任者をしていて AI の仕事をしている。コンテンツサービスに生成 AI やベクトル・グラフデータベース技術を応用して、セマンティックな情報検索や適切な要約生成とかがテーマだ(スピードが爆速な世界なので疲れている)。ということで、今回は openai-gpt-oss の話。

gpt-oss 20b – ローカルモデルを使う

openai-gpt-oss は OpenAI がリリースしたオープンウェイトな言語モデル。OpenAI はここのところ、クローズドな言語モデルを開発してきたが、この gpt-oss はローカルで動かせるだけでなくオープンウェイト、つまりモデルパラメータを指定することもできる。モデルは gpt-oss-120b と gpt-oss-20b の2つが幅広な Apache 2.0 ライセンスで公開されていて、特に 20b は 16 GBのメモリで OpenAI o3‑mini 相当の性能を発揮する。

これまで生成AIを使ったシステムを開発する際は、API 経由で OpenAI のモデルや Anthropic Claude を呼び出すことが多かったのだが、これだと機密データを API 経由で他社に渡して処理することになる。またこれらのモデルは API アクセスのみを許されてて、固有のモデルチューニングはできない。また、API 経由の利用は従量で費用が発生するので、このコントロールも問題だ。実際のシステム開発では、簡単なタスクは軽くて安いモデル、難しいタスクは上位モデル、レイテンシを稼ぐモデルは違うモデル、と使い分けることになり、結構大変なのだ。

なので、ローカル環境(パソコンのことではなく、保有しているシステム環境)でモデルを動かそうとするんだけど、オープンソースで使える Meta の Llama 3.x とか Google Gemma とか、日本語なら Preferred Elements PLaMo を使うことになっていた。それが、OpenAI の高性能モデルを使えて、かつオープンウェイト、ということで盛り上がっている次第である。

LM Studio で誰でもローカルモデルを試せる

ローカルモデルの実行は、LM Studio というアプリを使えば、クリック操作だけでローカルモデルを実行できる。メジャーなモデルは検索窓から検索・ダウンロードができるし、モデル実行する際の条件も UI から指定できるので便利だ。LM Studio をインストールしたら、導入はスリーステップ。

gpt-oss-20b LMStudio

  • 上部の検索ボックス Select a model to load をクリック、”gpt-oss” と入力・リターン
  • 一番上に表示される OpenAI’s gpt-oss 20B をクリック、右しアの Downlad をクリック
  • ダウンロードが完了したら Load Model でモデルを読み込む

モデルをダウンロードし、適切なフォルダに配置してくれる。環境によっては gpt-oss 20b は辛いかもしれないので、同様の手順で google/gemma-3n-e4b、冷やかし半分で deepseek/deepseek-r1-0528-qwen3-8b も導入しておこう。gemma-3n-e4b は 4年前の M1 Pro の MacBook Pro でもビュンビュンに動いてくれる。モデルは結構サイズを食うので注意。 gpt-oss-20b で 12.1 GB、gemma-3n-e4b が 5.86 GB、deepseek-r1-0528-qwen3-8b で 4.62 GB だ。

Models

ではモデルを読み込んでみよう。Load Model をクリックした際に警告が出たら、マシンスペック的に安定動作に問題がある、ということになる。「ガードレールの設定(Guartdrails)」を緩和してみよう。ガードレールは、デフォルトが Strict だが、Relaxed または oFF にすれば少々強引に動かすことができるはずだ(けど、遅いだろう)。

Mac mini M4 Pro – 14 Core CPU – 20 Core GPU – 16 Core Neural Engine / 24GB メモリ の構成だと、gpt-oss 20b は何のストレスもなく動作する。M1 Pro 10 Core CPU – 16 Core GPU – 16 Core Neural Engine / 16GB メモリだと、かなりキツい。CPU というより、メモリが足りないんだろうな。

モデルインストールが終わったら、普通の ChatGPT のように会話してみよう。遜色ない回答品質に驚くだろう。例えば、「最新の iPhone について教えて」と目例してみよう。バッチリ回答が表示されると思うが、内容の大半はハルシネーションだ。ローカルで動作しているので、ChatGPT のような Webブラウジング機能が動作しない。「言語モデル的に確率的に構成された文章」を出力するだけであることに注意が必要だ(これがローカルなモデルの特色だ)。

deepseek をインストールしたら、このモデルが苦手な政治的な話題をふってみよう。このようにラーニングしているデータの偏り(とチューニング)により、モデルの性格はかなり変わってくる。

deepseek-r1-0528-qwen3-8b

なんか辛そうな回答

gpt-oss 20b は、o3-miniと同等クラスの性能を発揮する 200億パラメータのモデルだ。トークンサイズは十分な大きさの 128k(LM Studio のデフォルトサイズは小さく設定してある)。段階的推論 CoT(Chain of Thought) に対応しており、Reasoning Effort(推論努力)を low / medium / high で設定できる。

言語やコードの扱いについては全くもって現実的な性能で、モデルをローカルで動かしていくハードルもかなり下がってきた。性能や品質がころころ変わるクローズドモデルを使うよりも、ローカルモデルを使った方が性能が安定する。AI エージェント的な自律的な振る舞いをするタスクもクローズドモデルに投げっぱなしになるよりも、管理・統制しやすい。機密性・プライバシーを考えると、システム開発だけでなく、プライベートで使うモデルもローカル・オンデバイスを選択する人も増えてくるだろう。

COMPUTER / AI
この記事をシェアしてくれると、とても嬉しい😆
Follow Me !
波形研究所 所長

WAVEFORM LAB(ウェーブフォーム・ラボ) は音楽制作、デジタルライフ、イノベーションをテーマとするサイトです。

1997年、伝説の PDA、Apple Newton にフォーカスした Newton@-AtMark- を開設、Newton や Steve Jobs が復帰した激動期の Apple Computer のニュースを伝えるサイトとして 200万アクセスを達成。2001年からサイトをブログ化、2019年よりサイト名を WAVEFORM LAB に改称、気になるネタ&ちょっとつっこんだ解説をモットーにサイトを提供しています。

Follow Me !
WAVEFORM LAB

コメント

タイトルとURLをコピーしました