取り上げられているツール一覧
本記事では、以下の3つのローカルLLMモデルを比較・評価します。
- Qwen3 (8B)
- LLM-jp-4 (8B)
- Gemma3 (4B)
各ツールの特徴
比較対象となる3つのモデルは以下の通りです。
- Qwen3: Alibabaによって開発された8Bモデル。
- LLM-jp-4: 国立情報学研究所を中心とする国内コンソーシアムによって開発された8Bモデル。
- Gemma3: Googleによって開発されたモデルで、今回は4Bサイズを使用。
Gemma3には1B、4B、12B、27Bといったサイズが存在しますが、8B付近のサイズは提供されていません。今回は、メモリ容量とトークン生成速度を考慮し、Ollamaのデフォルトである4Bサイズを選択しました。8Bと4Bでサイズが異なる点は、結果の解釈において考慮されます。
Gemma3のセットアップ
Gemma3はOllamaのライブラリに登録済みのため、Hugging FaceからGGUFファイルをダウンロードする手間なく、ワンコマンドで取得可能です。
ollama pull gemma3
このコマンドはOllamaの公式ライブラリからモデルをダウンロードします。タグを指定しない場合、そのモデルのデフォルトサイズ(Gemma3の場合は4B)が取得されます。別のサイズを使用したい場合は、ollama pull gemma3:12bのようにタグを指定します。
ダウンロード後、ollama listコマンドでモデルが揃っていることを確認できます。
用途別の選び方
5つの質問を全モデルに同じ文面で投げかけ、温度などのパラメータは各モデルのデフォルト設定を使用し、モデルごとの個性をそのまま比較します。質問は以下の5つです。
- ねじれ二層グラフェンで観測される超伝導について、原理と最近の研究動向を教えてください。
- 室温超伝導の研究はどこまで進んでいますか?
- 論理矛盾の検出(短い文章を提示して矛盾点を3つ挙げさせる)
- 子供に量子力学を説明するとしたら?
- 2025年の生成AIの主なトピックを教えてください。
質問1と2は物性物理の専門的な話題であり、筆者自身が回答に赤入れを行います。質問3は8Bクラスのモデルの限界を試す論理推論の課題です。質問4と5は汎用的な質問で、回答の雰囲気の違いを確認します。
評価の軸
評価は以下の4つの軸で行われます。
- 具体性: 固有名詞、数値、年代の含有量。
- 情報の新しさ: 知識のカットオフ時期や最近の話題への対応力。
- 読みやすさ: 構造、冗長さ、日本語の自然さ。
- 正確性: 事実との合致度。専門質問2問に限り、筆者が踏み込んで判定します。
質問1: ねじれ二層グラフェンの超伝導
質問文: ねじれ二層グラフェンで観測される超伝導について、原理と最近の研究動向を教えてください。
Qwen3の回答概要
ねじれ二層グラフェン(tBLG)の超伝導現象について、原理と最近の研究動向を解説。原理として、ねじれ角によるモアーパターンの形成、平坦なバンド構造、電子間相互作用の重要性を指摘。超伝導メカニズムの可能性としてBCS理論の拡張や非伝統的メカニズム(SDW、CDW、スピン三重項ペアリング、Kondo効果)に言及。魔法のねじれ角(1.1°)についても触れています。最近の研究動向では、超伝導臨界温度の向上(2023年の研究)、tBLGの拡張(tTLG、2022年の研究)、電子間相互作用と磁場の影響、理論モデルの進展(DFT、機械学習)について記述。課題と今後の展望として、ねじれ角の制御、安定した超伝導相の維持、メカニズム解明、応用への道筋(量子コンピュータ、磁浮技術)を挙げています。
LLM-jp-4の回答概要
「Twisted Bilayer Graphene (TBG)」について、2枚の単層グラフェンを微小な角度で重ねた構造が電子バンド構造を周期的に変調し、強い相互作用とゲージ場効果を生み出すことで超伝導現象が現れると説明。回答は①超伝導が現れる物理的メカニズム、②主な実験結果とその特徴量、③最近の理論的進展と新しい提案の3部構成を予定していることを示唆しています。文献は2023–2024年のレビューとプレプリントを中心に引用するとしていますが、リンクは省略するとのことです。
共通する選定ポイント
本記事では、ローカルLLMの性能を物性物理という専門分野の質問で評価し、専門家による赤入れを行うことで、各モデルの強みと弱み、そして現実的な利用範囲を明らかにすることを目的としています。特に8Bクラスのモデルがどこまで実用に耐えうるか、将来的なハードウェア投資の判断材料となるような情報を提供することを目指しています。
まとめ
Qwen3、LLM-jp-4、Gemma3の3モデルは、それぞれ異なるアプローチで物性物理の質問に回答しました。Qwen3は原理から最新動向、課題まで網羅的に解説しようと試みており、LLM-jp-4はメカニズムや実験結果、理論的進展といった構成で回答を整理しようとしています。Gemma3(4B)は、8Bモデルと比較して情報量や専門性の面で差が見られる可能性があります。専門的な質問に対する回答の正確性や具体性、情報の新しさといった点で、各モデルの特性が浮き彫りになりました。特に物性物理のような専門分野でのLLMの活用においては、ファクトチェックと専門家による検証が不可欠であることが示唆されます。
出典: https://zenn.dev/black_lotus/articles/2f68d0790002d9
Daily AI Tools
最新AIツールを毎日日本語でレビュー
副業・スタートアップ・中小企業のDX推進に役立つAIツールの使い方、料金比較、活用事例を毎朝配信。


コメント