Ollama 0.19：MLX対応によるAppleシリコンでの圧倒的パフォーマンス向上 | 気になる AI ニュース

📝 概要

ローカルAI実行環境のデファクトスタンダードになりつつある「Ollama」が、バージョン0.19においてAppleの機械学習フレームワーク「MLX」を基盤とした最適化を実現しました。このアップデートは、Appleシリコン搭載Macにおける推論速度を劇的に向上させるものであり、パーソナルアシスタントやコーディングエージェントの実用性を一段上のレベルへと引き上げます。ユニファイドメモリ・アーキテクチャのポテンシャルを最大限に引き出すことで、ローカル環境でも商用クラウドサービスに匹敵する応答速度を可能にした点が、本リリースの極めて重要な意義といえます。

📋 詳細レポート

今回のアップデートであるOllama 0.19（プレビュー版）は、Appleシリコンへの最適化を主眼に置いています。MLXの採用により、特に最新のGPUニューラルアクセラレータを備えたチップにおいて、最初のトークン生成までの時間（TTFT）と継続的な生成速度の両面で顕著な改善が見られます。

Appleシリコンへの最適化と性能測定

今回の性能向上は、MLXによるユニファイドメモリ・アーキテクチャの高度な活用によって支えられています。旧バージョン（0.18）と比較したベンチマークでは、プリフィル性能が1154トークン／秒から1810トークン／秒へ、デコード性能が58トークン／秒から112トークン／秒へと、ほぼ倍増に近い飛躍を遂げました。さらに、4ビット量子化（int4）を適用した場合には、デコード性能が134トークン／秒にまで達し、極めてスムーズな対話体験を提供します。

導入された主要技術と新機能

MLXフレームワーク: Appleシリコンの性能を最大限に引き出すために設計された機械学習ライブラリ。
NVFP4フォーマットのサポート: NVIDIAのデータ形式をサポートすることで、推論時のメモリ帯域幅とストレージ要件を削減しつつ、モデルの精度を維持。
インテリジェント・チェックポイント: プロンプトの適切な位置にスナップショットを保存し、計算の重複を避けて処理時間を短縮する機能。
スマートなキャッシュ破棄アルゴリズム: 共有プレフィックスを長く保持することで、会話間でのメモリ使用率を抑制し、エージェント作業の効率を向上。

活用シーンと動作要件

このアップデートにより、Claude CodeやPiのようなインターフェースを通じた、キーボードショートカットによる迅速なモデル切り替えや画像処理、bashの実行といった複雑なワークフローがより快適になります。

現時点でのプレビュー版は、コーディングに特化した「Qwen3.5-35B-A3B」モデルが主な高速化対象となっており、これを十分に動作させるためには32GB以上のユニファイドメモリを搭載したMacが推奨されています。開発者はコマンドラインから直接、あるいはOpenClawなどの連携ツールを介して、この高いパフォーマンスを享受できます。

今後の展望

Ollamaは今後、MLXによる最適化を他のアーキテクチャへも順次拡大していく予定です。また、ユーザーが独自にファインチューニングを施したカスタムモデルを容易にインポートできる仕組みの導入も計画されており、ローカルAIエコシステムのさらなる柔軟性と拡張性の向上が期待されます。