top of page

AIエージェント講座Workshop 1:コンテキストウィンドウとAPI料金の技術進化 〜LLMへの知識提供が実用的になった理由〜

  • ynakahira
  • 10月25日
  • 読了時間: 12分

AIエージェント講座Workshop 1で体感した技術進化


株式会社PROMPT-X(プロンプトX)はIoP技術者コミュニティ「施設園芸農業と生成AIエージェント活用 ワークショップ」の講師を務めました。前回の記事では、ワークショップ全体の概要と第1回開催(2025年10月10日)の様子をお伝えしました。


📎 前回記事:


今回は、Workshop 1「LLMへの知識提供」で参加者に体感していただいた、コンテキストウィンドウの拡大とAPI利用料の低下という2つの技術進化に焦点を当てて解説します。AIエージェントの前段となる内容ですが、AI利用がコスト面で実用的になってきていることを紹介しました。



コンテキストウィンドウの劇的な拡大


LLM(大規模言語モデル)の「コンテキストウィンドウ」とは、モデルが一度に処理できる情報量(トークン数)のことです。この数年で、コンテキストウィンドウは驚異的な成長を遂げています。


ree

歴史的な推移


客観的なデータを見てみましょう:


  • 2018-2019年: 512-1,024トークン

  • 2020年代初期: 2,048トークン(GPT-3初期)

  • 2023年中期以降: 年間約30倍のペースで成長

  • 2024年2月: Gemini 1.5 Pro (1M) - 1,000,000トークン

  • 2024年6月: Gemini 1.5 Pro (2M) - 2,000,000トークン(現時点で最大)

  • 2025年現在:

    • GPT-5 API: 400,000トークン(入力272,000 + 出力128,000)

    • Claude Sonnet 4: 200,000トークン(標準)/ 1,000,000トークン(ベータ版)

    • Gemini 2.5 Pro: 1,000,000トークン


コンテキストウィンドウの推移
コンテキストウィンドウの推移


この成長は指数関数的です。わずか5-6年で、1,000倍近く拡大しています。

具体的にどれだけの情報量か?


数字だけではイメージしにくいので、日本人に馴染み深い文学作品で例えてみましょう。夏目漱石の『坊っちゃん』は約96,000文字です。日本語の場合、1文字あたり約1-2トークンに相当するため、坊っちゃん1冊分は約96,000-192,000トークンと推定できます。


夏目漱石
夏目漱石


文庫本
文庫本



2018年のモデル vs 2025年のモデル


2018年(512トークン)

→ 坊っちゃんの最初の数ページしか扱えない


2025年(400,000トークン)

→ 坊っちゃん3冊以上の情報を一度に理解し、それを踏まえて回答を生成できる


文庫本数冊を扱えるコンテキストウィンドウ
文庫本数冊を扱えるコンテキストウィンドウ

APIとUIの違い


重要なポイントとして、ChatGPTのUIとAPI経由では扱える情報量が大きく異なります:


ChatGPT UI

  • 無料版: 8,000トークン

  • Plus: 32,000トークン

  • Pro/Enterprise: 128,000トークン

GPT-5 API

  • 400,000トークン(Plus版の12.5倍


(出典: All Things How "GPT-5 Context Window Limits and Usage"


ChatGPT UIとAPIの比較
ChatGPT UIとAPIの比較

この違いは非常に重要です。ChatGPT Plusユーザーでも、Web UIでは32,000トークン(坊っちゃん0.3冊分程度)しか扱えません。


だからこそAPI利用が重要: 開発者向けツールを使うことで、UI版の限界を超えた活用が可能になります



API利用料の劇的な低下


コンテキストウィンドウの拡大だけでは、実用性は限定的です。大量のデータを処理できても、コストが高ければ個人や中小企業は使えません。しかし、API利用料も同時に劇的に下がっています。


コストカット
コストカット

価格推移の実データ


OpenAIは2つのアプローチで劇的なコスト削減を実現しています:


既存モデルの価格削減

GPT-4(2023年Q1 → 2025年Q1):

入力トークン: $0.03/1K → $0.0025/1K(91.7%削減


性能別モデルラインナップの拡充(GPT-5シリーズ)

  • gpt-5-pro: $120/100万トークン(最高性能)

  • gpt-5: $2.50/100万トークン(標準性能)

  • gpt-5-mini: $0.50/100万トークン(軽量版)

  • gpt-5-nano: $0.10/100万トークン(廉価版)


用途に応じて最適なモデルを選択できるようになりました。廉価版であるgpt-5-nanoでも、シンプルなタスクには十分な性能を持っています。


(出典:

- OpenAI Pricing(2025年10月25日取得)https://openai.com/api/pricing/

- AI Street "Cheaper by the Token: The Declining Price of AI"(2025年10月25日取得)https://www.ai-street.co/p/cheaper-by-the-token-the-declining-price-of-ai)



OpenAI API料金の変遷
OpenAI API料金の変遷

時系列で見ると、2023年のGPT-4登場時($30/1M)から2025年のGPT-5シリーズまで、既存モデルの価格削減と多様な価格帯の登場という2つの進化が見て取れます。


具体例:坊っちゃん1冊分の処理コスト


坊っちゃん1冊分(約10万トークン)を入力した場合、コスト削減がどれほど劇的かを見てみましょう:


坊っちゃん1冊分の料金比較
坊っちゃん1冊分の料金比較

※為替レート: 1 USD = 150 JPY

※坊っちゃん1冊分(約10万トークン)の処理費用(入力トークンのみ)


かつて¥450かかっていた処理が、2025年の廉価版モデル(gpt-5-nano)ではわずか¥2で済むようになりました。これは99.6%のコスト削減です。


安い!
安い!


主要LLMプロバイダー間の価格競争



主要LLMプロバイダーの価格帯比較(2025年)
主要LLMプロバイダーの価格帯比較(2025年)

Claude(Anthropic)やGemini(Google)も同様に、超高性能から廉価版まで幅広い価格帯のモデルを提供しています。特にGeminiの2.0 Flash-Lite($0.075/1M)は、OpenAIのgpt-5-nanoよりさらに安価です。


各社がベンチマークスコアを公開していますが、実際にどのモデルを使うかは自分のタスクで試してみることをお勧めします。価格と性能のバランスは、タスクの性質(要約、翻訳、コード生成など)によって変わってきます。廉価版で十分な場合も多く、まずは低価格モデルから試してみるのが賢明です。


今回のワークショップでは、リリースが最新のGPT-5の廉価版(gpt-5-nano)と、高性能を謳いながらも他社と比べてリーズナブルなGemini 2.5 Proを使用しました。実際に両モデルを体験していただくことで、価格と性能のバランスを実感していただけたと思います。


(出典:

- Claude API Pricing(2025年10月25日取得)https://docs.claude.com/en/docs/about-claude/pricing

- Gemini API Pricing(2025年10月25日取得)https://ai.google.dev/gemini-api/docs/pricing)



2つの進化がもたらす実践的価値


これら2つの技術進化(コンテキストウィンドウの拡大とAPI料金の低下)が、実際にどのような価値をもたらすのか。Workshop 1では、参加者に体験していただきました。


知識提供前後の比較:廉価版gpt-5-nanoで実証


知識提供前


参加者が廉価版のgpt-5-nanoに「高知県のIoPについて教えてください」「SAWACHIクラウドの実績を教えてください」と質問すると、一般的なIoT基盤の説明に終始し、具体的な固有名詞や実績データは出てきませんでした。


これは、LLMの学習データにはカットオフ(期限)があるためです。例えばgpt-5は2024年5月末までです(※2)。それ以降の最新情報や、高知県という地域に特化したニッチな取り組みは、学習データに含まれていない可能性が高いのです。


知識提供後(315,000文字のIoPニュース記事を提供)


Workshop 1では、約315,000文字のIoP関連知識(過去のニュース記事223本、※3)をLLMに提供しました。これは坊っちゃん約3.3冊分の情報量に相当します。


このワークショップでは、参加者の皆さんに「廉価なgpt-5-nanoでも実用的なタスクに十分な性能を持っている」ことを実際に体験していただきました。315,000文字(坊っちゃん3.3冊分)のIoP知識を提供するコストは、gpt-5-nanoなら約¥3


同じ質問に対して、gpt-5-nanoは以下のような具体的な情報を含む回答を生成できました:


  • ✓ 最新の取り組み(「大阪万博での展示」「ロボット実証実験」など)

  • ✓ 大臣の視察など


知識提供後のgpt-5-nanoの返答
知識提供後のgpt-5-nanoの返答


315,000文字もの専門知識をわずか数円で提供でき、廉価版モデルでも十分な性能を発揮するという事実は、「高価なモデルでなければAIは役に立たない」という思い込みを払拭するのに十分ではないでしょうか。


AIエージェント開発におけるコストの壁は、もはや存在しない――その確信を参加者の皆様に持ち帰っていただくことが、このワークショップの核心でした。



技術進化がもたらす可能性


コンテキストウィンドウの拡大とAPI料金の低下は、AIエージェント開発に民主化をもたらすと考えています。


AI開発が現場課題に役立つように


かつて¥353かかっていた処理が¥1で済むようになり、数千文字しか扱えなかったモデルが数十万文字を扱えるようになりました。これにより:


コスト面での参入障壁が大幅に低下

試行錯誤しながら開発しても、費用を気にせず実験できる


専門知識の提供が現実的に

業界特有の知識、社内文書、過去の実績データなどを丸ごとLLMに提供できる


小規模プロジェクトでも高度な機能

現場手動で最先端のAI技術を活用できる


新しい知識活用のパラダイム


従来、LLMの知識不足を補うには「ファインチューニング」や「RAG(Retrieval-Augmented Generation)」といった高度な技術が必要でした。


ree


特にRAGは、ユーザーの質問に関連する情報を外部データベースから検索してLLMに与える手法で、膨大な知識ベースを扱う上で強力です。しかし、検索精度の課題や文脈の喪失といった実装上の難しさも抱えています(※5)。例えば:


  • 検索ノイズ: 無関係・低品質な情報が混入

  • セマンティックギャップ: クエリと文書の意味的隔たり

  • チャンキング問題: 文書を分割することで前後の文脈が失われる


これらの課題は特に複雑なクエリや長文理解においては効果的な実装が難しいとされています。


しかし、コンテキストウィンドウの拡大により、知識ベースが数十万トークンに収まる規模であれば、システムプロンプトで直接知識を提供するというシンプルで確実なアプローチが実用的になりました。Workshop 1で実践したように、必要な情報をテキストファイルにまとめてLLMに渡すだけで、専門的な回答を生成できるようになったのです。


このアプローチは、RAGのような複雑な検索機構を必要とせず、文脈の断絶も発生しません。適切な規模の知識ベースであれば、より確実で実装しやすい選択肢となります。


応用例:マルチモーダルとOCR


このコンテキストウィンドウの拡大という進化は、テキスト情報だけに留まりません。実は、画像のようなテキスト以外のデータ(マルチモーダル)を扱う上でも決定的に重要な役割を果たします。


なぜなら、画像データはテキストに比べて非常に多くのトークンを消費するためです。広大なコンテキストウィンドウがなければ、画像と大量のテキスト、そして指示を同時に処理することは現実的ではありませんでした。


コンテキストウィンドウの拡大は、マルチモーダルLLMの実用化を加速させました。


マルチモーダルLLMとは、テキストだけでなく画像や音声など、複数の形式のデータを同時に扱えるLLMのこと。GPT-4o、Gemini 2.5 Pro、Claude Sonnet 4など、最新のLLMの多くがマルチモーダル対応しています。


なぜコンテキストウィンドウの拡大が重要かというと、画像データは大量のトークンを消費するためです。例えば、GPT-4oでは低解像度画像で85トークン、高解像度では512×512ピクセルのタイルごとに170トークン消費し、大きな画像はシステムが自動的に複数タイルに分割して合計数百〜千トークン以上になります。これはGeminiなど他のモデルでも同様です(※4)。小さなコンテキストウィンドウでは、画像とテキストの知識ベースと質問を同時に処理することが困難でした。


しかし、豊富なコンテキストウィンドウがあれば:


  • 複数の画像

  • 大量のテキスト知識

  • 質問や指示


これらをすべて同時にLLMに渡し、複雑なタスクを実行できるようになります。


Workshop 1では、この可能性を示す実例として高知県農業技術センターから提供いただいた手書きの営農記録を、Gemini 2.5 ProのOCR機能で読み取る実習を行いました。


手書き営農記録
手書き営農記録

複数の表を含む複雑な資料ですが、プロンプトやワークフローを工夫することでCSV化に成功しました。精度を参加者それぞれに確認してもらいましたが、正確さに驚きの声も聞かれました。


これは、大きなコンテキストウィンドウとマルチモーダル対応、両方の技術進化があって初めて可能になった応用例です。


CSV化するワークフロー(作業中)
CSV化するワークフロー(作業中)

AIエージェント実装の現実的な基盤


Workshop 2(Function Calling)、Workshop 3(MCP)で学ぶAIエージェントの技術も、この基盤があってこそ成り立ちます。大きなコンテキストウィンドウがなければ、過去の会話履歴やツールの実行結果を保持できません。低価格でなければ、試行錯誤の多いエージェント開発は現実的ではありません。


コンテキストウィンドウの拡大とAPI料金の低下こそが、AIエージェント時代を切り開いた2つの柱と言えるかもしれません。


まとめと次回予告


Workshop 1では、以下の点を実践を通じて学びました:


1. コンテキストウィンドウ拡大の歴史

512トークン → 400,000トークン(約780倍)


2. API料金の劇的な低下

¥450 → ¥2(99.6%削減)


3. 知識提供の実践

315,000文字のIoP知識をLLMに提供し、回答品質の改善を体験


4. 民主化された開発環境

現場手動でも最先端AI技術を活用可能に


これらの技術進化により、AIエージェントは「研究室の技術」から「実用的なツール」へと変貌しました。


ワークショップの全体構成


このワークショップは半日で完結する3部構成です:


Workshop 1: LLMへの知識提供(本記事で紹介)

コンテキストウィンドウとAPI料金の進化を体験


Workshop 2: Function Calling

LLMが外部ツールを呼び出し、複雑なタスクを自律的に遂行する仕組みを実装


Workshop 3: MCP(Model Context Protocol)

Function Callingと同じ機能をMCPで実装し、コードの簡素化と保守性を比較


AIエージェントの基礎から実践まで、包括的に学べる内容となっています。


11月8日(土)に第2回ワークショップを開催します!10月10日と同じ内容(Workshop 1〜3)を実施します。前回参加できなかったIoP技術者コミュニティの方はぜひご参加ください。


株式会社PROMPT-Xについて


株式会社PROMPT-X(プロンプトX)は、東京・鹿児島・高知の3拠点で、時系列データベースCLOUDSHIPと可視化ソフトRealBoardを軸としたIoT/DXプラットフォーム向けソフトウェアの開発・販売を行うソフトウェアメーカーです。高知県の農業データ連携基盤IoPクラウド (SAWACHI) をはじめ、複数の大規模DX/IoTプラットフォームのアーキテクチャ設計・開発・構築を担っています。 INDUSTRIAL-Xグループの一員として、「日本の産業構造変革」の実現に向けてテクノロジーで貢献しています(2024年8月グループ入り)。


クラウド(主にAWSやGCP)や、IoT関連の開発支援サービス、DX/IoTプラットフォーム構築の伴走支援、ソリューションの受託開発サービスも提供しています。


INDUSTRIAL-Xグループについて


株式会社INDUSTRIAL-Xは、「産業全体を底上げして付加価値の創造に繋げる共同利用型プラットフォーム構想」の下、企業や自治体のDX推進支援を行っています。XPaaS(Transformation Platform as a Service)を通じて、ビジネスモデル変革から実装までをトータルに支援します。


採用情報


現在、鹿児島・高知での開発エンジニア採用を強化中です!カジュアル面談も随時お受けできますので、お気軽にご連絡ください。




出典・参考文献


※1 コンテキストウィンドウの歴史的推移

  • Epoch AI "Context Windows Data Insights" (https://epoch.ai/data-insights/context-windows)

  • OpenAI Developer Documentation (https://platform.openai.com/docs/models)

  • Anthropic Documentation (https://docs.claude.com/en/docs/about-claude/models)

  • Google "Introducing Gemini 1.5, Google's next-generation AI model" (https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/)

  • Google "Gemini 2.5: Our newest Gemini model with thinking" (https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/)


※2 LLMのカットオフ日付

  • Claude Sonnet 4.5: Models overview - Claude Docs (https://docs.claude.com/en/docs/about-claude/models/overview)

  • GPT-5 nano: GPT-5: Key characteristics, pricing and model card (https://simonwillison.net/2025/Aug/7/gpt-5/)

  • 各種LLMのカットオフ一覧: llm-knowledge-cutoff-dates (https://github.com/HaoooWang/llm-knowledge-cutoff-dates)


※3 IoPニュース記事

  • IoP Technology Community ニュース一覧 (https://kochi-iop.jp/news/)


※4 マルチモーダルLLMの画像トークン消費量

  • GPT-4o画像エンコーディング: A Picture is Worth 170 Tokens: How Does GPT-4o Encode Images? (https://www.oranlooney.com/post/gpt-cnn/)

  • Gemini API価格設定: Gemini Developer API Pricing (https://ai.google.dev/gemini-api/docs/pricing)


※5 RAG(Retrieval-Augmented Generation)の課題

  • Signity Solutions "Trends in Active Retrieval Augmented Generation: 2025 and Beyond" (https://www.signitysolutions.com/blog/trends-in-active-retrieval-augmented-generation)

  • Chitika "Retrieval-Augmented Generation (RAG): 2025 Definitive Guide" (https://www.chitika.com/retrieval-augmented-generation-rag-the-definitive-guide-2025/)

  • RAGFlow "RAG at the Crossroads - Mid-2025 Reflections on AI's Incremental Evolution" (https://ragflow.io/blog/rag-at-the-crossroads-mid-2025-reflections-on-ai-evolution)

  • arXiv "A Systematic Review of Key Retrieval-Augmented Generation (RAG) Systems" (https://arxiv.org/html/2507.18910v1)


コメント


bottom of page