Kimi（Moonshot AI）200万トークン超コンテキスト攻略ガイド

Moonshot AIが提供するKimiは、200万トークン超の巨大コンテキストウィンドウを備える最上位モデルです。従来のLLMと違いsummaryやtruncationを気にする必要がない反面、token使用量はプロンプトとレスポンスで急増します。Kimiのfirst-class streaming挙動に合わせ、多数のAPIリクエストを並列化するアーキテクチャを用意してください。

Kimiのスペックを整理する
長文コンテキストを運用するためのデータフロー
安定動作を支えるスクリプト
Kimi Ultra Context Packで環境を再現する

Kimiのスペックを整理する

ローカルプロキシを経由しtoken chunkを先読みして、Kimiのtoken windowに余裕を持たせます。chunkごとに{"messages": []}を使ってオフロードし、1分ごとにsummary挿入でスライディングウィンドウを維持します。prompt pipelineはcontext window → summary prompt → reasoning promptの3段構成。summary promptは前の5 chunkを要約してcacheに保管し、reasoning promptでは必須事項のみを送ります。

長文コンテキストを運用するためのデータフロー

ローカルチャンク処理を経たトークンを、token chunkerで分割しながらKimiに送り込みます。レイテンシが気になる場合は、chunk送信間隔を短くしつつsummary promptで先読み。

安定動作を支えるスクリプト

token usageモニタ: usage.total_tokensをWebhookで受信し、12万tokenを超えたらSlack通知＋POST /v1/sessions/stopで自動停止。
エラーリトライ: 502 / 504 はKimi特有。指数バックオフ+CORS safe trust_tokenを更新して再送。
料金制御: max_tokensを39,999に設定し、チャンクsizeが32kを超える場合はchunker.pyでsplit。

Kimi Ultra Context Packで環境を再現する

本記事で解説したtoken chunkerスクリプト、各種最適化プロンプトテンプレート、および運用チェックリストをパッケージ化した「Kimi Ultra Context Pack」をnoteで販売中です。また、大規模モデルの運用に最適なGPUレンタル（Lambda Labs / CoreWeave）などの推奨環境についてもパッケージ内で詳しく紹介しています。