Moonshot AIのKimiで得た「超長文コンテキスト運用」の経験を受け継ぎ、次に手にしたいのがAlibabaのQwen 3.5です。Native MultimodalとAgentic Workflowにより、画像・音声・テキストを同じ session で処理しながら、WebMCP経由でリアルタイムに作用できます。ここでは Qwen 3.5 の技術的本質を掘りつつ、Project Stealth の収益パターンに落とし込む具体策を紹介します。
Qwen 3.5 が “できる” こと
- 画像 + 音声 + テキストを同一の context window に載せる “native multimodal”。Kimiが 200万 token を読む間に、Qwen は視覚/音声情報を同時に Reasoning する。
- MCP / WebMCP 補助で、ブラウザやSlackとエージェントが直接データをやり取り。low latency 動作。
- 280k tokens の context を chunker で整形すれば、画像 caption + 音声命令 + JSON payload をまとめて送れる。
実装の骨子
assets/qwen-ultra/qwen_chunker.py を活用すれば text・画像・音声を 4,000 token ごとに分割可能。マルチモーダル資産は multimodal_assets 配列に格納して、summary prompt でまとめて reasoning を受ける。ShortPixel の AVIF 画像を context.image_url に差し込めば「画像の指示」も安定。
プロンプト/CTA テンプレート
prompts.md には画像+音声+WebMCP のプロンプトが複数用意されている。たとえば「画像キャプチャ+音声ステップ」または「WebMCP payload + CTA 生成」など。各命令に #mcp タグを付けると、Qwen が行動指示(agentic action)として解釈しやすくなる。
Kimi Ultra Context Pack の次の一手
note版「Qwen Ultra Context Pack(¥980)」には chunker、prompts、usage.csv、収益チェックリスト、manual/README 日本語版を同梱。Drive(70_Hack-Log)の ZIP も併記して、note 記事と WordPress のカードで購入へ送る。画像も AVIF 変換済みを添えて、ShortPixel + Converter for Media(AVIF)に対応。

まとめ
Kimiの 200万 token を使ったコンテキスト戦略を踏まえ、Qwen 3.5 でさらに「画像・音声・テキストの同時 Reasoning」を実現する。


コメント