Qwen 3.5 解説：ネイティブ・マルチモーダル×低レイテンシエージェントでAI開発を加速する実践手法 - Hack-Log

Moonshot AIのKimiで得た「超長文コンテキスト運用」の経験を受け継ぎ、次に手にしたいのがAlibabaのQwen 3.5です。Native MultimodalとAgentic Workflowにより、画像・音声・テキストを同じ session で処理しながら、WebMCP経由でリアルタイムに作用できます。ここでは Qwen 3.5 の技術的本質を掘りつつ、Project Stealth の収益パターンに落とし込む具体策を紹介します。

Qwen 3.5 が “できる” こと
実装の骨子
プロンプト/CTA テンプレート
Kimi Ultra Context Pack の次の一手
まとめ

Qwen 3.5 が “できる” こと

画像 + 音声 + テキストを同一の context window に載せる “native multimodal”。Kimiが 200万 token を読む間に、Qwen は視覚/音声情報を同時に Reasoning する。
MCP / WebMCP 補助で、ブラウザやSlackとエージェントが直接データをやり取り。low latency 動作。
280k tokens の context を chunker で整形すれば、画像 caption + 音声命令 + JSON payload をまとめて送れる。

実装の骨子

assets/qwen-ultra/qwen_chunker.py を活用すれば text・画像・音声を 4,000 token ごとに分割可能。マルチモーダル資産は multimodal_assets 配列に格納して、summary prompt でまとめて reasoning を受ける。ShortPixel の AVIF 画像を context.image_url に差し込めば「画像の指示」も安定。

プロンプト/CTA テンプレート

prompts.md には画像+音声+WebMCP のプロンプトが複数用意されている。たとえば「画像キャプチャ＋音声ステップ」または「WebMCP payload + CTA 生成」など。各命令に #mcp タグを付けると、Qwen が行動指示（agentic action）として解釈しやすくなる。

Kimi Ultra Context Pack の次の一手

note版「Qwen Ultra Context Pack（¥980）」には chunker、prompts、usage.csv、収益チェックリスト、manual/README 日本語版を同梱。Drive（70_Hack-Log）の ZIP も併記して、note 記事と WordPress のカードで購入へ送る。画像も AVIF 変換済みを添えて、ShortPixel + Converter for Media（AVIF）に対応。