<< DN 2025-10-20 | DN 2025-10-22 >>

Thread by @PaulieScanlon

Thread by @rohanpaul_ai

Thread by @arena

Thread by @karpathy

Thread by @Hesamation

Thread by @simonw

Claude Code on the web

Claude Code on the web

  • ブラウザ上でClaude Codeのセッションを起動し、ターミナル不要で実装作業を委任できます。
  • 各タスクは隔離サンドボックスで実行され、リアルタイム進捗を確認しながら方針を調整できます。
  • 複数リポジトリにまたがるタスクを並列実行し、自動PR作成と変更点サマリーで出荷を加速できます。
  • 既存のワークフローを補完し、質問対応、バグ修正、テスト駆動のバックエンド変更に適しています。
  • iOSアプリからも利用可能で、外出先でもコーディングの委任を開始できます(研究プレビュー段階)。
  • セキュリティを重視し、ネットワーク・ファイルシステム制限付きのサンドボックスで動作し、Gitは安全なプロキシ経由で権限内のみアクセスします。
  • 許可ドメインをカスタム設定でき、必要に応じてnpm取得などの外部通信を限定的に許可できます。
  • Pro/Maxユーザー向けの研究プレビューで提供され、クラウド実行は他のClaude Code利用とレート制限を共有します。

Google Introduces LLM-Evalkit to Bring Order and Metrics to Prompt Engineering

Google Introduces LLM-Evalkit to Bring Order and Metrics to Prompt Engineering

  • LLM-EvalkitはVertex AI SDK上に構築されたオープンソースの評価フレームワークとして公開され、プロンプトの作成・テスト・バージョン管理・比較を一つの環境で実施できるようにしました。
  • 直感ではなく指標で判断する方針を取り、タスク定義と代表データセットを用意し、客観的メトリクスで出力を評価する流れを標準化しました。
  • 共有の変更履歴を保持することで、改良点を再現可能にし、モデル更新を跨いだ比較も一貫して追跡できるようにしました。
  • Google Cloudの評価ツール群と連携し、実験から性能トラッキングまでのフィードバックループをクラウド内で完結できるようにしました。
  • ノーコードのUIを備え、開発者だけでなくPMやUXライターなど非エンジニアも参加しやすい協働環境を用意しました。
  • GitHubで公開され、Google Cloudコンソールのチュートリアルと$300のトライアルクレジットで導入を後押ししました。

Webアプリの統合開発ツールチェーン「Vite+」が登場。AIがVite+を使いこなすためのAgent Modeなど計画

Webアプリの統合開発ツールチェーン「Vite+」が登場。AIがVite+を使いこなすためのAgent Modeなど計画

  • Vite+はViteをベースに、開発サーバ、バンドラ、リンター、フォーマッター、テストランナーなどを統合し、プロジェクト作成からビルドまでを一気通貫で実行できる環境を提供します。
  • CLIウィザードにより、Monorepo選択、フレームワークとバリアントの選択、パッケージマネージャ選択を通じて、素早くプロジェクトのひな形を生成できます。
  • 「vite dev」でローカルサーバを起動し、プレビュー、ビルド、テストまでを統一的な体験で実行できます。
  • 今後の拡張として、より大きな機能拡張を可能にするプラグインAPIを計画しています。
  • AIがVite+の環境、コマンド、挙動、ショートカットを理解し、自律的に操作できる「Agent Mode」を計画しています。
  • ライセンスはオープンソースで進めながら、個人・OSS・小規模事業者は無料、スタートアップは定額、エンタープライズはカスタム料金という段階的な価格モデルを予定しています。

2025年版 スタートアップエンジニアが考えるWebアプリの技術選定

2025年版 スタートアップエンジニアが考えるWebアプリの技術選定

  • TypeScriptとNext.jsの組み合わせがフロントエンドの既定路線になり、型安全と多様なレンダリング戦略で開発体験とパフォーマンスを両立できると説明しました。
  • Honoを用いることで、エッジ環境やAPI特化のユースケースで軽量かつ高速なバックエンドを構築しやすくなると述べました。
  • UIはTailwindCSSを軸に、用途に応じてShadcnUIやHeroUIを使い分けることで、スピードと拡張性を両立できると整理しました。
  • バリデーションにはValibotを選ぶことで、Zodに近い記述性を保ちつつバンドルサイズを抑えられると強調しました。
  • 状態管理にはZustandを用いて、Reduxほどの設定なしに小〜中規模で十分なDXを得られると評価しました。
  • 認証はClerkでUI込みの素早い立ち上げ、またはSupabase AuthでDBとRLSを活用した一体運用を実現できると提案しました。
  • データベースはSupabase(Postgresベース)で低コスト・RLS・連携容易、PlanetScaleでブランチングとスケールを重視する選択肢があるとまとめました。
  • ORMはDrizzleがTypeScript-firstで軽量・高速、周辺ツールも充実しつつあるため、2025年の第一候補になり得ると述べました。
  • メール・通知はResend×React Emailで迅速に実装し、複雑な通知はKnockでワークフロー化できると説明しました。
  • CMSはmicroCMSで日本語ドキュメントと運用のしやすさを取り、PayloadでセルフホスティングとNext.js統合を選べると整理しました。
  • 画像・配信は外部配信が多ければCloudflare R2でエグレス無料の優位性を活かし、GCP内完結はCloud Storageが親和的と指摘しました。
  • ホスティングはVercelでNext.jsとDX最適化、コスト配慮や汎用性ならCloud Runでコンテナ運用を選べるとまとめました。
  • バンドラーはNext.js v16以降でTurbopack安定化の見込み、ViteはSPAやライブラリ開発で依然強力と記しました。
  • リンター・フォーマッターはBiomeがESLint+Prettier代替として高速・簡潔に運用できると評価しました。
  • テストはVitestでVite連携の快適さ、bun testで最速クラスの実行を得られると整理しました。
  • 監視・分析はPostHogでオールインワンの低価格・高機能、Sentryでエラートラッキングを強固にできると述べました。
  • 次に来る技術としてRspack(高速バンドラー)、Oxlint(超高速Lint)、Vercel Fluid Compute(関数内同期最適化)、ElectricSQL(ローカルファースト同期)を挙げました。

【結論】TypeScriptの型定義はtypeよりinterfaceを使うべき理由

【結論】TypeScriptの型定義はtypeよりinterfaceを使うべき理由

  • オブジェクトの形状を定義するときは、まずinterfaceを使うべきだと述べています
  • typeは合併型(union)、タプル、mapped types、プリミティブの別名などinterfaceで表現できない場合に限定して使うべきだと説明しています
  • typeは即時評価(eager)で交差型(&)の展開コストが膨らみやすく、プロジェクトが大きくなると型チェックやビルドが極端に遅くなる可能性があると指摘しています
  • interfaceは遅延評価(lazy)で名前付きシンボルとして扱われ、必要になるまで内部構造の解決を遅らせるため、コンパイラ負荷が低く保たれると解説しています
  • ReactのPropsを大量にtypeで交差していたプロジェクトで、エディタ応答とtscが激遅化し、interfaceへ一括置換で劇的に改善した実例を示しています
  • TypeScript公式も「extendsなinterfaceのほうがintersectionなtypeよりコンパイラ的に高速なことが多い」と明記していると紹介しています
  • interface利用時はJSDocで説明を補い、必要に応じて末端でSimplifyのようなユーティリティ型を使って可読性を確保できると提案しています

Andrej Karpathy — “We’re summoning ghosts, not building animals”

  • 「今年はエージェントの年」ではなく「この10年はエージェントの10年」であると述べ、過度な短期楽観を戒めました
  • いまのLLMは実務“インターン”としては未成熟で、継続学習、長期記憶、マルチモーダル、PC操作、自己改善など多くの不足を抱えていると説明しました
  • 動物のように進化で学ぶのではなく、人類のインターネットを模倣して“幽霊(spirit)”を育てているという比喩で現在のAIを位置づけました
  • 事前学習は「知識の圧縮」と「認知の回路形成」を同時に進めますが、知識依存が強く外挿(データ外の課題)に弱くなると分析しました
  • 「重み」は曖昧な長期記憶、「文脈」は直接参照できる作業記憶と捉え、長い文脈と睡眠のような“反芻・蒸留”プロセスが欠落していると述べました
  • いまのRL(強化学習)は“ストローで監督を吸う”ように情報効率が悪く、過程評価(process-based)や反省・レビューの外部化などの新手法が必要だと主張しました
  • LLMジャッジは攻略されやすく、報酬ハッキング(例: “dhdhdh”で満点)に陥るため、審判の堅牢化と別発想が要るとしました
  • モデルは多様性が“黙って縮退(collapse)”しがちで、合成データ学習を乱用すると分布が痩せて劣化すると警告しました
  • 「コア認知」を知識から切り出すべきで、記憶を薄くしアルゴリズム・問題解決の核を残す発想を提案しました
  • モデルは巨大化一辺倒ではなく実用配分(事前学習はやや小さく、RL・中間学習に投資)で進化し、今後10年も“巨大NN×勾配降下”は続くと見立てました
  • コーディングはLLMの最初の“真の用途”として適合し、補完(autocomplete)が最も実用的で、未知の設計統合はまだ不得手だと体験的に述べました
  • デモと製品の間には「9の行進(90%→99%→…)」という恒常的な距離があり、安全・信頼が要る領域ほど年単位の詰めが必要だと指摘しました
  • 経済インパクトは“連続的な自動化の延長”としてGDPの滑らかな指数に吸収されがちで、単発の“魔法ジャンプ”は起こりにくいと慎重に評価しました
  • 真に有用なエージェントには文化・組織・自遊対戦(self-play)・外部記憶の形成が必要で、現状モデルは優等生の“サヴァンな子ども”段階だと評しました
  • 教育は人間のエンパワーメントの要であり、完璧な個別化“AIチューター”にはまだ届かないため、当面は高品質コース設計とAI支援の融合で「学びの坂道(ramp)」を作ると述べました

TBPN’s Run of Show: October 20

TBPN’s Run of Show: October 20

  • アンドレイ・カラパシが現行モデルのコード生成を「slop(粗い)」と評し、AGIまで約10年と見積もったことが市場心理を冷静化させました
  • サム・アルトマンも「数千日」で超知能到来の可能性に言及し、だいたい10年スケールの期待と整合しました
  • ジョージ・ホッツは「クロスエントロピー損失だけではAGIに届かない」と述べ、強化学習など環境ベースの学習の必要性を示しました
  • ルカン、タイラー・コーエンらの「進歩は漸進的」派が現時点で優勢となり、AGI早期到来観測に修正圧力がかかりました
  • オラクルは今後5年で約3,000億ドル規模のAIインフラ投資を進め、需要が想定未達の場合の財務リスクが浮上しました
  • 採用の肝は「驚異的なオートコンプリート」の実用価値であり、プロダクト化・収益化の形が巨大投資の成否を左右します
  • 経営メッセージは「前例なき成長」よりも、ドットコムや鉄道など過去バブルの教訓とリスク・リワードの説明が投資家の信頼を高めます
  • バブルは崩壊してもグーグルやアマゾンのような勝者が生まれた歴史があり、今回も地に足のついた戦略が重要となります

”Be Different” doesn’t work for building products anymore

“Be Different” doesn’t work for building products anymore

  • AIで開発・デザイン・配布が高速化し、ソフトウェア市場が過去最大級のレッドオーシャンになっていると指摘しました。
  • UXや単機能の優位性、ビジネスモデル変更、疑似的な専有データでは持続的な差別化が成立しにくいと説明しました。
  • 有効な戦略として、強い配布力(コミュニティ・顧客基盤・著名人)、複雑で知られていないニッチへの特化、構築が難しい・高コストな統合を伴うプロダクトを挙げました。
  • 真のネットワーク効果を持つ事業、運用データの複利的ロックイン、規制障壁の利用が持続的優位になり得ると示しました。
  • 大企業による「80点の機能のバンドル化」が進み、多くの単体AI製品は大手プラットフォームの一機能に吸収される可能性が高いと警告しました。
  • 起業家は「差別化」から「参入障壁×配布力」へ軸足を移し、どの土俵で戦うかを初期から設計する重要性を強調しました。

Ben Horowitz and Ali Ghodsi: How to Run a $100 Billion Business

  • オープンソースのジレンマを直視し、製品差別化と有償価値の再設計を進めました
  • PLGが機能しない現実を受け入れ、エンタープライズB2Bセールスへ大転換しました
  • 「技術の深さ×Go-to-Market」の両輪を磨き、CEO自らが低空飛行で現場に入り込みました
  • マイクロソフト提携では「大きな事前コミット=社内で失敗できない規模」を設計しました
  • 大型提携は3回以上頓挫する前提で、現地に張り付き粘り強く合意形成を進めました
  • M&Aは「人とプロダクトの統合度」を最優先し、財務都合の買収(Revenue買い)を避けました
  • 採用では「ハードワークは“言う人”ではなく“評価が語る人”」をバックドアで見極めました
  • フィードバックは高頻度・即時・支援的に行い、年次評価の“初出し雷”を避けました
  • 勝ち筋が見えないときほど「負けから勝ちへの物語」を示し、動機づけを高めました
  • 売却誘惑には「一生に一度の機会」志向で向き合い、後悔の最小化で意思決定しました

Defense Tech Startups Turn Focus to Space Warfare

Defense Tech Startups Turn Focus to Space Warfare

  • 米宇宙軍は衛星・通信・軌道防衛を担う新設軍種として存在感を高め、宇宙が本格的な戦闘領域になりつつあることを示しました。
  • Anduril、Northwood Space、Impulse Space、Astranis などの新興企業が、監視・防御・機動・通信の各機能で宇宙軍を補完し、従来にない選択肢を提供しました。
  • 技術的な準備は整っているものの、老朽化した調達プロセスと大手依存が配備の遅延を招き、抑止力の空白を生みかねると関係者は指摘しました。
  • 数の優位が抑止の鍵となり、高価な少数精鋭衛星に頼ると連鎖的損失のリスクが高まるため、小型衛星の多数配備と迅速な更新が重要だと議論されました。
  • 地上―宇宙間の接続が作戦の生命線であり、フェーズドアレイなどの地上インフラ整備を急がなければ、衛星能力を生かせないと強調されました。
  • 宇宙での初動エスカレーションの懸念が現実味を帯び、2027年頃を一つの警戒時期としてスピード重視の配備が求められました。
  • 宇宙軍の独立により、航空優先から宇宙資産重視へと文化が変わり、スタートアップが「最重要顧客」として関与を拡大しました。

Europe Wants Sovereign AI — But Can’t Agree on What It Means

Europe Wants Sovereign AI — But Can’t Agree on What It Means

  • 「ソブリンAI」の定義が統一されておらず、国産モデル・データ主権・国内データセンター・選択肢確保など立場ごとに意味が揺れていることを指摘しました。
  • 欧州勢は自立を目指しながらも、SAPとOpenAIの提携や米クラウド各社のデータセンター拡張など、実務では米企業への依存が進んでいることを示しました。
  • Nvidiaが「ソブリンAI」を追い風に欧州で投資・提携を拡大し、政治リーダーからも厚遇されている現状を説明しました。
  • 先端(フロンティア)モデル開発で欧州は出遅れており、Aleph Alphaの撤退やMistralの資金規模の不足が象徴的であることを整理しました。
  • 欧州内では「米国依存の回避=交渉力の確保」という実利重視の見方が強まり、完全自給ではなく選択肢を増やす発想が広がっていることを示しました。
  • オープンモデルへの期待が高まる一方で、中国発のオープンかつ低価格モデルへの依存拡大は、主権志向と矛盾しかねないことを指摘しました。
  • 一部スタートアップはソブリン性よりグローバル競争力を重視し、米モデルを活用して世界市場を獲りにいく戦略を採用していることを紹介しました。

AWSの姿勢に変化? 業種別事業戦略で「理念」を語る意味を考察

AWSの姿勢に変化? 業種別事業戦略で「理念」を語る意味を考察

  • AWSジャパンがメディア・エンタメ、ヘルスケア、金融の3業種で連続会見を行い、訴求の軸を「理念+長期ビジョン」にシフトしました
  • Amazonのフライホイール効果をヘルスケア領域に応用し、患者体験起点でデータとサービスの好循環を設計する意図を示しました
  • 「Journey for 2030」(ヘルスケア)と「Vision 2030」(金融)を提示し、縦(ミクロ〜マクロの個体データ連結)と横(機関横断データ連結)の統合でイノベーションを加速すると説明しました
  • AWSが提供する4つの価値として「つないで広げる(データ連携・統合)」「賢く支える(生成AI・業務支援)」「安全に使う(セキュリティ)」「共に進める(共創・人材育成)」を明確化しました
  • こうした“理念の言語化”は、AI活用の本格化に伴い、AWSを社会インフラとして再定義する意思表示であり、今後他業種にも展開する方針です

矛盾した概念「膨大なデータが欲しいLLM」と「プライバシー保護」のバランスをとる技術たち

矛盾した概念「膨大なデータが欲しいLLM」と「プライバシー保護」のバランスをとる技術たち

  • LLMには大量データが必要ですが、プライバシー保護要件と根本的に衝突するため、単独の万能解は存在しないと説明されました。
  • 防御を多層で重ねる「深層防御」をAIライフサイクルに適用し、差分プライバシー、セキュアコンピューティング、対話セキュリティ、機械学習忘却の4フェーズで整理しました。
  • GoogleのVaultGemmaは差分プライバシーを学習アルゴリズムに組み込み、数学的保証を備えた「信頼できるモデル」を実証しました。
  • DPスケーリング則により、プライバシー予算・計算コスト・実用性能のトレードオフを予測可能にしました。
  • 差分プライバシー適用により性能は約6年相当のギャップが生じる一方で、実用的な範囲のモデル化が可能であることを示しました。
  • NECは連合学習を活用し、複数組織が生データを共有せずにモデルを共同学習できる仕組みを金融などに展開しました。
  • 連合学習は通信負荷やオーケストレーションの複雑さが課題であり、理論より運用上のボトルネック解消が鍵だと述べました。
  • NTT/NTTデータのtsuzumiは軽量・高効率設計によりオンプレ展開を容易にし、秘密分散などのSecure Computationで閉域かつ暗号化状態の学習・推論を可能にしました。
  • Googleはプロダクトとしての「オープンな基盤モデル提供」、日本企業は顧客の厳格なデータガバナンス要件に合わせた「ソリューション提供」という立ち位置の違いが明確になりました。
  • 組織はユースケースとリスク許容度に応じて複数技術を組み合わせることで、イノベーションとリスク管理を両立できると結論づけました。

生成AI、進化の鍵を握る「長期思考」 Sakana AIが挑む”人間のように試行錯誤するAI”への道筋

生成AI、進化の鍵を握る「長期思考」 Sakana AIが挑む”人間のように試行錯誤するAI”への道筋

  • 短時間で解けるShort-Horizon Taskは現行AIが得意であり、社会的インパクトが大きいのは長期思考を要するLong-Horizon Taskだと位置づけました。
  • 長期タスクの評価が難しかった課題に対し、Sakana AIはベンチマーク(ALE-Bench)とエージェント(ALE-Agent)を開発し、実競技で上位成績を収めました。
  • 長期タスクの鍵として、人間のように要点を保持し必要時に思い出す「柔軟な記憶機構」が必要であり、単純な長文コンテキスト拡張では計算コストが増大すると指摘しました。
  • 強化学習はタスクが長くなるほどフィードバックが希薄化し、貢献度分配(クレジットアサインメント)問題が深刻化するため、新しい学習設計が重要だと述べました。
  • 数学や競技プログラミングでの強化学習の進歩は、オフィスワークのエージェントタスク(例:The Agent Company)にも波及し得ると展望しました。
  • 「外挿が苦手」という通説に対し、方法論の学習と組み合わせにより人間同様の道筋で未知に到達する創造性が実現可能だと楽観的見解を示しました。

OpenAI’s Japanese Rival Sakana in Talks to Raise Capital at $2.5 Billion Valuation

OpenAI’s Japanese Rival Sakana in Talks to Raise Capital at $2.5 Billion Valuation

  • サカナAIが米日投資家から約¥15,000,000,000の新規資金調達を交渉し、評価額を約¥375,000,000,000へ引き上げる見込みだと報じられました。
  • CEOのDavid Ha氏は1年以内の黒字化を公言しており、日本の大手金融機関との受託開発で収益を伸ばしていると示されました。
  • 同社はTransformer中心の主流路線と異なる「自然界から着想した進化的手法」を推進し、ShinkaEvolveをオープンソースで公開しました。
  • 三菱UFJ・大和証券との複数年パートナーシップを発表し、国内大企業の導入事例を積み上げています。
  • 既存投資家にはメガバンク3行、富士通、NEC、伊藤忠、KDDI、Nvidia、NEA、Khosla、Luxなどが含まれ、日本政府の計算資源助成も受けています。
  • OpenAI(ソフトバンクと年約¥450,000,000,000規模の提携)、Anthropic、Cohereが日本展開を強化する中で、サカナAIは「地域言語・文化への最適化」を差別化軸にしています。
  • 人員は約70名で、今回の資金はエンジニアリングと営業・流通体制の拡充に充てる計画だと示されました。

Exploring OpenAI’s deep research API model o4-mini-deep-research

Exploring OpenAI’s deep research API model o4-mini-deep-research

  • o4-mini-deep-researchはo3より安価で、入力$2/百万トークン・出力$8/百万トークンで課金されます。
  • 利用はResponses APIのbackgroundモード推奨となり、ポーリングでstatusを確認して結果を取得しました。
  • Web検索(web_search_preview)とCode Interpreterをツールとして併用しました。
  • モデルのトークン費用は約$0.304(合計83,389トークン)となりました。
  • Web検索課金は$10/1,000コールで、77回計上とすると約$0.77になりました。
  • Code Interpreterは$0.03/セッションで、追加費用が発生しました。
  • 総額はおよそ$1.10となり、検索課金が大きな割合を占めました。
  • 出力JSONは19件のオルケストリオンを返し、可視化や重複排除に外部ツール(Datasette Lite、GeoJSON、カスタムHTML)を活用しました。
  • 深掘り調査は「包括的な網羅」には限界があり、検証前提の参考情報として扱う必要がありました。

An Opinionated Guide to Using AI Right Now

An Opinionated Guide to Using AI Right Now

  • 無料で十分な用途なら好みの無料モデルを選び、足りないと感じたら有料の上位モデルを検討すると効果を実感しやすくなります。
  • 有料を検討する場合は、Claude・Gemini・ChatGPTのいずれかを中心に選び、月額¥3,000前後($20相当)が大半の人に適しています。
  • 「チャット型」は速くて会話向きですが、「エージェント型」は外部検索・コード実行・文書生成まで自動で踏み込み、重要な仕事では後者を優先すると安定性が高まります。
  • ChatGPTは自動選択だと弱いモデルが動く場合があるため、思考の強度(例: GPT-5 Thinking Extended/Heavy)を手動で指定すると複雑課題に強くなります。
  • ClaudeはSonnet 4.5を基本に「拡張思考」を必要時にオンにすると難題の精度が上がります。Geminiは2.5 Flash/Proに加え、上位プランでDeep Thinkを活用できます。
  • ディープリサーチを使うと、10〜15分のWeb調査で引用付きの高品質レポートを得やすくなり、実務の情報精度が大幅に向上します。
  • Gmailやカレンダー、ドライブなど自分のデータ連携を許可すると、日次ブリーフィングや横断検索の質が上がり、日常の意思決定が速くなります。
  • 音声・画像・PDF・動画の入力活用や画面/カメラ共有を使うと、現場の課題(機器トラブル、料理、翻訳、学習)に即応できます。
  • 画像・動画生成はGemini(画像)とOpenAI/Veo(動画)が強力で、もはや映像の真偽判定が難しくなるため、オンラインの視覚情報は常に検証が必要です。
  • 幻覚は減ったもののゼロにはならないため、上位モデル+Web検索+思考トレースの確認でリスクを下げ、批判的レビュー指示で迎合(シンコファンシー)を抑えられます。
  • プロンプトの小手先テクは重要度が下がっており、明確な目標・コンテキスト・資料の添付が成果に直結します。遊びながら限界を把握すると学習効率が上がります。
  • 学習データへの利用を避けたい場合は、ChatGPTとClaudeで学習オプトアウトを設定できます(Geminiでは一部機能制限の可能性があります)。

Claude Skills are awesome, maybe a bigger deal than MCP

Claude Skills are awesome, maybe a bigger deal than MCP

  • Skillsは「SKILL.md(Markdown+YAMLメタデータ)+任意の補助スクリプト」のフォルダ構成として設計され、必要時のみロードするためトークン効率が高いと説明しました。
  • ドキュメント作成(PDF, DOCX, XLSX, PPTX)などの既存機能も実はSkillsとして実装されており、再利用と拡張が容易だと述べました。
  • Slack向けGIF作成スキルの実験では、サイズ検証などの実務的バリデーションをスクリプトに委ね、モデルは手順選択と実行に集中できると示しました。
  • Skillsはコード実行環境(ファイルシステム、コマンド実行、依存ライブラリ)に全面依存しており、安全なサンドボックス設計が不可欠だと強調しました。
  • Claude Codeは「コーディング用」ではなく、コマンドライン操作を通じた一般的なコンピュータ自動化=汎用エージェントだと再定義しました。
  • MCPは大規模なプロトコル設計と高いトークン消費がネックになりやすく、CLIとSkillsの組み合わせの方が軽量かつ実用的だと比較しました。
  • Skillsは他モデル・他ツールでも機能し得る設計で、フォルダを共有するだけで“機能配布”が可能になり、エコシステム拡大が見込めると指摘しました。
  • シンプルさこそ強みであり、複雑な仕様ではなく「テキスト+環境に任せる」発想がLLMの特性に合致していると結論づけました。

AI set to be a boon for emerging markets — but some investors aren’t convinced

AI set to be a boon for emerging markets — but some investors aren’t convinced

  • LovableのCEOは、ノーコード的なAI開発ツールにより新興国での起業が一気に加速すると主張しました。
  • 投資家は、資金調達難、インフラ不足、配信コスト、信頼・コンプライアンスといった構造課題が残ると指摘しました。
  • AIは試作や初期開発を高速化しますが、資金・市場アクセス・ガバナンスの面でスケールの優位は依然として既存ハブにあると評価しました。
  • 強いチームと自社内の技術力、そしてAIで容易に複製できない独自性・防御力が投資判断の核心にあると確認されました。
  • 新興国でのAI活用には、データセンターや安定した通信、ローカルデータ収集・学習が不可欠で、短期的な資本流入の兆しは限定的です。

Effective context engineering for AI agents

Effective context engineering for AI agents

  • プロンプト最適化から一歩進み、毎ターンの「コンテキスト全体」を設計して望ましい挙動の再現性を高めることが重要だと述べています。
  • モデルは長文コンテキストで想起精度が低下するため、注意資源を前提とした「最小で高信号」なトークン選定が必要だと説明しています。
  • システムプロンプトは明確かつ適切な抽象度で記述し、過度なルール列挙ではなく、少数の代表的な例で行動を示すことが有効だと提案しています。
  • ツール設計は機能の重複を避け、入出力をトークン効率的に保ち、意思決定の曖昧さを減らすことが重要だと解説しています。
  • 事前埋め込み検索に加え、参照だけ保持して必要時に読み込む「ジャストインタイム取得」を使うと、速度と関連性の両立が可能だと指摘しています。
  • 長期タスクでは「コンパクション(要約圧縮)」「構造化メモ(外部メモリ)」「サブエージェント分業」を組み合わせ、文脈汚染を抑えながら整合性を維持するべきだと述べています。
  • コンパクションではまず再現率を重視して取りこぼしを減らし、その後に不要情報の削減で適合率を高める段階的チューニングが有効だと説明しています。
  • 構造化メモは進捗・決定・未解決事項を外部に記録し、再投入して連続性を確保する実践が効果的だと紹介しています。
  • サブエージェントは探索を分担し、各自は濃密な探索を行いながら要約のみを親に返すことで、主エージェントの思考を澄ませると解説しています。
  • ハイブリッド戦略(少量の先読み+JIT探索)が多くの現場で実用的であり、「最小の実用構成」を起点に段階的に自律性を高める方針を推奨しています。

CrewAI AMP - The Agent Management Platform

CrewAI AMP - The Agent Management Platform

  • CrewAI AMPは「フレームワーク」ではなく、エージェントを実運用で管理・拡張するためのプラットフォームとして設計されました。
  • 大企業での実績として、約15日で10万超の実行、50万近いエージェント起動、30件以上のユースケース展開が報告されました。
  • コード/ノーコード両対応で、CrewAI Studioにより60秒以内の初期構築を可能にし、必要に応じてエージェントをコードとしてダウンロードできるためベンダーロックインを回避できます。
  • 信頼性の中核として、メモリ、ガードレール、フロー、RBAC、監査ログ、適応的最適化(エージェント訓練・埋め込みテスト)、人とエージェントのフィードバック連携を備えました。
  • スケール面では、どこでも動くユニバーサル設計、F500から米国防総省まで対応可能なガバナンス、ツールとエージェントの再利用リポジトリで組織展開を加速します。
  • 「クルー(Crew)」による自律性重視と「フロー(Flows)」による制御重視を選択可能とし、スピードと統制を両立させます。
  • 同社は「SaaSの次はAgentsであり、AgentsにはOSが必要」という旗印を掲げ、AMPをそのOSとして位置づけました。
  • デモ追求ではなく、最難関ワークフローの実運用化を即座に支援することをコールトゥアクションとして提示しました。

Introducing Microsoft Agent Framework

Introducing Microsoft Agent Framework

  • Microsoft Agent Frameworkが公開プレビューとなり、AutoGenとSemantic Kernelを統合した商用グレードのオープンソースSDK/ランタイムを提供しました。
  • 開発者はローカルで実験したものをAzure AI Foundryにシームレスにデプロイでき、可観測性・耐久性・コンプライアンスを組み込みで確保できます。
  • OpenAPIで任意APIと統合し、Agent2Agent(A2A)でランタイム間連携を行い、Model Context Protocol(MCP)で動的にツール接続ができます。
  • 最新のマルチエージェントパターン(例: Magentic One)やワークフロー指向のオーケストレーションを活用できます。
  • Foundry Agent Serviceのマルチエージェント・ワークフロー(プライベートプレビュー)により、長時間・多段の業務プロセスを有状態で協調実行できます。
  • OpenTelemetryへの貢献により、マルチエージェントのトレーシング/テレメトリを標準化し、LangChain/LangGraph/OpenAI Agents SDKなど他フレームワークの可観測性も統合しました。
  • Voice Live APIがGAとなり、リアルタイムのSTT/生成AI/TTS/アバター/会話改善を低遅延で一体化し、音声エージェントを本番運用可能にしました。
  • 責任あるAIの機能(パブリックプレビュー予定)として、タスク順守、プロンプトシールド(スポットライティング付き)、PII検出をFoundryに組み込みました。
  • 企業事例としてKPMG、Commerzbank、Citrix、TCS、Sitecore、Elasticが採用/連携を表明し、規制産業や大規模エンタープライズでの適用が進んでいます。

Own your AI: Learn how to fine-tune Gemma 3 270M and run it on-device- Google Developers Blog

Own your AI: Learn how to fine-tune Gemma 3 270M and run it on-device- Google Developers Blog

  • Gemma 3は軽量かつ高性能なオープンモデル群であり、270M版は微調整とオンデバイス実行に適したサイズとして設計されています。
  • 目的特化の振る舞い(例:テキスト→絵文字のみ出力)を実現するには、プロンプト工夫だけでなく微調整を行うことが最も確実に効果を発揮します。
  • QLoRA(PEFT)を用いることで、更新する重みを限定してVRAM要件を大幅に削減し、無償のT4 GPU(Colab)でも短時間で微調整が完了します。
  • 量子化(例:16-bit→4-bit)によってモデルを約300MB未満に圧縮し、読み込みと推論を高速化しながら精度低下を小さく抑えられます。
  • MediaPipe(LiteRT)またはTransformers.js(ONNX)への一発変換ノートブックを用いることで、WebGPUを活用したブラウザ内推論を容易に実現できます。
  • ブラウザ内推論ではキャッシュ後の低レイテンシ、ユーザーデータの完全ローカル処理、オフライン動作という利点が得られます。
  • 提供リソース(Colabノートブック、サンプルWebアプリ、デモ、Gemma Cookbook)を活用することで、1時間未満でデータ作成からデプロイまで到達できます。

Sculptor: the missing UI for parallel coding agents

Sculptor: the missing UI for parallel coding agents

  • 各エージェントを独立コンテナで走らせて安全に並行実行できるように設計しました。
  • Pairing Modeでコンテナ内の変更をローカルリポジトリへ即時反映し、IDEでそのままテストとレビューができるようにしました。
  • 双方向同期により、開発者の編集やコメントがエージェントへリアルタイムに反映されるようにしました。
  • マージ支援を備え、取り込みたい変更だけを選び、潜在的なコンフリクトを自動で警告し、必要に応じてエージェントに解決を依頼できるようにしました。
  • セッションの永続化により、計画・チャット・ツール呼び出し・コード変更を丸ごと保存し、後からすぐ再開できるようにしました。
  • 今後の予定として、フォーキングエージェント、カスタムMCP、賢いコンテナ(Dockerfile対応)、GPT-5対応、英語ルールによる指示監査、より強力なSuggestionsを開発する計画を示しました。
  • 対応プラットフォームはMac(Apple Silicon)とLinuxを正式サポートし、Mac(Intel)は実験版、Windowsは今後対応予定としました。

What the Huge AWS Outage Reveals About the Internet

What the Huge AWS Outage Reveals About the Internet

  • 障害はAWSのUS-EAST-1リージョンで発生し、DynamoDBのAPIエンドポイントのDNS解決に問題が生じたとAWSが説明しました。
  • DNSが正しく名前とIPアドレスを対応付けられず、依存サービスに連鎖的な失敗が広がりました。
  • 影響はAmazonのECサイト、Ring、Alexa、WhatsApp、Venmo、Epic Gamesの各種サービス、英国政府サイトなど多岐に及びました。
  • AWSは初期の緩和策を適用し、根本の技術的問題は数時間で解消したものの、一部サービスはバックログ処理に時間を要しました。
  • 障害は悪意のあるDNSハイジャックの兆候はなく、構成や解決の不全による可用性・整合性の問題とみられます。
  • 大手クラウドへの集中は標準化とセキュリティ向上の恩恵をもたらす一方、広範囲な単一障害点(SPOF)を生みやすいというトレードオフが存在します。
  • 可用性だけでなく、データや名前解決の「整合性」を守る設計・監視・検証が不可欠であることが示されました。

How Sam Altman Tied Tech’s Biggest Players to OpenAI

How Sam Altman Tied Tech’s Biggest Players to OpenAI

  • アルトマンは「計算資源の確保」を最優先課題に据え、複数社を競わせる形で超大型契約を連発しました。
  • Nvidiaとは最大5百万枚のGPU相当のリース(推定3,500億ドル)と最大1,000億ドルの出資枠を含む協定を結び、融資保証の検討まで進みました。
  • Oracleとは3,000億ドル規模のクラウド契約を結び、将来収益見通しが跳ね上がったことで株価が急騰しました。
  • AMDとは最大6GWの計算能力確保で交渉し、OpenAIに将来株式の最大10%を与える条件が示されるなど、実質的な大型補助が提案されました。
  • Broadcomとはカスタムチップと10GW級の計算システム構築で連携を拡大しました。
  • SoftBankとは「Stargate」構想として5,000億ドル級のデータセンター建設を打ち出し、実行上の課題は残しつつ市場の期待を喚起しました。
  • これらの発表の直後、Oracle・Nvidia・AMD・Broadcomの株価が大幅上昇し、初日の時価総額合計で約6,300億ドルが加算されました。
  • OpenAIの年間売上見込みは約130億ドルと小さい一方で、契約ベースの計算コストは少なくとも6,500億ドル規模に達し、資金繰りと需要の見合いが大きなリスクになりました。
  • Microsoftは独占的クラウド方針を緩め、OpenAIの他社クラウド利用を容認しつつ、自社でも「世界最強級AIデータセンター」を打ち出して巻き返しを図りました。
  • 計算資源不足が製品投入を遅らせる中、Soraなど新製品がヒットし、需要拡大が投資正当化の根拠として語られました。
  • 過熱感や循環的な需要創出(パートナーがOpenAIに資金を供給し、その資金で自社チップが買われる構図)への懸念が指摘されました。

The Day Amazon Broke the Internet for Millions of Americans

The Day Amazon Broke the Internet for Millions of Americans

  • DNSの小さな更新が誤作動を起こし、AWSの重要サービスDynamoDBへの経路情報を誤らせました。
  • 東海岸のデータセンターでトラフィックが集中して名前解決が失敗し、機械が「間違った番号」を引く状態になりました。
  • Alexa、Slack、Zoom、Venmo、Instacart、報道サイト、金融取引プラットフォームなどが障害に見舞われました。
  • Amazonの物流システムや配送指示が午前2時頃から停止し、午前3時には影響が全米に拡大しました。
  • 航空便が4,000便以上遅延し、RobinhoodやCoinbaseなどの取引が一時不能になりました。
  • 142のAWSプロダクトが影響を受け、需要分散やコンテンツ配信など基盤機能にも障害が波及しました。
  • 東海岸障害により他リージョンへの移行を試みた顧客も移行できず、復旧対応が難航しました。
  • 企業はマルチクラウドや自社データセンター併用でリスク分散を図る必要性が高まりました。
  • 小規模事業者でも出荷・販促・決済が止まり、直接的な売上損失や業務遅延が発生しました。
  • 近年のCrowdStrikeやFacebookの事例同様、インターネットの基盤は小さな更新でも大規模に壊れ得ることが再確認されました。

How Oracle’s Dual CEOs Will Co-Lead Its AI Makeover

How Oracle’s Dual CEOs Will Co-Lead Its AI Makeover

  • Oracleは再び共同CEO体制を採用し、クレイ・マゴヤークがクラウドインフラを、マイク・シシリアが営業・産業別アプリなどのゴートゥーマーケットを担当すると発表しました。
  • 共同CEOはいずれもエンジニア出身で、専門領域を補完し合いながら意思決定を行う方針を示しました。
  • 共同CEO体制の上位には創業者で会長兼CTOのラリー・エリソンが位置し、ビジョン設定と最終調整で強い影響力を維持しています。
  • OracleのAI戦略は、クラウド基盤(OCI)から産業別アプリ、AIエージェントやモデル活用までを“エコシステム”として統合提供することに重心を置いています。
  • OpenAIをはじめとする大口顧客がOCIを利用する一方で、AIインフラは設備投資と運用コストが重く、利益率の確保に対する投資家の疑念が残っています。
  • 共同CEOの成功条件は、高頻度コミュニケーション、明確な責任分界、高い相互信頼であり、権限の重複や縄張り意識は失敗要因になり得ます。
  • Oracleはヘルスケアや銀行など業種別に“課題をまるごと解く”提案を強化し、クラウド×AI×アプリの一体展開で差別化を狙っています。
  • 共同CEOはNetflix、SAP、Salesforce、Spotifyなどでも事例があるものの一般的ではなく、組織の複雑性とリスクの増加が伴います。

AI Enigma: Search Traffic Drops to Sites, but Revenue Doesn’t—Yet

AI Enigma: Search Traffic Drops to Sites, but Revenue Doesn’t—Yet

  • AIチャットボットやGoogleのAI Overviewsにより、検索結果からサイト訪問せず情報が完結する場面が増えたことを受けて、多くの企業でサイト流入が減少しています。
  • 一方で、広告非依存のビジネスでは、来訪者の意図が強まりコンバージョンが改善し、売上が維持または増加しています。
  • ニュース出版社など広告・アフィリエイト依存の業種は打撃を受け、収益が低下しています。
  • 企業は流入減の長期影響を警戒し、検索広告への再配分、ストリーミングTV広告のテスト、YouTube動画の増産など施策を見直しています。
  • 「生成エンジン最適化(GEO)」として、Reddit更新の強化や、AIが取り込みやすい要約・完全文のFAQ整備など、AI回答に拾われやすい表現へ最適化を進めています。
  • AI検索からの流入は増加傾向にあり、滞在時間や購買率が高い傾向が見られます。
  • Googleはクリックは概ね安定と主張しますが、有料・独立サイトの広告市場縮小は認められ、検索の質的変化は進行しています。

Inside Hyperliquid, Ground Zero for the Latest Crypto Controversy

Inside Hyperliquid, Ground Zero for the Latest Crypto Controversy

  • Hyperliquidは日次取引高が約$13Bに達し、手数料開示に基づく年率換算収益が$1Bを超えました。
  • 市場急落日に$10B超の強制清算が発生し、価格下落を加速させた可能性が指摘されました。
  • 創業者Jeff YanはFTX崩壊を受けて分散型モデルを選択し、顧客資産の自己保管とアルゴリズムによるマッチングを重視しました。
  • 外部資金を入れず、独自トークンHYPEをエアドロップ(総供給の31%)し、手数料での買い戻し設計により価格上昇とユーザー獲得を同時に実現しました。
  • HYPEは発行時$3.90から約$38へ上昇し、流通時価総額は約$10Bとなり、著名ファンドや米上場企業も保有・取得計画を表明しました。
  • 匿名取引と高レバレッジの提供が成長ドライバーとなり、米国ユーザーはVPNでアクセス可能という実態が存在しました。
  • トランプ前大統領の対中100%関税発表直前に大口ショートが建てられ、インサイダー観測が浮上しました(真偽不明)。
  • チーム情報の大半が匿名・偽名で、規制未整備の中でユーザー保護や紛争解決の手段が限られています。
  • クリプト以外(株式指数、未公開株評価、コモディティ、金利など)まで「すべての金融」をオンチェーンで扱う構想を示しました。
  • 米国参入にはライセンス取得やレバレッジ制限などの適合が必要となる見込みで、規制当局への意見提出などロビー活動も始めました。

What Investors Are Missing in Apple’s iPhone 17 Sales Surge

What Investors Are Missing in Apple’s iPhone 17 Sales Surge

  • iPhone 17シリーズの初期10日間販売が米中で前年モデル比14%増となったと報告されましたが、主にエントリーモデルの人気が牽引しました。
  • エントリーモデルが売れ筋になると平均販売単価が下がり、台数が伸びても売上高・粗利率の押し上げ効果が限定的になります。
  • Appleは売上高ベースで決算を開示するため、モデルミックスの悪化は投資家の期待とのギャップを生みやすくなります。
  • 安価モデルへの「ダウングレード」需要が強い場合、付帯アクセサリー(AirPodsやApple Watch)への追加支出が鈍る可能性があります。
  • マクロ環境で消費者の節約志向が広がる中、富裕層を除いて消費の強さにばらつきが見られる点がリスクとして示唆されました。
  • 本決算の開示範囲は限定的であるため、10月30日の発表時に期待先行の株価が反落するリスクが残ります。
  • 併載トピックとして、AWSの大規模障害やAmazon株の年初来マイナス、宇宙・スタートアップ人事などのニュースも触れられました。

The Data Center Boom Enters a Speculative Era

The Data Center Boom Enters a Speculative Era

  • OpenAI・xAI・Metaなどが今後10年で数百億ドル規模のサーバー調達と運用を計画し、業界は「誰が最も多くのギガワットを建てるか」に関心が移りました。
  • BlackRock等がAligned Data Centersを約4兆円規模で買収し、事業売却・再編の期待が広がりました。
  • OpenAIはAMDや自社設計(Broadcom協業)チップの活用を示し、NVIDIA一極依存の緩和を狙っています。
  • コア開発者と投資家がチップや設備を購入し開発企業に貸し戻す「リースバック」型スキームが拡大し、資金負担とリスクの分散を図っています。
  • NVIDIAが顧客・プロジェクトの資金面に関与を強めることで、需要が歪められる懸念が業界内で高まりました。
  • PoolsideやFermiなど新規参入がギガワット級案件に挑戦していますが、経験不足や運用課題に対する懐疑が広がっています。
  • Microsoftは契約上OpenAIの全需要を満たせる立場にありながら、Oracleの関与を容認しており、需要鈍化観測またはリスク許容度の違いが示唆されました。
  • Oracleが掲げる高い収益目標に対し、直近のAIクラウド実績とのギャップが15〜20ポイントあるとされ、採算化のハードルが意識されています。
  • 電力・設備・人材ボトルネック、引き渡しまでのキャッシュフローギャップが積み上がり、過大案件の崩落や淘汰が起きる可能性があります。

The Electric: A Chinese AI Expert On What It Will Take For Cars To Go Completely Autonomous

The Electric: A Chinese AI Expert On What It Will Take For Cars To Go Completely Autonomous

  • 現行主流の高精度地図方式は運用範囲を狭めてしまうため、真の“どこでも自動運転”には限界があると指摘されました。
  • 代替アプローチとして、視覚・言語・行動を結ぶVLA(Vision-Language-Action)などのロボティクス系AIで、人間運転のデータから推論能力を獲得させる方針が提案されました。
  • 各社の戦略は分岐しており、Waymoは地図を重視しつつAI併用、中国勢はVLAやVLM、シンプルマップ方式、さらには地図も中間言語化も省く“ビジョン→アクション直結”型まで多様化しています。
  • 中国のDeepRoute AIは「学習のスケール」を重視し、数百万台規模での車載展開からデータを吸い上げる必要性を強調しました。
  • 中国市場では実地評価でHuaweiのシステムが高く評価され、次点にXPengが続くなど、プロダクト実装力の競争が進んでいます。
  • 自動運転の覇権は産業地図を塗り替える可能性があり、テスラが示すロボタクシー構想の巨大な付加価値が各陣営の投資と技術選択を左右しています。
  • 地政学では米中の資源・技術を巡る応酬が激化し、レアアースやコバルトなど電動化・自動運転に不可欠な供給網が政策リスクに直面しています。

A Troubled $140 Billion Bet on China Property Gets Even Worse

A Troubled $140 Billion Bet on China Property Gets Even Worse

  • 外資は過去15年で約1,400億ドルを中国のオフィス、物流、商業施設などに投資しましたが、需給悪化で値下がりし損失が拡大しています。
  • 2023〜2024年の不動産ディストレスト売却は合計1,140億元に達し、2024年は取引全体の22%を占めました。
  • 北京・上海のオフィス資本価値は2019年比で少なくとも40%下落し、空室率は主要都市で20〜40%以上と世界でも高水準になっています。
  • デフレ傾向や対米関税の上昇が景気を圧迫し、過剰供給の吸収には数年を要すると予想されています。
  • キャップレートが上昇し、リスクプレミアム拡大と資産評価の下落圧力が続いています。
  • ブラックロックやカーライルは上海のオフィス資産を大幅損で売却・返還し、貸し手の銀行にも損失が及びました。
  • 物流施設も供給過剰で、家賃は更新時に約25%引き下げられる事例が出ています。一方、ブラックストーンの一部物流売却は利益が出た例外もありました。
  • オークツリーは恒大から接収した「威尼斯海上城」案件で運営・売却回収を試みていますが、市況悪化で出口は不透明です。
  • 2024年の全国オフィス賃料は前年比6.9%下落し、上海の新規供給は少なくとも2028年まで減らない見通しです。
  • オックスフォード・エコノミクスは2030年の名目資産価値が2020年を下回る可能性を示し、「失われた10年」になるリスクを指摘しました。

OpenAI Hires Ex-Goldman Staff to Help Cut Down Junior Bankers’ Grunt Work

OpenAI Hires Ex-Goldman Staff to Help Cut Down Junior Bankers’ Grunt Work

  • OpenAIは「Mercury」という非公開プロジェクトで、100名超の元投資銀行員を起用してAIに財務モデリングを学習させています。
  • 参加者は時給$150で、リストラクチャリングやIPOなどの取引類型に応じた財務モデルを作成し、シンプルなプロンプトで実行する流れを設計しました。
  • 採用・評価プロセスはAIチャット面接、財務諸表の知識テスト、モデリング試験の3段階で、主に非対面で進みます。
  • 週1本のモデル提出が求められ、レビューのフィードバックを反映したうえでOpenAIのシステムに組み込まれます。
  • 参加者はJPMorgan、Morgan Stanley、Goldman Sachsなどの出身者や、HarvardやMITのMBA在籍者を含みます。
  • モデルはExcelで作成し、マージン設定やパーセンテージのイタリック体など、業界標準の書式に従うことが求められます。
  • 目的はジュニアバンカーの長時間労働を生む定型作業(モデル作成、スライド修正)を削減し、企業向けの有用性を高めることにあります。
  • OpenAIは第三者のサプライヤー経由で専門家を募集・管理・報酬支払いしており、事業化と収益化の加速が背景にあります。
  • AIの普及でジュニア職の仕事の一部が置き換わる懸念がある一方、品質担保や監督プロセスの重要性が増しています。

Thread by @PFU_HHKB