<< DN 2025-10-31 | DN 2025-11-02 >>
Claude Skills, anywhere: making them first-class in Codex CLI - Robert Glaser
- Claude SkillsはSKILL.mdのYAMLフロントマター(name, description, allowed-tools)だけを最初に読む設計で、必要時に本文を遅延ロードするように設計すると効果的に機能します。
- 非Claudeエージェントでも標準準拠のスキル列挙ツール(list-skills)を用意すれば同様に動作させられます。
- list-skillsはskills/**/SKILL.mdを走査し、name/description/allowed-toolsをJSONで出力するだけの単純な仕組みで実装できます。
- CodexのAGENTS.mdに「起動時にlist-skillsを実行して記憶し、必要なときだけSKILL.md本文を読む」と明記すると、プログレッシブな発見・選択が働きます。
- スキル群をプロジェクト内に複製せず、
/.codex/skillsに集約し、/bin/list-skillsをPATHに置くことで全リポジトリで即時共有・更新が可能になります。 - 動作例としてPDF生成要求に対し、スキル候補の列挙→該当スキル本文の遅延読込→reportlabでPDF生成という最小手順で達成しました。
- 形式はベンダー非依存で、ロックインを避けつつ、スキル作者側で重い実装を担い、エージェント側の契約は小さく保たれます。
Introducing gpt-oss-safeguard - OpenAI
- gpt-oss-safeguardは推論型の安全分類モデルで、開発者が指定する任意のポリシーを推論時に読み取り、コンテンツを分類しながら理由を提示します。
- モデルは2サイズ(120b / 20b)で、Apache 2.0ライセンスのオープンウェイトとしてHugging Faceで提供され、自由に利用・改変・配布できます。
- 事前に大量データで決め打ち学習する従来型分類器と異なり、ポリシーを入れ替えるだけで動作を即時に更新でき、ポリシー改善の反復が容易になります。
- チェーン・オブ・ソート(理由付け)を出力し、判定根拠を人間が確認できるため、説明可能性と運用上の調整がしやすくなります。
- 新興のリスクや複雑で微妙な領域、学習データが乏しいケース、レイテンシより品質と説明性を重視する用途で特に有効に機能します。
- 内部検証では複数ポリシー同時評価で高精度を示し、サイズの大きい思考モデルを一部上回る結果が報告されました(条件により差異あり)。
- 限界として、大量高品質データで訓練した専用分類器が精度で勝る場合があり、計算コストとレイテンシが相対的に大きくなります。
- 実運用の勘所として、小型高速分類器で絞り込んだ後に本モデルで精査する多層防御や、非同期判定でUXを保ちながら介入可能性を確保する設計が推奨されます。
- OpenAI内部のSafety Reasoner手法をオープン化した位置づけで、ROOSTらとコミュニティ連携し、評価・実装ナレッジを共有して改善を継続します。
Emergent introspective awareness in large language models - @AnthropicAI
- 研究は「概念注入(concept injection)」で内部表現を人工的に混入し、モデル自身が注入の有無と内容を言い当てられるかを検証しました
- Claude Opus 4/4.1は約20%の成功率で注入を「直ちに」検知し、内容も言い当てる場合があり、他モデルより良好に振る舞いました
- 成功の鍵は注入強度の「スイートスポット」にあり、弱すぎると気づかず、強すぎると幻覚や意味破綻を誘発しました
- 事後に出力を不自然にプリフィルし、さらに過去の内部状態に「その語を考えていた」痕跡を注入すると、モデルはそれを意図的発話だと再解釈しました
- モデルは「考える/考えない」「報酬/罰」の指示や誘因で内部表現の強度を能動的に上下させる傾向を示しました
- 内省は一貫せず信頼性に乏しい一方、より高性能・適切な後段学習(post-training)で改善する兆候が見られました
- 実務的含意は透明性・デバッグ・脱獄検知の向上ですが、自己報告の妥当性検証と虚偽・取りこぼしの識別が不可欠です
- 本研究は意識の有無を示すものではなく、あくまで「アクセス可能な内部情報の自己参照」機能の初期的証拠に位置づけられます
Remote Labor Index -
- RLIは実世界のリモートワーク案件でAIエージェントの「終端到達(納品合格)」能力を評価するために設計されました。
- 対象はゲーム開発、プロダクトデザイン、建築、データ分析、動画アニメーションなど多分野にまたがっています。
- 案件は実務の難易度・規模に近く、総計6,000時間超・総額約$140,000相当の人間による実作業データに基づいています。
- 先端AIエージェントの自動化率は最高でも2.5%となり、受注水準の品質で完了できた案件はごく一部にとどまりました。
- 低い絶対値にもかかわらず、モデル性能は改善傾向にあり、進歩を継続的に測定できる共通指標として機能します。
- ベンチマークの飽和と実務価値の乖離を埋め、AI自動化の現実的な進捗と影響を利害関係者が追跡できる基盤を提供します。
AWS activates Project Rainier: One of the world’s largest AI compute clusters comes online - US About Amazon
- AWSは発表から1年足らずでProject Rainierを本稼働させ、約50万枚のTrainium2チップを配備しました。
- Anthropicは本クラスタでClaudeの学習・推論を実行しており、2025年末までに100万枚超のTrainium2利用を見込みました。
- UltraServer(64枚/台)とUltraCluster構成により、NeuronLinksとEFAでチップ内・データセンター間の通信を最適化しました。
- AWSはチップからデータセンター設計まで垂直統合し、性能・信頼性・コスト最適化を同時に進めました。
- 100%再エネ相当の電力調達(2023–2024)や水使用効率の改善など、スケールとサステナビリティの両立を図りました。
Agent Labs Are Eating the Software World - Log - nibzard - nibzard, nibzard
- モデルラボは長期R&Dで汎用モデルを作りますが、エージェントラボは既存モデルで具体的な業務成果を短期で出し続けます。
- エージェントラボはプロンプトの入出力だけでなく、ファイル変更・テスト・承認などの「作業トレース全体」を取得して学習します。
- 成果物ではなく成果(例: 機能実装率、バグ解決率)に最適化し、評価指標を業務KPIに合わせて設計します。
- アーキテクチャの核は、推論(計画・分解・内省)・メモリ・ツール実行・制御ループで構成されます。
- 信頼性を最優先にするため、モデル改良よりも評価基盤とガードレールへの投資を重視します。
- データの堀はワークフローデータ・ドメイン知識・ユーザー関係・評価インフラで構築し、モデル単体では模倣が難しいです。
- 成長プレイブックは、API活用 → トレース収集と評価 → ナローモデル導入 → 微調整 → ドメイン特化モデルの内製と進みます。
- 価格設計はトークン消費ではなく成果ベースへ移行し、企業導入ではマルチエージェント・観測性・安全性が鍵になります。