Episodes

  • 株式会社ずんだもん技術室AI放送局 podcast 20260113
    Jan 12 2026
    youtube版(スライド付き) 関連リンク AI エージェントのために CLI でブラウザを操作する agent-browser 本記事は、Vercelが開発したAIエージェント向けのブラウザ操作ツール「agent-browser」について解説しています。AIエージェントが自律的にタスクをこなす際、特にフロントエンド開発においては「ブラウザ上での動作確認」が不可欠ですが、これまでの手法にはLLMの特性上の課題がありました。 1. 概要と開発の背景 「agent-browser」は、CLI(コマンドラインインターフェース)を通じてブラウザを操作するためのツールです。これまでAIにブラウザを操作させる手段としては「Playwright MCP」などが主流でしたが、これらはツールの定義や操作の中間過程がLLMの「コンテキスト(一度に処理できる情報量)」を大量に消費してしまうという弱点がありました。Vercelが開発したこのツールは、CLIコマンドを介してやり取りを完結させることで、コンテキストの消費を抑えつつ効率的なブラウザ操作を実現するように設計されています。 2. 主な特徴と制約 このツールの最大の特徴は、現在のページ状態を「アクセシビリティツリー」として取得できる点にあります。 効率的な状態把握: スクリーンショット画像のような重いデータではなく、要素の階層構造やテキスト内容を示す軽量なテキスト情報をLLMに渡すため、AIがページの構造を素早く正確に理解できます。動作環境と制約: 内部でPlaywrightを利用しているため、実行環境にはChromiumブラウザのインストールが必要です。また、ブラウザ自体はバックグラウンド(ヘッドレス)で動作するため、リソース消費を抑えた運用が可能です。操作の仕組み: open(URLを開く)、snapshot(状態取得)、click(クリック)といったシンプルなコマンドをAIに実行させることで操作を行います。 3. AIエージェントへの組み込み Claude Codeなどの最新ツールと組み合わせることで、開発中のWebアプリの動作確認をAIに自律的に行わせることができます。「エージェントスキル」という仕組みを利用して、AIが必要な時だけこのツールを呼び出すように設定すれば、LLMの記憶容量を節約しながら高度な自動化が可能になります。 4. 既存ツールとの比較 Playwright MCPと比較した場合、agent-browserは「コンテキスト消費の少なさ」で勝りますが、要素の特定やクリックの正確性において、現時点ではPlaywright MCPの方が安定している面もあります。これは、AIへのフィードバックの返し方やセレクタの指定方法の違いによるものです。 まとめ 新人エンジニアの皆さんにとって、AIに「ブラウザを操作する能力」を与えることは、テストやデバッグの自動化を劇的に進化させる第一歩となります。agent-browserは、Vercelらしいシンプルかつ効率的なアプローチで、AIエージェントによる開発支援をより実用的なものにしてくれるツールです。 引用元: https://azukiazusa.dev/blog/agent-browser-for-ai-agents/ NeuralGCM harnesses AI to better simulate long-range global precipitation Google Researchが発表した「NeuralGCM」は、従来の物理ベースの気象モデルとAI(ニューラルネットワーク)を組み合わせたハイブリッド型の地球規模大気シミュレーションモデルです。特に予測が困難とされる「降水量」のシミュレーションにおいて、劇的な精度向上を達成しました。 1. 物理学とAIの「ハイブリッド」というアプローチ 従来の気象予測には、流体力学などの物理方程式を解く「数値気象予測」が使われてきました。しかし、雨の源となる「雲」は数百メートル単位の極めて小さなスケールで発生するため、地球規模の大きな網目(グリッド)で計算するモデルでは、細かな物理現象を正確に計算できず、近似式(パラメータ化)に頼らざるを得ないという課題がありました。 NeuralGCMは、大きなスケールの動きは物理エンジンで計算し、雲の形成や降水といった複雑で小さなスケールの現象をAIが担当することで、この課題を解決しています。 2. NASAの衛星データによる直接学習 今回の大きな進展は、AI部分の学習に「NASAの衛星観測データ(IMERG)」を直接使用したことです。 これまでのAIモデルの多くは、物理モデルと観測値を組み合わせた「...
    Show More Show Less
    Less than 1 minute
  • 私立ずんだもん女学園放送部 podcast 20260109
    Jan 8 2026
    youtube版(スライド付き) 関連リンク Dynamic context discovery エンジニアの間で絶大な人気を誇るAIエディタ「Cursor」が、開発効率と精度を劇的に向上させる新技術「Dynamic Context Discovery(動的コンテキスト探索)」を発表しました。 これまでのAI(コーディングエージェント)は、関連しそうな情報をあらかじめプロンプトにすべて詰め込む「静的コンテキスト」に頼ってきました。しかし、情報が多すぎるとトークン(AIが消費する文字数のようなもの)を無駄に消費し、AIが重要な情報を見失って誤答する原因にもなります。そこでCursorは、AIが必要な時に、必要な情報だけを自ら「探しに行く」仕組みへとシフトしました。 このアプローチの核心は「あらゆる情報を『ファイル』として扱う」という非常にシンプルで強力な工夫にあります。具体的には、以下の5つの方法で実装されています。 長い実行結果のファイル化: ツールやコマンドの長い実行結果をプロンプトに直接貼るのではなく、一度ファイルに書き出します。AIは必要に応じてそのファイルを読みに行けるため、情報が途中で切り捨てられる(Truncation)のを防げます。会話履歴の再検索: 会話が長くなり、過去のやり取りを「要約」して圧縮した際、重要な細部が消えてしまうことがあります。履歴をファイルとして保持することで、AIは要約で分からなくなった情報を後から検索して復元できます。Agent Skills(スキルの動的読み込み): 特定のタスク(例:特定のライブラリ操作)の手順を記した「スキル」ファイルを、必要な時だけAIがセマンティック検索で見つけ出し、利用します。MCPツールの効率化: 外部連携ツール(Model Context Protocol)の膨大な定義情報を常に読み込むのではなく、必要なツールの説明だけを動的に読み込みます。これにより、トークン使用量を約47%も削減することに成功しました。ターミナル履歴の同期: 統合ターミナルの出力をファイルとして同期。AIは「grep」などのコマンドを使って、膨大なログの中からエラーの原因だけを特定できます。 新人エンジニアの方にとって、LLMの「コンテキスト制限(一度に覚えられる量の限界)」は大きな壁に感じられるかもしれません。Cursorのこの技術は、情報を闇雲に詰め込むのではなく、「賢く検索して必要な分だけ取り出す」という、ベテランエンジニアがドキュメントを読み解くような動きをAIにさせている点が非常に画期的です。このアップデートにより、大規模なコードベースでもAIがより正確に、そして高速にサポートしてくれるようになります。 引用元: https://cursor.com/blog/dynamic-context-discovery Accelerating LLM and VLM Inference for Automotive and Robotics with NVIDIA TensorRT Edge-LLM NVIDIAは、自動運転車やロボティクスなどのエッジデバイス上で、大規模言語モデル(LLM)や視覚言語モデル(VLM)を高速かつ効率的に動作させるための新しいオープンソースC++フレームワーク「NVIDIA TensorRT Edge-LLM」を発表しました。 背景と開発の目的 これまでLLMの推論フレームワーク(vLLMなど)の多くは、データセンターでの大量の同時リクエスト処理やスループットの最大化を重視して設計されてきました。しかし、自動車やロボットといったエッジ環境では、「単一ユーザーに対する極めて低いレイテンシ」「オフライン環境での動作」「限られたメモリや電力リソース」といった特有の課題があります。TensorRT Edge-LLMは、こうしたエッジ環境特有のニーズに応えるために、ゼロから設計された軽量かつ高性能なソリューションです。 本フレームワークの主な特徴 エッジ特化の軽量設計: C++ベースで依存関係を最小限に抑えており、リソースに制約のある組み込みシステムへの導入が容易です。最新の高速化技術: EAGLE-3 投機的デコーディング: 推論速度を劇的に向上させます。NVFP4 量子化: 高い精度を維持しつつ、メモリ消費と計算負荷を削減します。チャンク化プリフィル (Chunked Prefill): 効率的なトークン処理を可能にします。 高い信頼性: リアルタイム性が求められるミッションクリティカルな製品(自動運転や産業用ロボット)に耐えうる堅牢なパフォーマンスを提供します。 導入の...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260108
    Jan 7 2026
    youtube版(スライド付き) 関連リンク Googleが開発した次世代AIエージェントIDE「Antigravity」がやばすぎる Google DeepMindが発表した「Antigravity」は、これまでの開発環境の常識を覆す、AIエージェントを中心(Agent-First)に据えた次世代の統合開発環境(IDE)です。従来のIDEが「人間が書き、AIが補完する」ものだったのに対し、Antigravityは「AIエージェントが自律的に動き、人間がそれを監督・共創する」という新しいパラダイムを提示しています。 新人エンジニアの方にとっても、これからの開発スタイルのスタンダードを知る上で非常に重要な技術です。主な要点は以下の通りです。 1. 「Gemini 3」を搭載したエージェント・ファーストな設計 Antigravityは、Googleの最新AIモデル「Gemini 3」シリーズをエンジンとして採用しています。最大の特徴は、AIが単なる「コード補完ツール」ではなく、意思を持ってタスクを完遂する「エージェント」として機能する点です。 エージェントは、必要なAPIのドキュメントを自ら読み込み、実装に向けた具体的な計画を立て、実際にコードを書き、エラーが出れば自律的にデバッグまで行います。これにより、開発者は細かい構文に悩む時間から解放され、システム全体の設計や「どんな価値を提供するか」という本質的な意思決定に集中できるようになります。 2. ブラウザを自ら操作し、動くところまで責任を持つ このIDEにはブラウザが統合されており、AIエージェントは人間と同じようにブラウザを操作できます。コードを書いて終わりではなく、実際にアプリを立ち上げ、クリックやスクロールをしてUIが正しく動作するかをテストします。エラー画面のスクリーンショットを撮って原因を分析する姿は、まさに「自律して動く同僚」そのものです。 3. 「Artifacts(アーティファクト)」による作業の可視化 AIに作業を任せきりにすると「中で何をやっているか分からない」という不安が生まれがちですが、Antigravityは「Artifacts」という仕組みでこれを解決しています。 AIは作業の過程で、TODOリストや実装計画書、作業ログなどを逐次作成し、ユーザーに提示します。開発者はこれらをチェックすることで、AIの思考プロセスを把握し、必要に応じて「そこはこう直して」と指示を出したり、承認したりすることができます。この透明性が、人間とAIの信頼関係を築く鍵となっています。 4. 開発者の脳を「マルチスレッド化」する DeepMindは、この環境を「開発者の脳をマルチスレッド化するもの」と表現しています。一人のエンジニアが複数の機能をAIエージェントに並行して任せ、自分はそれらの進捗を確認・統合していくような、高度なチーム開発に近い体験が可能になります。 まとめ Antigravityは、AIを「便利な道具」から「頼れるパートナー」へと昇華させる試みです。現在はWindows、macOS、Linux向けにパブリックプレビュー版が公開されており、誰でもこの未来の開発体験に触れることができます。これからエンジニアとしてのキャリアを歩む皆さんにとって、AIとどのように手を取り合って生産性を高めていくか、そのヒントが詰まったツールと言えるでしょう。 引用元: https://zenn.dev/mitsuo119/articles/5e6cbda8ada83d 育てるほど楽になる AI 開発体制を作っている話 BLOG - DeNA Engineering 本記事は、DeNAの新規サービス開発チームにおいて、生成AI(Claude CodeやCursor等)を単なる「個人の補助ツール」から「プロジェクトの文脈を理解したチームメンバー」へと引き上げ、開発生産性を劇的に向上させた事例を紹介しています。新人エンジニアの方にとっても、モダンなAI駆動開発の理想形を知る上で非常に参考になる内容です。 1. 背景と課題 複雑なドメインを持つ新規開発プロジェクトでは、「AIの出力がプロジェクト固有のルールに従わない」「レビューでAIが汎用的なことしか言わない」といった課題がありました。これを解決するため、AIに与える「コンテキスト(文脈)」をリポジトリ内で一元管理し、AIを「育てる」仕組みを構築しました。 2. ワークフロー設計の2つの指針 レビュー作業の「量」を減らす: 機械的なチェック(規約違反や単純なバグ)はAIによる一次...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260107
    Jan 6 2026
    youtube版(スライド付き) 関連リンク Claude Code、Google開発チームの1年分を1時間で実現──AI支援コーディングの転換点 Googleのプリンシパルエンジニアであるヤナ・ドーガン氏が、Anthropic社のエージェント型コーディングツール「Claude Code」を用い、自身のチームが1年かけて開発してきたシステムに匹敵するプロトタイプをわずか1時間で構築したと報告し、大きな注目を集めています。 1. 衝撃の報告とその背景 ドーガン氏が作成したのは、複数のAIエージェントを効率的に管理・調整する「分散型エージェントオーケストレーション」という複雑なシステムの概念実証(PoC)です。Googleチームが1年間、様々なアプローチを試行錯誤し議論を重ねてきた内容を、Claude Codeは提示された問題定義からわずか1時間で形にしました。 ただし、これは「本番環境用(プロダクショングレード)」ではなく、あくまで「動作モデル(トイバージョン)」であると補足されています。しかし、専門知識を持つ人間がAIを活用することで、自身の知見をこれほどの短時間で再構築・具現化できるようになった事実は、開発プロセスの劇的な変化を象徴しています。 2. AIコーディングの急速な進化曲線 記事では、ここ数年のAI支援プログラミングの進化が以下の通りまとめられています。 2022年:コードの「行」単位の補完2023年:コードの「セクション(ブロック)」全体の処理2024年:複数ファイルにまたがる作業、小規模アプリの構築2025年:コードベース全体を理解した作成・再構築 かつては5年先と考えられていたレベルに既に到達しており、開発効率の向上は専門家の想像を遥かに超えるスピードで進んでいます。 3. エンジニアのための実践的な活用ヒント Claude Codeを最大限に活用するための重要な戦略も示されています。 フィードバックループの構築:AIに自身の作業を検証する方法(テストコードなど)を与えることで、出力の品質が2〜3倍向上します。「プランモード」の活用:いきなり実装させるのではなく、まず対話を通じて計画を十分に固めてから実行に移すことが成功の鍵です。並列実行と外部ツール連携:複数のタスクを並列してAIに実行させたり、エラーログ監視ツール等と連携させたりすることで、開発サイクルを加速させます。 4. これからのエンジニアの役割 現在、Anthropic社内ではコードの約90%がAIによって書かれているといいます。エンジニアの役割は「自らコードを書く人」から、戦略的思考や複雑な問題解決、そして「AIシステムを管理・監督する人」へとシフトしています。 新人エンジニアにとっても、AIを単なる補助ツールとしてではなく、自身の能力を拡張するパートナーとして使いこなし、高次の設計や検証に注力するスキルが今後ますます重要になるでしょう。 引用元: https://innovatopia.jp/ai/ai-news/76604/ Inside the NVIDIA Rubin Platform: Six New Chips, One AI Supercomputer NVIDIAは、次世代AIプラットフォーム「Rubin(ルービン)」の詳細を発表しました。本プラットフォームは、AIが単なるモデルの推論を超え、常に動作し続け知能を生み出す「AIファクトリー(AI工場)」へと進化した現状に対応するために設計されました。 Rubinの最大の特徴は「エクストリーム・コーデザイン(究極の共同設計)」という思想です。これは、GPU単体の性能向上に留まらず、CPU、ネットワーク、ソフトウェア、冷却システムまでを一つの計算システムとして統合的に設計する手法です。これにより、データセンターそのものを一つの計算ユニットとして扱います。 中心となるのは、以下の6つの新型チップです。 Vera CPU: カスタム設計の「Olympusコア」を搭載。データ転送のボトルネックを解消し、GPUの稼働率を最大化する「データエンジン」として機能します。Rubin GPU: HBM4メモリを搭載し、最新のTransformer Engineにより推論性能を飛躍させた「実行エンジン」です。NVLink 6 スイッチ: GPU間通信を3.6TB/sに倍増させ、ラック内のGPUを一つの巨大な計算機として繋ぎます。ConnectX-9 SuperNIC: ラック外との超高速通信を実現します。BlueField-4 DPU: ネットワークやセキュリティなどのインフラ処理を専門に引き受け、計算...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20260106
    Jan 5 2026
    youtube版(スライド付き) 関連リンク 2025 JavaScript Rising Stars 2025年のJavaScriptエコシステムを振り返る「JavaScript Rising Stars」の第10回記念版が公開されました。この1年間で最も勢いのあったプロジェクトをGitHubのスター獲得数に基づきランキング形式で紹介しています。新人エンジニアの方にとっても、現在のフロントエンドやバックエンドの潮流を把握するのに最適な資料です。 1. 2025年の主役:AIエージェントとワークフローの爆発 今年の総合1位は、ワークフロー自動化プラットフォームの「n8n」です。1年間で11万以上のスターを獲得するという異例の記録を樹立しました。単なるチャットボットの時代は終わり、AIが自律的にタスクを遂行する「AIエージェント」や、それを制御する「ワークフローエンジン」へと関心が移っています。 2. フロントエンド:Reactの再燃とUIの新機軸 フレームワーク部門ではReactが首位を奪還しました。React 19のリリースや、React Server Components(RSC)によるサーバー側へのシフトが大きな議論を呼びました。UI関連では、もはや定番となった「shadcn/ui」が2位を維持。さらに、美しいアニメーションコンポーネント集の「React Bits」が3位にランクインするなど、デザインの質と開発効率の両立が求められています。 3. ツールチェーン:Bunの躍進とTypeScriptの進化 ツール部門では「Bun」が1位を獲得しました。驚くべきニュースとして、Bunの開発チームがAI企業のAnthropicに買収されたことが挙げられます。これにより、AIエージェントを実行する基盤としてのJavaScript実行環境の重要性が増しています。また、MicrosoftがTypeScriptをGo言語で書き直している(TypeScript 7.0への布石)という発表もあり、ビルド速度の劇的な向上が期待されています。 4. バックエンドとモバイルの新たな波 バックエンドでは、APIやジョブ、AIエージェントを一つの仕組みで扱える「Motia」が初登場で1位となりました。モバイル部門では、React Nativeを抑えてSnap社の「Valdi」やByteDance社の「Lynx」といった、Web技術を使いつつネイティブ性能を極限まで引き出す新興フレームワークがスターを集めました。 5. セキュリティへの警鐘 革新の一方で、エコシステムの脆弱性も浮き彫りになりました。RSCに関連する脆弱性「React2Shell」や、npmを標的とした大規模なサプライチェーン攻撃が発生しました。新人エンジニアは、便利なライブラリを使うだけでなく、依存関係の監査やセキュリティ意識を持つことが不可欠になっています。 2026年に向けては、AIエージェントをいかに使いこなし、複雑化するサーバー・クライアントの境界線を正しく理解することが、エンジニアとしての重要なスキルになるでしょう。 引用元: https://risingstars.js.org/2025/en Introducing Falcon-H1-Arabic: Pushing the Boundaries of Arabic Language AI with Hybrid Architecture アラブ首長国連邦の技術革新研究所(TII)が、アラビア語に特化した最新のLLMシリーズ「Falcon-H1-Arabic」を発表しました。本モデルは、従来のTransformerと、長文処理に優れた次世代アーキテクチャ「Mamba(状態空間モデル)」を融合させたハイブリッド構成を採用しており、アラビア語NLPの新たなスタンダードを確立しています。 1. 革新的な「ハイブリッド・アーキテクチャ」 最大の特徴は、MambaとTransformerのアテンション機構を各ブロック内で並列に実行し、出力を融合させている点です。これにより、Mambaの強みである「長いシーケンスに対する効率的なスケーラビリティ(処理の速さ)」と、Transformerの強みである「精密な推論能力」を両立しました。特にアラビア語のような複雑な語形変化を持つ言語において、長文の一貫性と推論性能を大幅に向上させています。 2. 巨大なコンテキストウィンドウの実現 前モデルの32Kから飛躍的に進化し、3Bモデルで128K、7Bおよび34Bモデルでは最大256Kトークン(約20万語分)の入力を処理可能です。これにより、数百ページの技術文書や法務資料、複数の小説などを一度に読み込めるようになり、ドキュメント全体の深い分析や高度な対話が可能になります。 3. 多様なアラビア語方言とデータ品質へのこだわり 学習データ(約3000億トークン)は、標準的な...
    Show More Show Less
    Less than 1 minute
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20260105
    Jan 4 2026
    関連リンク Claude Code Workflow Studio完全ガイド|ビジュアルでAIワークフローを構築する新時代 1. Claude Code Workflow Studioの概要 「Claude Code Workflow Studio」は、Anthropic社が提供するAI搭載CLIツール「Claude Code」のワークフロー機能を、直感的なビジュアルエディタで構築・編集できるVS Code拡張機能です。通常、Claude Codeで高度な自律動作(AIエージェント)を定義するには、複雑な設定ファイルを手動で記述する必要がありますが、本ツールはこれらを「ノード」を繋ぐキャンバス上でのドラッグ&ドロップ操作に置き換えます。 開発者コミュニティでも非常に高い注目を集めており、GitHubでは1,100以上のスターを獲得しています。新人エンジニアの方にとっても、まるでデザインツールのFigmaを扱うような感覚で、複雑なAIの動作ロジックを設計できる「AIワークフローのビジュアルエディタ」となっています。 2. ツールが解決する3つの課題 新人エンジニアがAIエージェントの構築に取り組む際、本ツールは以下の3つの大きな壁を取り払ってくれます。 設定ファイルの複雑さ: MarkdownやYAMLなどの独自構文や、特定のディレクトリ構造を覚えなくても、GUI上で設定を完結できます。複雑なフローの可視化: 「Aの結果によってBまたはCのエージェントに分岐する」といった、テキストだけでは把握しにくい論理構造を視覚的に整理できます。チーム協業の促進: フローが可視化されることで、エンジニア以外のメンバーとも「AIに何をさせるか」という設計意図を共有しやすくなります。 3. 技術的な仕組みと主要な機能 本ツールはClaude Codeの既存機能を置き換えるものではなく、その「上に乗るGUIレイヤー」として動作します。そのため、ツールで作成したワークフローは最終的に標準準拠のMarkdownファイルとして出力され、ツールを導入していないチームメンバーともそのまま共有・実行可能です。 【主要なノードの種類】 ワークフローは、以下のような役割を持つ「ノード」を組み合わせて構築します。 Prompt: AIへの基本的な指示やテンプレート変数を定義します。Sub-Agent: 特定のタスク(コードレビューやデータ抽出など)に特化した、役割を持つエージェントを定義します。IfElse / Switch: 条件に基づいた処理の分岐を実現します。AskUserQuestion: 処理の途中でユーザーに判断を仰ぐための対話ステップを追加できます。MCP: Model Context Protocolを介して、GitHubや外部データベースなどの外部ツールと連携します。 さらに、AIがワークフロー自体の編集をサポートしてくれる「AI支援編集機能」も搭載されており、自然言語での指示によってノードの追加や接続を自動化することが可能です。 4. 制約事項 実用にあたっては、以下の制約を理解しておく必要があります。 ノード数の制限: 1つのワークフローあたり最大50ノードまで構築可能です。入力制限: リクエスト文字数は2,000文字以内、AI処理のタイムアウトは最大5分までの設定となります。環境要件: VS Code 1.80.0以上およびNode.js 18.0以上が必要です。 5. まとめ Claude Code Workflow Studioは、AIエージェントの構築を「テキストベースの苦行」から「視覚的な設計」へと進化させる画期的なツールです。新人エンジニアの方は、まずは本ツールを使って「AIエージェントがどのように連携し、判断を下しているのか」という全体像を可視化することから始めてみてください。AIを活用した開発の自動化が、より身近で楽しいものになるはずです。 引用元: https://note.com/ai_driven/n/nce437c34242f Figma MCP でデザインシステムを提供して AI コーディングエージェントに一貫したフロントエンドコードを書かせる AIによるコーディング支援が普及する中で、フロントエンド開発における「デザインの再現性」と「一貫性の欠如」が新たな課題となっています。AIに指示を出してコードを書かせると、学習データの傾向から特定の配色やフォントに偏ってしまう「AI Purple Problem」と呼ばれる現象が起きがちです。本記事では、この問題を解決するために、FigmaのデザインデータをAIに直接理解させる仕組み「Figma MCP(Model Context Protocol)」を活用した、最新の開発フローを解説しています。 1. ...
    Show More Show Less
    Less than 1 minute
  • 私立ずんだもん女学園放送部 podcast 20251226
    Dec 25 2025
    youtube版(スライド付き) 関連リンク Agent Skills 元年なのでオープンスタンダードになった Agent Skills について調べて使ってみた DevelopersIO 2025年は「Agent Skills」が脚光を浴びる年になりそうです。Anthropic社が提唱し、2024年末にオープンスタンダード化されたこの機能は、AIエージェントの能力を飛躍的に向上させる仕組みとして大きな注目を集めています。 ■ Agent Skillsとは? AIエージェントが特定のタスクを遂行するために必要な「指示・スクリプト・リソース」をひとまとめにしたパッケージ(フォルダ)です。これまでAIへの指示出しで苦労していた「想定と違う結果が返ってくる」「毎回同じルールを説明するのが面倒」といった課題を、専門知識をパッケージ化することで解決します。 ■ 主な特徴とメリット 効率的なコンテキスト利用(段階的な情報開示): 最大の利点は、必要な情報だけを必要なタイミングで読み込む仕組みです。メタデータ(概要)は常に読み込みますが、詳細な指示やスクリプトはタスクが発生した時のみ読み込むため、AIの「記憶容量(コンテキストウィンドウ)」を無駄に消費せず、動作の高速化と精度の維持を両立します。ポータビリティと共有: オープンスタンダードであるため、一度作成したSkillはClaude.ai、Claude Code、APIなどで共通利用でき、チーム間での共有も容易です。他機能との使い分け: ・CLAUDE.md:常に意識してほしい「プロジェクトの背景知識」 ・MCP:外部ツールへの「接続方法」 ・Agent Skills:ツールの「効果的な使い方・作業手順」 これらを組み合わせることで、AIを特定の分野のスペシャリストに変えることができます。 ■ 実践的な効果 記事内ではPowerPoint作成の例が紹介されています。Skillなしではデザインが質素になりがちですが、専用のSkillを使用すると、プロのデザイナーの視点(カラーパレットやレイアウト原則)が反映され、視覚的に優れた資料が生成されます。 ■ 新人エンジニアへのアドバイス Agent Skillsは、AIに「やり方」を教えるための標準マニュアルのようなものです。まずはAnthropicが公開している公式Skillを導入して、その精度の高さを体感してみてください。また、skill-creatorというSkill自作をサポートするツールも用意されているため、自分の定型業務をSkill化して自動化することに挑戦してみるのも面白いでしょう。 引用元: https://dev.classmethod.jp/articles/agent-skills-2025-standardized-overview/ Introduction to Microsoft Agent Framework Microsoftが、次世代のAIエージェント開発を支える新しいオープンソース開発キット「Microsoft Agent Framework」を公開しました。これは、これまで同社が展開してきた「Semantic Kernel」と「AutoGen」の2つのプロジェクトの強みを統合し、さらに拡張したものです。これからのMicrosoftにおけるAIエージェント開発の標準的な基盤となります。 ■ 概要 本フレームワークは、.NETおよびPythonに対応しており、個別のAIエージェント構築と、それらを組み合わせた高度なマルチエージェント・ワークフローの構築を可能にします。 AIエージェント(単体) LLM(Azure OpenAI, OpenAI, Azure AI等)を活用し、ユーザーの入力を処理してツールやMCP(Model Context Protocol)サーバーを呼び出し、自律的にアクションを実行します。状態管理(Thread)やメモリ(Context Provider)などの基盤機能も備えています。 ワークフロー(オーケストレーション) 複数のエージェントや関数をグラフ状につなぎ合わせ、複雑な多段階タスクを実行します。型ベースのルーティング、ネスト構造、チェックポイント機能(中断と再開)、および人間が介在する「Human-in-the-loop」シナリオをサポートしています。 ■ 設計の考え方:エージェントか、ワークフローか 新人エンジニアが特に注目すべきは、「何でもエージェントに任せない」という設計指針です。 ・AIエージェントが向く場合:カスタマーサポートやリサーチのように、手順が事前に決まっておらず、試行錯誤や対話を通じた柔軟な判断が必要なタスク。 ・ワークフロー(または通常のコード)が向く場合:手順が明確に決まっているタスク。もし「関数」として記述できるのであれば、...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20251225
    Dec 24 2025
    youtube版(スライド付き) 関連リンク Gemini Enterprise 徹底解説!Gemini 3 で実現する Agentic AI の企業実装 これまでの生成AI活用は「AIと対話して得た結果を人間が手作業で別のシステムに入力する」という、人間が介在するプロセスが主流でした。しかし、最新モデル「Gemini 3」と組織向けプラットフォーム「Gemini Enterprise」の登場により、AIが自律的に業務を遂行する「Agentic AI(エージェント型AI)」の企業実装が現実のものとなっています。 1. Gemini 3がもたらす技術的進化 Gemini Enterpriseの核となる「Gemini 3」には、エージェントとしての動作を可能にする3つの大きな進化があります。 高度な推論能力と計画立案: 単なる回答生成を超え、複雑なビジネス上の問題に対して「計画」を立てる能力が向上しました。ロングコンテクストとマルチモーダル理解: 100万トークン級の長いコンテキストと、画像・音声・動画を統合的に理解する力により、膨大なマニュアルや会議記録を跨いだ複雑な指示にも対応可能です。ツール使用能力の向上: 外部システムを呼び出す精度と、複数のステップを順序立てて実行する「指示追従性」が大幅に改善されました。これにより「在庫確認後に発注書を作成し、上司に通知する」といった一連のワークフローを完遂できます。 2. 現場主導のAI開発「Agent Designer」 Gemini Enterpriseには、ノーコードでカスタムAIエージェントを構築できる「Agent Designer」が搭載されています。Google WorkspaceやSalesforce、SAPといった既存の基幹システムとシームレスに連携でき、プログラミングの知識がなくても、現場の担当者が自分たちの業務に特化した「デジタル同僚」を作成できます。これにより、特定の部署に閉じた活用ではなく、全社的な「AI開発の民主化」が促進されます。 3. エンタープライズ基準のセキュリティとガバナンス 企業導入において最も重要なセキュリティ面も強化されています。 データの保護: 入力されたデータがGoogleのモデル学習に利用されることはなく、所有権は顧客に帰属します。権限管理の継承: 既存のファイル閲覧権限(ACL)をAIが厳密に引き継ぐため、権限のないデータが回答に含まれるリスクを防ぎます。強固なインフラ: IDプロバイダー(Entra ID等)との連携や、VPCによるネットワーク境界の構築、顧客管理の暗号鍵(CMEK)への対応など、大規模組織の厳しい要求に応える設計となっています。 新人エンジニアへのメッセージ 「メールの下書きをAIに作らせる」といった個人の効率化のフェーズは終わり、これからは「業務プロセスそのものをAIに自律実行させる」設計能力が求められます。Gemini Enterpriseは、そのための強力な土台となります。まずは身近な「システム間の転記作業」などから自動化の可能性を探り、組織全体の働き方をアップデートする一歩を踏み出してみましょう。 引用元: https://note.com/google_gemini/n/nb7be1d6582b6 Agent Skillsを一番かんたんに作る方法(Claude Code + skill-creator) 本記事は、Anthropicが提供するAIツール「Claude Code」において、エージェントの機能を拡張するための標準規格「Agent Skills」を効率的に作成する方法を解説しています。 Agent Skillsとは Agent Skillsは、AIエージェントに特定の専門知識や新しい機能(ツール)を提供するためのフォーマットです。2025年12月にオープンスタンダードとしてリリースされ、Claude Codeだけでなく、CodexやCursorといった他の主要なAI開発ツールでもサポートが進んでいます。これにより、一度作成した「スキル」を異なるAIツール間で再利用できる可能性が広がっています。 「skill-creator」によるスキルの作成 記事では、スキル作成自体をAIにサポートさせるツール「skill-creator」の活用を推奨しています。これを利用することで、以下の2つの方法で簡単にスキルを定義できます。 対話による新規作成: 作成したいスキルの概要を伝えると、AIが詳細をヒアリングしながらスキルを構築してくれます。会話履歴からのスキル化: AIとのやり取りで上手くいったプロセスがある場合、その流れをそのままスキルとして保存できます。これにより、個人のノウハウを再利用可能な資産に変換できます。 管理と...
    Show More Show Less
    Less than 1 minute