新たなAIエージェント構築用のAPIとツール
Manusに刺激されたためか、OpenAI社からAIエージェント用のAPIとツールが発表されました。
NotebookLMに上記YouTubeの概要を作成してもらいました。
概要:
本ブリーフィングドキュメントは、OpenAI が発表した新しい Agent 構築ツール群に関する主要なテーマ、重要なアイデア、事実をまとめたものです。複数の新しいツール、統合された新しい API(Responses API)、そして Agent のオーケストレーションを容易にする SDK の進化について解説します。
主要なテーマ:
- 信頼性と有用性の高い Agent 構築の簡便化: OpenAI は、開発者がより簡単に、信頼性が高く、有用な Agent を構築できるようにするための新しいツールと API を提供することを目指しています。「we’re excited to launch a bunch of new tools that make it easy for developers to build reliable and useful agents」と述べられているように、開発者の Agent 構築体験の向上に重点が置かれています。
- Agent の定義の明確化: OpenAI は Agent を「A system that can act independently to do tasks on your behalf」と定義しています。これにより、自律的にタスクを実行できるシステムの構築が焦点となります。
- 既存の Agent 機能の API 提供: ChatGPT で既に提供されている強力な Agent 機能(Operator のウェブブラウジング、Deep Research の詳細レポート作成)を API として開発者向けに提供し、より広範な活用を促進します。「we want to Now launch those tools and more in the API to developers」という言葉がこの意図を示しています。
- 開発者の課題への対応: 開発者からのフィードバックに基づき、高度な推論やマルチモーダル理解が可能なモデルが存在する一方で、複数の低レベル API を組み合わせる複雑さ、遅さ、脆弱性が Agent 開発の課題として認識されていました。「developers feel like they’re having to Cobble together different low-level apis from different sources it’s difficult it’s slow it often feels brittle」という指摘がこの課題を明確に示しています。
- 新しい組み込みツールの導入:
- Web Search Tool: 最新かつ事実に基づいた情報へのアクセスを可能にします。「The web search tool allows our models to access information from the internet so that your responses and the output that you get is up-to-date and factual」。ChatGPT の検索機能と同じ基盤(ファインチューンされた GPT-4o または GPT-4o-mini)を使用し、ウェブから取得した大量のデータから関連情報を抽出し、明確に引用します。「powered by a fine-tuned model under the hood so this is a fine tuned gbd 40 or 40 mini that i s really good at looking at large amounts of data retriev from the web finding the relevant pieces of information and then clearly citing it in its response」。Simple QA ベンチマークで 90% の高いスコアを達成しています。
- File Search Tool: 昨年 Assistance API で導入された機能が強化され、再登場しました。ユーザーがアップロードしたドキュメントに対して、簡単に Retrieval Augmented Generation (RAG) を実行できます。「we launched the file Search tool last year uh in the assistance API as a way for developers to upload chunk embed their documents and then do really easily do uh rag really easily over those documents」。新しい機能として、メタデータフィルタリング(ファイルに属性を追加してフィルタリング)とダイレクト検索エンドポイント(モデルを介さずに直接ベクターストアを検索)が追加されました。「The first is metadata filtering so with metadata filtering you can add attributes to your files to be able to easily filter them down to just the ones that are the most relevant for your query. The second is a direct search endpoint so now you can directly search your vector stores without your queries being filtered through the model first」。
- Computer Use Tool: ChatGPT の Operator と同じ機能が API で利用可能になります。「the computer use tool is operator in the API」。仮想マシンや GUI ベースのレガシーアプリケーションなど、操作に API アクセスがないコンピュータを制御し、タスクの自動化やアプリケーション構築を可能にします。「allows you to control the computers that you are operating so this could be a virtual machine it could be a legacy application that just has a graphical user interface and you have no API access to it if you want to automate those kind of tasks and build applications on that you can use the computer use tool which comes with the computer use model」。Operator と同じモデル(Kua model)を使用しており、初期ユーザーからのフィードバックは非常にポジティブです。
- 新しい API: Responses API の導入: 複数のモデルターンやツール呼び出しをサポートする、より柔軟な API プリミティブとして Responses API が導入されました。「we wanted to build an API primitive that is flexible enough it supports multiple terms it supports tools um and we’re calling this new API the respon API」。Chat Completions API の概念を拡張し、テキストだけでなく、画像、音声、ツール利用などの複数の要素を統合的に扱えるように設計されています。「Responses API features are a superet of what chat chat completions support so whenever you decide to migrate over it should be a pretty straightforward migration to you」。Chat Completions API は引き続きサポートされますが、将来的に一部の機能や Agent プロダクトは Responses API のみで利用可能になる予定です。「there will be certain capabilities that require built-in tool use and there’ll be certain models and agentic products that we release in the future that will require will require them and those will be available in responses API only」。
- Agent 開発を容易にする SDK の進化: 昨年実験的にリリースされた Agent オーケストレーションツール Swarm が、プロダクションレディな Agents SDK として再ブランドされ、機能が強化されました。「we’ve decided to take swarm and make it production ready add a bunch of new features and we’re going to be rebranding it to be called the agents SDK」。複数の Agent の連携や手渡し(handoff)を容易にし、複雑な Agent アプリケーションの構築を支援します。「the idea with the agents SDK is to keep Simple ideas simple to implement while allowing you to build more complex and robust ideas still in a pretty like straightforward and simple way」。Agents SDK は Python 関数をツールとして自動的に認識し、JSON スキーマを生成する機能や、監視・追跡機能(tracing UI)を標準で提供します。「we’ll take your python functions and look at the type inference or look at the type signatures and then automatically generate the Json schema that the models need to use to perform those function calls」。ガードレールやライフサイクルイベントなどの機能も備えています。オープンソースとして開発が進められ、「pip install openai-agents」でインストール可能です(JavaScript 版も近日公開予定)。
- Assistance API の将来: Assistance API は、Responses API がその機能を完全にサポートできるようになるまで継続されます。その後、2026 年頃に Assistance API は段階的に廃止(sunset)される予定であり、移行ガイドが提供されます。「we are going to be adding more features to the responses API so that it can support everything that the assistance API can do and once that happens we’ll be sharing a migration guide that makes it really easy for all of you to migrate your applications from assistants to responses without any loss of functionality or data… once we’re done with that we plan to Sunset the assistance API sometime in 2026」。
- Agent の時代への期待: OpenAI は、2025 年を「the year of the agent」と位置づけ、ChatGPT と開発者ツールが単に質問に答えるだけでなく、現実世界でユーザーのために行動するようになる未来に大きな期待を寄せています。「2025 is going to be the year of the agent it’s the year that chat GPT and our developer tools go from just answering questions to actually doing things for you out in the real world」。
重要なアイデアや事実:
- 新しい組み込みツール(Web Search, File Search, Computer Use)は、Agent が外部の情報にアクセスしたり、プライベートなデータを活用したり、コンピュータを操作したりする能力を大幅に向上させます。
- Responses API は、複数のステップを含む複雑な Agent の動作を、より効率的かつ柔軟に記述するための基盤となります。
- Agents SDK は、複数の Agent を連携させてより高度なタスクを実行する Agent アプリケーションの開発を簡素化します。
- OpenAI は、開発者からのフィードバックを重視し、ツールの改善や開発の方向性を決定しています。
- Assistance API から Responses API への移行は計画的に行われ、十分な期間と移行ガイドが提供されます。
結論:
OpenAI が発表した新しい Agent 構築ツール群は、開発者にとってより強力で柔軟な Agent 開発環境を提供するものです。組み込みツールの拡充、Responses API による統合的な API アクセス、そして Agents SDK による高度なオーケストレーション機能により、様々な分野で革新的な Agent アプリケーションが開発されることが期待されます。
今後のアクション:
- Responses API と Agents SDK の詳細なドキュメントとサンプルコードを確認する。
- 既存の Assistance API を利用したアプリケーションの Responses API への移行計画を検討する。
- 新しい組み込みツールを活用した Agent のプロトタイプ開発を開始する。
コメント