[未來趨勢] AI Agent:經驗篇 — 從 Google 專家的眼中,了解更多 AI Agent¶
Author: Simon Liu
Published:
Source: https://medium.com/@simon3458/ai-agent-google-expert-whitepaper-937e155cb2ab
Fetched: 2026-06-07T02:07:12.924742
[未來趨勢] AI Agent:經驗篇 — 從 Google 專家的眼中,了解更多 AI Agent¶
揭露資訊:部分內文經由 AI 工具彙整與撰寫,並由我進行修正,如有錯誤,歡迎留言告知我,讓文章更加完善!
Press enter or click to view image in full size

Google 在去年九月時,在 Kaggle 平台公佈了一篇由 Julia Wiesinger、Patrick Marlow 和 Vladimir Vuskovic 撰寫的 Agent 主題白皮書。本次文章,我將進行彙整,讓大家更理解 Agent 的概念。
[## Agents
Authors: Julia Wiesinger, Patrick Marlow and Vladimir Vuskovic¶
www.kaggle.co](https://www.kaggle.com/whitepaper-agents?source=post_page-----937e155cb2ab---------------------------------------)
I. 什麼是 AI Agent?¶
AI Agent 是一種應用程式,其核心功能是透過觀察環境並運用工具採取行動,以實現特定目標。這些 Agent 具有以下幾個關鍵特徵:
自主性(Autonomy): AI Agents 能夠自主運作,不需要人類的直接干預。當賦予明確目標或任務後,它們能獨立完成相關操作。
目標導向(Goal-Oriented): 它們的行動與決策設計是為了實現特定目標,展現出目標驅動的特性。
主動性(Proactiveness): 即使缺乏人類明確指令,AI Agents 也能推理與分析,決定下一步行動,努力完成最終目標。
應用場景廣泛: 雖然 AI Agents 的概念十分通用且強大,但本文聚焦於生成式 AI 模型所構建的特定類型 Agents。
以下是作者提出的一個基礎 Agent 架構:
Press enter or click to view image in full size

II. 生成式 AI Agents 的核心組成¶
在現今的人工智慧領域中,生成式 AI Agents 正迅速成為不可或缺的核心技術。這些不僅僅是語言模型,而是能夠與外部世界互動、完成複雜任務的系統。要理解生成式 AI Agents 的運作,必須從其三大核心組成部分理解:模型 (The Model)、工具 (The Tools) 與指揮層 (The Orchestration Layer)。
模型 (The Model):AI Agents 的智慧核心¶
模型是 AI Agents 的「大腦」,負責決策與推理,具備理解指令和邏輯推理的能力。它通常是由一個或多個大型語言模型(如 GPT-3 或類似技術)構成,並採用不同的推理框架,例如 ReAct、Chain-of-Thought (CoT) 或 Tree-of-Thoughts (ToT),來幫助模型深入理解問題並提供合理的解決方案。
根據需求,模型可以是通用型、多模態型,或經過特定調整以應對特殊任務。雖然模型本身並不包含 Agent 的具體配置,但可以透過資料進行 Fine-Tuning,以確保最佳效能。簡而言之,模型是 Agent 思考的核心,決定了它的判斷與推理能力。
工具 (The Tools):連接內外世界的橋樑¶
工具是 AI Agents 與外部世界互動的關鍵因子,幫助 Agent 克服僅靠語言模型無法直接處理外部系統或資料的限制。這些工具以多種形式存在,例如 CRUD 方法等。
工具大幅擴展了 Agent 的能力,使其能存取與處理真實世界資訊,例如查詢天氣或更新資料庫。目前常見的工具類型包括:
- 擴展 (Extensions):標準化地連接 API 與 Agent,讓 Agent 無縫執行操作。
- 函數 (Functions):由模型輸出函數與參數,實際 API 呼叫由客戶端執行,為開發者提供更精細的控制。
- 資料儲存 (Data Stores):以向量資料庫的形式,儲存並提供 Agent 存取動態更新的資訊。
工具的存在讓 AI Agents 能真正與外部世界產生互動,而非僅侷限於語言模型本身。
指揮層 (The Orchestration Layer):Agent 的指揮中心¶
指揮層是 AI Agent 模型與工具的總指揮,決定了它如何接收資訊、進行內部推理,並採取行動。這是一個循環的過程,直到 Agent 完成目標或到達停止點。
指揮層的複雜性不一,可以是簡單的邏輯計算,也可以是高度複雜的規劃與推理。它負責維護記憶、狀態、推理與規劃,並透過提示工程(Prompt Engineering)框架來引導推理與行動。例如:
- ReAct:讓模型邊推理邊行動。
- Chain-of-Thought (CoT):透過中間步驟啟用多步推理。
- Tree-of-Thoughts (ToT):適用於需要探索或策略性預測的任務。
簡而言之,指揮層確保 AI Agent 的每一步都按計劃進行,像是「執行大腦」。
三者協同運作:模型、工具與指揮層的協作之美¶
這三個組成部分相互協作,使得 AI Agent 能有效地完成任務。模型負責「思考」,工具負責「執行」,而指揮層則負責「規劃與控制」。這種協作就像一位廚師在廚房中工作:
- 廚師先收集資訊(食材與指令)。
- 然後根據資訊進行推理(決定菜色與烹飪方式)。
- 接著執行動作(切菜、烹煮)。
- 最後根據結果調整步驟(品嘗與改良)。
透過這樣的方式,AI Agent 展現出強大的能力與適應能力,能自主完成複雜任務。
III. Model 和 Agent 的差異¶
以下提供一張作者所撰寫的差異表格:
Press enter or click to view image in full size

從表格中可以看到,模型的知識來源僅限於其訓練數據,無法管理多輪對話或持續上下文,也缺乏內建工具和邏輯層支援。而 Agents 則透過介接外部工具擴展知識,具備管理多輪會話的能力,並內建推理框架,能夠執行更複雜的任務。這使得 Agents 在處理動態和複雜任務時更具優勢。
IV. Agent 運作的核心概念¶
如同廚師在繁忙的廚房中,Agent 使用認知架構來達成其最終目標。透過迭代處理資訊、做出明智的決策,並根據先前的輸出調整下一步的行動,Agent 得以高效運作。
Agent 的核心在於協調層,負責維護記憶、狀態、推理和規劃。協調層利用快速發展的提示工程技術與相關框架來引導推理和規劃,使 Agent 能更有效地完成任務並與環境互動。
Agent 使用認知架構的運作步驟¶
以下是 Agent 如何使用認知架構來執行任務的步驟範例:
- 資訊收集 Agent :收集資訊,例如使用者的查詢或可用的工具和資源。
- 內部推理 :根據收集到的資訊進行推理,考慮可用的選項和行動。
- 採取行動 :根據推理結果採取行動,例如使用工具、檢索資訊或產生回應。
- 調整 :在每個階段,Agent 會根據需要進行調整,利用先前的結果完善計劃,並確定下一步行動。
推理技術與框架¶
Agent 可採用多種推理技術與框架,以選擇針對使用者請求的最佳行動。以下是常見的框架與技術:
- ReAct(Reasoning and Acting): 提供語言模型一種思考過程策略,結合上下文提示進行推理與行動。
- 鏈式思考(Chain of Thought, CoT): 透過中間步驟實現推理能力。子技術包括:自我一致性、主動提示、多模式 CoT,針對不同應用場景有其優缺點。
- 思維樹(Tree of Thought, ToT): 適合探索或戰略性前瞻任務。擴展鏈式思考,允許模型探索多種解決問題的中間步驟。
協調層運作範例:ReAct 框架¶
以下是協調層如何利用 ReAct 框架來引導推理和規劃的過程範例:
- 查詢:使用者向 Agent 發送查詢。
- 啟動 ReAct 序列:Agent 向模型提供提示,啟動 ReAct 框架步驟。
-
執行步驟:
-
問題:從使用者查詢中提取的具體問題。
- 想法:模型關於下一步行動的構想。
- 行動:模型決定採取的行動,例如選擇工具或檢索資訊。
- 行動輸入:模型決定提供給工具的輸入內容。
- 觀察:根據行動結果進行反饋。
- 最終答案:為原始查詢生成的最終回應。
4. 結束循環:將最終答案返回給使用者。
Press enter or click to view image in full size

在指揮層中使用 ReAct 推理的 Agent 範例
V. Tools:通往外面世界的鑰匙¶
工具是我們可以讓 LLM 通往外部世界的鑰匙。雖然語言模型擅長處理資訊,但它們缺乏直接感知和影響現實世界的能力。這限制了它們在需要與外部系統或資料互動的情況下的用處。這意味著,在某種意義上,語言模型的好壞取決於它從訓練資料中學到的東西。但是,無論我們向模型投入多少資料,它們仍然缺乏與外部世界互動的基本能力。
為了讓模型能夠與外部系統進行即時、上下文感知的互動,可以使用函數 (Functions)、擴展 (Extensions) 和資料儲存 (Data Stores) 等工具來提供這種關鍵能力。這些工具建立了基礎模型和外部世界之間的連結,使 Agent 能夠執行更廣泛的任務,並且更加準確和可靠。
擴展 (Extensions)¶
可以被認為是以標準化方式橋接 API 和 Agent 之間的差距,允許 Agent 無縫執行 API,而不管它們的底層實作如何。擴展透過以下方式橋接 Agent 和 API 之間的差距:
- 使用範例教導 Agent 如何使用 API 端點。
- 教導 Agent 成功調用 API 端點所需的引數或參數。 Agent 可以使用模型和範例來動態選擇最適合解決使用者查詢的擴展。
Press enter or click to view image in full size

範例:Agents-Extension-API 關係圖
函數 (Functions)¶
與軟體工程中的函數類似,是完成特定任務且可根據需要重複使用的獨立程式碼模組。模型可以利用一組已知的函數,並根據其規格決定何時使用每個函數以及函數需要哪些引數。函數與擴展的不同之處在於:
- 模型輸出函數及其引數,但不進行即時 API 調用。
Press enter or click to view image in full size

範例:Agents-Function-API 關係圖
- 函數在客戶端執行,而擴展在 Agent 端執行。 函數的呼叫邏輯和執行從 Agent 端轉移到客戶端應用程式,為開發人員提供對應用程式中資料流的更精細控制。
Press enter or click to view image in full size

Delineating client vs. agent side control for extensions and function calling
資料儲存 (Data Stores)¶
透過提供對更動態和最新的資訊的訪問來解決模型的靜態知識限制。資料儲存允許開發人員以其原始格式向 Agent 提供額外資料,而無需耗時的資料轉換、模型重新訓練或微調。 資料儲存通常實作為向量資料庫,Agent 可以在運行時訪問該資料庫。 資料儲存允許 Agent 訪問各種格式的資料,例如:
- 網站內容
- 結構化資料,例如 PDF、Word 文件、CSV、試算表等
- 非結構化資料,例如 HTML、PDF、TXT 等
Press enter or click to view image in full size

範例:Agents-data store-resource 關係圖
那如果你有設計和儲存了一個 RAG-based 知識庫,你也可以參考以下的方式,建立起 AI agent 的生命週期:
- 使用者查詢:使用者向 Agent發出查詢。
- 查詢嵌入 (Query Embedding):使用嵌入模型將使用者查詢轉換為 Embedding Vector。
- 向量資料庫匹配:將 Embedding Vector 與向量資料庫的內容進行匹配。
- 內容檢索:從向量資料庫中檢索匹配的內容,以文字格式輸出結果。
- Agent 處理: Agent接收使用者查詢和檢索到的內容。
- 生成回應或採取行動:Agent 根據使用者查詢和檢索到的內容制定回應或決定下一步的行動。
- 回覆結果:向使用者傳送最終回覆。
Press enter or click to view image in full size

RAG-based AI agent 的生命週期架構圖
作者在文章中,也很貼心的準備了 Tools recap,整理如下,也更加深這三個執行方式之間的差異性:
Press enter or click to view image in full size

VI. 模型能力的增強¶
針對模型效能的增強,目標式學習 (targeted learning) 是一種關鍵方法,可以提升模型在特定任務中的表現,尤其是在需要超出訓練資料範圍的知識時。這種方法類似於從基本烹飪技巧進階到精通特定菜系,需要針對性的學習以獲得更細緻的結果。來源中提到了以下幾種方法來幫助模型獲得這類特定的知識:
情境學習 (In-context learning)¶
- 這種方法在推論時 (inference time) 提供通用模型提示 (prompt)、工具 (tools) 和 少量範例 (few-shot examples),使其能夠「即時」學習如何以及何時使用這些工具來完成特定任務。
- ReAct 框架是這種方法的一個例子。它利用自然語言的提示,使模型能夠在接收到用戶查詢時,能夠有效地推理並採取行動。
- 就像廚師收到特定食譜(提示)、一些關鍵食材(相關工具)和一些示例菜餚(少量示例),然後根據有限的資訊和一般的烹飪知識,即時找出如何準備最符合食譜和客戶偏好的菜餚。
檢索式情境學習 (Retrieval-based in-context learning)¶
- 這種技術透過從外部記憶中檢索最相關的資訊、工具和相關範例,動態地填充模型提示。
- Vertex AI 擴展中的「範例儲存」(Example Store) 或之前提到的基於 RAG 架構的資料儲存就是這種方法的例子。
- 這就像廚師在廚房裡有一個儲藏豐富的食品儲藏室(外部資料儲存),裡面裝滿了各種食材和食譜(範例和工具)。廚師可以動態地從食品儲藏室中選擇食材和食譜,以便更好地符合客戶的食譜和偏好。
微調學習 (Fine-tuning based learning)¶
- 這種方法涉及在推論之前使用更大的特定範例資料集來訓練模型。
- 這有助於模型理解何時以及如何應用某些工具,甚至在接收到任何使用者查詢之前。
- 這就像我們送廚師去學習一種新的菜系或一系列菜系(在更大的特定示例資料集上進行預訓練)。這讓廚師能夠以更深入的理解來應對未來未見過的客戶食譜。
總結來說,這些目標式學習方法各有優缺點,在速度、成本和延遲方面有所不同。透過在 Agent框架中結合這些技術,可以利用各自的優勢並最小化其缺點,從而實現更強大且適應性更強的解決方案。 這些方法讓模型能根據情境,提取資訊、工具、以及範例,提升處理複雜任務的能力。
VII. 如何在 Google Vertex AI 實踐 AI Agent¶
Vertex AI 平台提供了一個全託管環境,簡化了建構生產級 AI Agent 的流程,其中包含了先前討論的核心元件,以及額外的工具。以下是關於在 Vertex AI 上建構生產應用程式的重點:
簡化開發流程¶
開發人員可以使用自然語言介面,快速定義 Agent 的關鍵元素,包括目標、任務指示、工具、用於任務分派的子 Agent 和範例。這讓開發人員能夠更專注於建構和完善 Agent,而不必擔心基礎設施、部署和維護的複雜性。
整合開發工具¶
Vertex AI 平台提供了一系列的開發工具,用於測試、評估、衡量 Agent 效能、除錯和改善 Agent 的整體品質。這確保了開發出的 Agent 是可靠且高效的。
完整的 Agent 架構¶
Vertex AI 平台整合了多種功能,例如 Vertex Agent Builder、Vertex Extensions、Vertex Function Calling 和 Vertex Example Store,這些功能可以共同建構一個完整的端對端 Agent 架構。這個架構能滿足生產應用程式的各種需求。
可擴展性和管理¶
Vertex AI 作為一個全託管平台,處理了基礎設施的管理、部署和維護,讓開發人員可以專注於應用程式的開發和優化。
作者提供了一個在 Vertex AI 平台上建構的 Agent 架構範例,展示了如何利用各種功能來創建生產級應用程式。該架構結合了多個必要的元件,確保了 Agent 的有效運作。
Press enter or click to view image in full size

- 試用:使用者可以從官方文件中嘗試預先建構的 Agent 架構範例。
VIII. 結論¶
作者總結了生成式 AI Agent 的基礎構成要素、組成方式以及如何以認知架構的形式有效實施它們。以下是作者在總結中提出的幾個重點:
Agent 透過利用工具來擴展語言模型的能力。Agent 可以存取即時資訊、提出真實世界的行動建議,並自主規劃和執行複雜的任務。Agent 可以利用一個或多個語言模型來決定何時以及如何轉換狀態,並使用外部工具來完成模型本身難以或不可能完成的複雜任務。
Agent 運作的核心是指揮層。指揮層是一種認知架構,它架構了推理、規劃、決策並指導 Agent 的行動。多種推理技術,例如 ReAct、Chain-of-Thought 和 Tree-of-Thoughts,為指揮層提供了一個框架,以接收資訊、執行內部推理並產生明智的決策或回應。
工具 (Tools),例如擴充功能 (Extensions)、函式 (Functions) 和資料存放區 (Data Stores),是 Agent 通往外部世界的鑰匙。它們允許 Agent 與外部系統互動並存取超出其訓練資料範圍的知識。
- 擴充功能 (Extensions) 提供了 Agent 和外部 API 之間的橋樑,能夠執行 API 呼叫並檢索即時資訊。
- 函式 (Functions) 透過分工合作為開發者提供了更細緻的控制,允許 Agent 產生函式參數,這些參數可以在客戶端執行。
- 資料存放區 (Data Stores) 為 Agent 提供了對結構化或非結構化資料的訪問,從而實現了數據驅動的應用程式。
隨著工具變得更加複雜,推理能力得到增強,Agent 將有能力解決日益複雜的問題。此外,「Agent Chain(代理鏈)」的策略方法將繼續獲得發展。透過結合擅長特定領域或任務的專業 Agent,我們可以創建一個「混合 Agent 專家」方法,能夠在各個行業和問題領域提供卓越的成果。
構建複雜的 Agent 架構需要迭代的方法。實驗和改進是為特定業務案例和組織需求找到解決方案的關鍵。由於支援其架構的基礎模型的生成特性,沒有兩個 Agent 是完全相同的。然而,透過利用每個基礎元件的優勢,我們可以創建有影響力的應用程式,擴展語言模型的功能並驅動真實世界的價值。
I am Simon¶
大家好,我是 Simon 劉育維,是一位 AI 領域解決方案專家,目前也擔任 Google GenAI 領域開發者專家 (GDE),期待能夠幫助企業導入人工智慧相關技術解決問題。如果這篇文章對您有幫助,請在 Medium 上按一下鼓勵,並追蹤我的個人帳號,這樣您就可以隨時閱讀我所撰寫的文章。歡迎在我的 Linkedin 上留言提供意見,並與我一起討論有關人工智慧的主題,期待能夠對大家有所幫助!
Press enter or click to view image in full size

My Personal Website: https://tinyurl.com/simonliuyuwei