电竞比分网-中国电竞赛事及体育赛事平台

分享

拆解智能體的“五臟六腑”:感知、決策、規(guī)劃與執(zhí)行、記憶、學習

 文明世界拼圖 2025-08-26 發(fā)布于重慶

你以為智能體只是“能聊天”?其實它有“五臟六腑”。感知是眼,決策是腦,規(guī)劃是意圖,執(zhí)行是動作,記憶是經(jīng)驗,學習是成長。這篇文章帶你一次看懂智能體的底層構造,理解它為什么越來越像“人”,也越來越值得被產(chǎn)品化。

拆解智能體的“五臟六腑”:感知、決策、規(guī)劃與執(zhí)行、記憶、學習

打開今日頭條查看圖片詳情

在第一篇《智能體:AI的下一場革命?》里,我們把Agent比作一位“個人助理”。今天,我們就把這位助理請上手術臺,拆開看看它到底靠什么“活”得這么像人。

別擔心,全程無血,只有例子和概念。讀完你會明白:Agent智能體就是一臺精密的“五件套”機器。

一臺自動咖啡機,它要:

  • 看見杯子(感知)

  • 想明白你要拿鐵還是美式(大腦/決策)

  • 決定先做咖啡再倒奶(規(guī)劃與執(zhí)行)

  • 記得你上次要半糖(記憶)

  • 下次你再說“老樣子”它就能做對(學習與適應)

Agent的五大模塊,跟自動咖啡機的邏輯幾乎一一對應。下面逐個拆。

01 感知模塊 – Agent的“眼睛和耳朵”

感知模塊是智能體的“眼睛和耳朵”,負責從外部環(huán)境中收集各種信息,這是智能體與外界交互的第一步。它能看見什么?很多:

  • 文字:聊天窗口、郵件、文檔、網(wǎng)頁。

  • 語音:(通過語音識別ASR)聽懂你的語音命令。

  • 圖像/視頻:(通過多模態(tài)模型)識別圖片中的物體、分析圖表數(shù)據(jù)、讀懂界面元素。

  • 結構化數(shù)據(jù):表格、數(shù)據(jù)庫、API返回的JSON。

但是感知≠看懂。前陣子有博主測評剛剛推出的GPT-5,在“數(shù)圖中有多少個圓圈”這類任務上仍有錯誤率。可見,把像素變成意義,比人類想像的難。

中國科學院院刊2025年第3期《政策與管理研究》曾指出,英文多模態(tài)數(shù)據(jù)是中文的8倍左右,因此中文Agent的視覺“近視”更明顯。一句話,任何能塞進計算機0和1的東西,都能被Agent“感知”。

02 大腦/決策模塊 – Agent的“指揮官”

神經(jīng)科學里,海馬體負責記憶,額葉負責推理。LLM其實把兩者合并在了一起:

  • 快思考:直接給出答案,像人腦“直覺”。

  • 慢思考:Chain-of-Thought(思維鏈),先寫草稿再回答,準確率可提升10%~30%

當智能體接收到用戶的任務指令后,LLM會對指令進行理解和分析。比如,用戶要求智能體寫一份行業(yè)報告,LLM會搜索最新趨勢抓取競品數(shù)據(jù)生成報告大綱撰寫內(nèi)容并排版。

然后,基于從海量數(shù)據(jù)中學習到的知識與經(jīng)驗,LLM開始規(guī)劃在每一步中決定接下來做什么以及調(diào)用哪個工具。

拆解智能體的“五臟六腑”:感知、決策、規(guī)劃與執(zhí)行、記憶、學習

打開今日頭條查看圖片詳情

在推理過程中,LLM就會運用思維鏈等方法,將復雜問題分解為多個邏輯步驟,逐步推導得出解決方案。

順便提一下,大家都知道LLM有“幻覺”現(xiàn)象,即生成看似合理但與事實不符的內(nèi)容。為了彌補這一不足,我們就會引入RAG、知識圖譜,為大語言模型提供更準確、結構化的知識支持,從而提升其決策的準確性與可靠性。

一句話:LLM在此并非直接“回答”問題,而是扮演“規(guī)劃師”和“調(diào)度員”的角色,強大的邏輯鏈推理能力是拆解復雜任務的關鍵。

03 規(guī)劃與執(zhí)行模塊 – Agent的“手和腳”

人類點外賣時會自然拆步驟:打開App→選餐廳→加購物車→結算。Agent也得把“寫一篇行業(yè)報告”拆成“搜索→讀文章→整理大綱→填充段落→校對”,并調(diào)用外部工具來完成具體操作。

LangChain的統(tǒng)計顯示,一個典型研究任務平均需要調(diào)用5.2個外部工具,最復雜的可到20個以上。那工具集(Toolbox)里有什么?

  • 基礎工具:計算器、日歷。

  • 網(wǎng)絡工具:搜索引擎、API接口(如天氣查詢、郵件發(fā)送、支付接口)。

  • 專業(yè)工具:Photoshop、數(shù)據(jù)分析軟件、代碼解釋器。

  • 硬件工具:控制機械臂、調(diào)節(jié)智能家居開關。

拆解智能體的“五臟六腑”:感知、決策、規(guī)劃與執(zhí)行、記憶、學習

打開今日頭條查看圖片詳情

當智能體為用戶制定好寫報告計劃后,便進入執(zhí)行階段:大腦發(fā)出“調(diào)用搜索API”指令→本模塊找到對應工具→格式化輸入?yún)?shù)→執(zhí)行調(diào)用→獲取返回結果→送回給大腦進行下一步分析。

一句話:工具使用能力是Agent區(qū)別于純聊天機器人的分水嶺,它讓Agent的能力邊界得以無限擴展。

04 記憶模塊 – Agent的“日記本與知識庫”

記憶模塊負責存儲和快速檢索信息,讓Agent擁有長期記憶和個性化上下文,避免“金魚腦”。它主要分為短期上下文記憶和長期存儲記憶兩部分。

  • 短期:對話窗口里的上下文窗口,容量有限(8k~128ktoken)。像便簽,對話關閉后即“遺忘”。

  • 長期:一個獨立于對話的外部存儲系統(tǒng),通常是向量數(shù)據(jù)庫。像檔案柜,下次開機還在。

但是,向量數(shù)據(jù)庫的檢索邏輯并非“精確匹配”,這是因為向量數(shù)據(jù)庫的核心是通過向量相似度計算來檢索數(shù)據(jù)。具體來說:

首先,所有數(shù)據(jù)(文本、圖像、音頻等)會被轉化為高維向量(通過嵌入模型,如BERT、Sentence-BERT等),向量的距離或夾角代表數(shù)據(jù)的語義相似度。

當用戶輸入查詢時,查詢也會被轉化為向量,數(shù)據(jù)庫通過計算查詢向量與庫中所有數(shù)據(jù)向量的相似度,返回“最相似”的結果。

這種邏輯決定了它的檢索結果是“語義相關”優(yōu)先,而非傳統(tǒng)數(shù)據(jù)庫的“精確匹配”(如SQL的=或like)。因此,“準確性”在這里更偏向于“結果是否與查詢意圖相關”,而非“是否嚴格符合某個精確條件”。

下面對兩種類型數(shù)據(jù)庫做個對比:

拆解智能體的“五臟六腑”:感知、決策、規(guī)劃與執(zhí)行、記憶、學習

打開今日頭條查看圖片詳情

有數(shù)據(jù)顯示,74%的企業(yè)級Agent部署了向量數(shù)據(jù)庫,但仍有46%的開發(fā)者抱怨“檢索不準”,說明長期記憶不只是“存”,還得“找得快、找得準”。

所以,在對準確性要求極高的場景,如醫(yī)療診斷、法律檢索等,需結合具體場景優(yōu)化技術細節(jié),并對檢索結果的內(nèi)容進行二次驗證。

一句話:記憶模塊讓Agent能夠學習和個性化,從一個通用工具變成你的專屬助手。即使相隔數(shù)月,Agent也能“想起”你“不喜歡報告背景是黃色”或“上次項目的最終數(shù)據(jù)”。

05 學習與適應模塊 – Agent的“進化引擎”

學習與適應模塊是讓Agent具備“從過去的經(jīng)歷中學習,并用學到的東西應對新情況”的能力。該模塊主要通過兩大機制實現(xiàn)功能:學習機制(獲取新知識)和適應機制(應用知識應對變化),二者相輔相成。

常見的學習機制包括:

  • 監(jiān)督學習:通過“標注數(shù)據(jù)”學習輸入與輸出的映射關系。例如,智能客服的意圖識別模塊通過標注的“用戶問句-意圖標簽”數(shù)據(jù),學習識別用戶需求。

  • 無監(jiān)督學習:從無標注數(shù)據(jù)中自主發(fā)現(xiàn)隱藏規(guī)律。例如,推薦系統(tǒng)通過分析用戶行為數(shù)據(jù)(如瀏覽、購買記錄),無監(jiān)督地聚類“相似用戶”,從而優(yōu)化推薦策略。

  • 強化學習:通過與環(huán)境的交互(“試錯”)學習最優(yōu)策略。例如,機器人通過“行動-獲得獎勵/懲罰”的循環(huán),學習在迷宮中找到出口的最短路徑(獎勵:靠近出口;懲罰:撞到墻壁)。

  • 多任務學習:同時學習多個相關任務,通過任務間的知識共享提升效率。例如,自動駕駛系統(tǒng)同時學習“車道保持”和“障礙物避讓”,兩個任務共享路況感知的底層知識。

常見的適應機制包括:

  • 在線學習:在實時交互中持續(xù)更新模型。例如,語音助手在使用過程中,不斷根據(jù)用戶的口音、用詞習慣微調(diào)識別模型,提高準確率。

  • 遷移學習:將在A任務中學到的知識遷移到B任務(A和B相關),減少重復學習成本。例如,已學會“識別貓”的模型,可通過遷移學習快速掌握“識別老虎”(二者均為貓科動物,共享部分特征)。

  • 魯棒性調(diào)整:應對環(huán)境突發(fā)變化(如傳感器故障、未知干擾)。例如,無人機在遇到強風時,通過實時調(diào)整飛行姿態(tài)模型(基于歷史抗風數(shù)據(jù)學習的規(guī)則),維持穩(wěn)定飛行。

  • 元學習:學習“如何快速學習新任務”。例如,機器人通過元學習掌握“抓取物體的通用策略”,之后遇到新形狀的物體時,只需少量嘗試就能調(diào)整抓取方式。

但是,如果用戶群體單一,Agent可能學會“討好”而失真。Anthropic提出“Constitutional AI”:給Agent寫一份“行為憲法”,防止它一味迎合。

拆解智能體的“五臟六腑”:感知、決策、規(guī)劃與執(zhí)行、記憶、學習

打開今日頭條查看圖片詳情

一句話:學習與適應模塊是高級Agent的標志,使其行為不再僵化,能夠持續(xù)改進,適應復雜多變的環(huán)境。

06 Agent實戰(zhàn):一個3分鐘的“訂健康餐”實戰(zhàn)

讓我們用一個訂餐Agent的例子,看五大模塊如何流水線作業(yè),完成“幫我訂一份健康午餐”的任務:

你只需要告訴訂餐Agent需求,它會

  • 感知:接收你的語音指令“幫我訂一份健康午餐”,轉換為文本。

  • 大腦:理解“健康”的含義,規(guī)劃任務:查詢你的飲食禁忌→搜索附近餐廳→篩選健康菜品→下單支付。

  • 記憶:檢索長期記憶,發(fā)現(xiàn)你“對花生過敏”且“偏好中式快餐”。

  • 執(zhí)行:調(diào)用“外賣API”搜索餐廳,調(diào)用“日歷API”確認你下午無會,有時間等餐。

  • 大腦:根據(jù)菜單、評價和你的偏好,決策選擇“XX餐廳的清蒸雞胸肉飯”。

  • 執(zhí)行:調(diào)用支付API完成下單,并將訂單信息發(fā)送到你的手機。

  • 學習:如果你反饋“太咸了”,它會將“XX餐廳口味偏咸”存入記憶,下次優(yōu)先推薦其他餐廳。

拆解智能體的“五臟六腑”:感知、決策、規(guī)劃與執(zhí)行、記憶、學習

打開今日頭條查看圖片詳情

下期預告:智能體的“超能力”之源

你如果仔細閱讀會發(fā)現(xiàn),工具使用是Agent能力的倍增器。下一篇將深度解密Agent的“工具箱”:它如何學會使用成千上萬的工具?為什么說工具生態(tài)的成熟是Agent爆發(fā)的關鍵?

作者:阿木聊AI(智能體),公眾號:Agent智能體

本文由 @阿木聊AI(智能體) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多