用 N8N 建企業知識庫 RAG 管線：從文件切片到向量檢索完整流程

N8N RAG 是把企業文件整理、切片、向量化與檢索回覆接成一條工作流的方法。流程做對，客服、內訓、業務與 SOP 查詢都能在幾分鐘內上線，不用每次都重建系統。

上週幫一間 18 人的 B2B 團隊整理 420 份 PDF、Notion 匯出檔與客服 SOP，原本新人找答案平均要 12 分鐘，改成一條 n8n rag 管線後，常見問題 30 秒內就能拿到可追溯的引用片段。

很多人以為 RAG 難在模型，其實更難的是資料流程。文件怎麼收、怎麼切、多久重建索引、檢索不到時怎麼退場，這些沒想清楚，向量資料庫再強也只會把錯的內容找得更快。

這篇會用企業知識庫場景，從零拆開 n8n rag 的完整流程，讓你知道每個節點在做什麼、哪裡最容易踩坑，以及什麼時候該用模板先跑起來，再慢慢優化。

先看全貌：一條企業知識庫 RAG 管線長怎樣

先把整體架構想成兩條線：

建庫線：收文件、清洗、切片、做 embedding、寫進向量資料庫。
查詢線：接收問題、檢索相關片段、組 prompt、交給 LLM 回答。

如果你剛接觸 n8n，建議先看這篇入門文章打底：https://n8nstart.cc/blog/n8n-beginner-complete-guide 。
如果你正在評估自架或雲端部署，先補這篇比較：https://n8nstart.cc/blog/n8n-cloud-vs-self-hosted-comparison 。
想知道 AI 工作流常見結構，可以再讀：https://n8nstart.cc/blog/n8n-ai-agent-workflow-patterns 。

建庫線的 6 個核心步驟

1. 文件收集

來源通常不只一種。最常見的是 Google Drive、Notion 匯出、客服後台 CSV、產品文件 Markdown、內部 PDF。

你要先決定一件事：哪些文件值得進知識庫。
會變動、需要被查詢、能影響決策的內容才要收。
舊簡報、過期公告、沒人會問的會議記錄，先別放。

2. 文件標準化

這一步常被跳過，但它直接影響檢索品質。

你至少要把不同來源整理成一致欄位：

source
title
updated_at
department
content
url 或 doc_id

在 n8n 裡，這通常靠 Set、Code、Extract from File、Function 類節點處理。
如果 PDF 解析後很亂，先做換行、頁碼、重複標頭清洗，再往下走。

3. 文件切片

切片不是把文章硬切成 500 字而已。
切太短，語意斷掉。
切太長，檢索雖然有抓到，但回覆時上下文太肥，成本也上升。

一般企業知識庫可以先用這組起始值：

每片 400 到 800 tokens
overlap 50 到 120 tokens
SOP 類文件切短一點
條款、合約、技術文件切長一點

如果你想更深入看切片策略、metadata 設計、重建索引時機，下面這篇 cluster 會專講：

https://n8nstart.cc/blog/n8n-rag-enterprise-knowledge-deep-dive

4. Embedding

切片後，要把文字轉成向量。
這一步不是讓模型「理解」文件，而是把相近語意放到相近位置，方便檢索。

你可以接不同 provider 的 embedding 模型，但不要一開始就糾結誰分數高 2%。
對多數中小企業來說，先把資料清洗與 metadata 做對，比換模型更有感。

Anthropic 對提示設計與文件使用方式有不少實作指南，可作為檢索回覆設計的參考：https://docs.anthropic.com/
n8n 官方文件也有 AI 與節點串接說明：https://docs.n8n.io/

5. 寫入向量資料庫

常見選擇有 Pinecone、Qdrant、Weaviate、pgvector。
如果資料量還不大，幾萬到十幾萬片段，先求穩定與好維護，不要一開始就追求最花俏的架構。

你真正要關心的是：

是否支援 metadata filter
更新文件時能否刪舊寫新
查詢延遲是否穩定
成本會不會隨片段數爆掉

這就是很多人問的「n8n 向量資料庫怎麼選」。答案不是某個品牌，而是你要不要做乾淨的資料生命週期。

6. 建立重建與同步機制

企業知識庫不是一次性專案。
文件會改版，FAQ 會增補，產品規格會更新。
如果沒有同步機制，你的 RAG 很快就開始答舊資料。

常見做法是：

每日定時掃描變更文件
比對 updated_at 或 hash
有變更就重切、重 embedding、覆蓋舊索引
寫 log 方便追查哪份文件出了問題

如果你對穩定性和維運還沒概念，建議一起看這篇錯誤處理思路：https://n8nstart.cc/blog/n8n-workflow-error-handling-patterns

查詢線的 5 個核心步驟

1. 接收問題

入口可以是聊天機器人、客服面板、Slack、內部入口網站，甚至是一個簡單 webhook。

這裡不要只收一個 question 欄位。
最好一併帶入：

使用者角色
部門
語言
產品線
會話 ID

因為同一句「可以退費嗎」，客服、經銷商與內部財務需要的答案可能不同。

2. Query 改寫

很多人把使用者原句直接送檢索，結果相關度不穩。
更好的做法是先做 query rewrite，把口語問題改成適合檢索的查詢句。

例如：

原句：客戶續約折扣怎麼抓
改寫：企業版年度續約折扣規則與審批流程

這一步能明顯提升召回率，尤其是文件標題和用語比較正式時。

3. 向量檢索加條件過濾

檢索不要只看相似度。
你還要配合 metadata filter，先縮小範圍。

例如：

只查 department = sales
只查 product = enterprise
只查最近 180 天更新的文件

這樣可以避免模型從舊版規則抓到看似相關、其實已過期的片段。

4. 組 prompt 與引用內容

這一步很關鍵。
你要明確要求模型：

只能根據檢索到的內容回答
回答時附上來源標題或連結
找不到答案就直接說不知道
不要自行補完制度細節

很多企業一上線就抱怨「RAG 還是會掰」。
十次有八次不是模型太差，而是 prompt 沒把邊界寫清楚。

5. 回覆與記錄

最後輸出不只是答案，還要留下可觀測資料：

用了哪些 chunk
相似度分數
回答耗時
是否 fallback
使用者有沒有追問

這些 log 會決定你之後能不能優化，而不是只靠主觀感覺說「好像變準了」。

用模板思維建 n8n rag，比從白紙開始快在哪

很多 SME 老闆或 freelancer 會卡在第一步：知道流程，但不知道節點怎麼接。

這時候別硬撐。
先拿可跑的模板，再依場景微調，通常比較快。

模板的價值不只是省時間，還有三個更實際的好處：

1. 先避開結構性錯誤

像是：

沒有 metadata
切片前沒清洗
查詢線沒有 fallback
更新文件時沒刪舊索引

這些不是「以後再補」的小問題，而是會讓整條 rag pipeline 後面一直歪掉的結構錯誤。

2. 方便估工與報價

對接案者來說，n8n rag 專案最難報價的地方就是需求模糊。
有模板時，你可以直接跟客戶說：

基礎版：單一文件來源 + 單語言檢索
進階版：多來源同步 + metadata filter
完整版：權限分流 + 使用 log + 自動重建索引

這樣就不會變成「先做看看」後面一路失控。

3. 更容易教團隊接手

如果流程都寫死在某個工程師腦中，團隊一換人就斷。
模板化後，你可以把每段節點命名清楚，讓營運、PM、工程師都知道：

哪段在抽文字
哪段在切片
哪段在寫資料庫
哪段在查詢

這對企業知識庫尤其重要，因為它不是炫技專案，而是長期會被使用的內部基礎設施。

一條能落地的 n8n rag 節點設計範例

下面給你一個實務上好維護的結構，不追求最短，而是追求出事時找得到問題。

建庫線節點範例

Cron 或 Webhook
Google Drive / HTTP Request / Read Binary File
Extract from File
Code 清洗內容
Split Out 或自訂切片節點
Set 補 metadata
Embeddings 節點
Vector Store Insert
Postgres 或 Notion 記錄同步結果
Slack 或 Email 通知失敗

查詢線節點範例

Webhook 或聊天入口
Set 整理問題與使用者資訊
LLM 做 query rewrite
Vector Store Search
IF 判斷是否命中足夠內容
LLM 生成答案
Respond to Webhook
Postgres 記錄查詢 log

這種設計雖然節點比極簡版多，但可觀測性強。
真正在企業內部跑，穩定通常比炫更值錢。

企業知識庫最常踩的 7 個坑

1. 把所有文件都塞進去

不是資料越多越好。
低品質文件只會拉低檢索準度。

2. 沒有版本管理

同一份 SOP 有 v1、v2、v3，結果檢索時三份都回來，答案一定亂。

3. 只做向量檢索，不做 filter

相似度高不代表業務正確。
沒有 metadata filter，常常找到錯部門、錯產品線的內容。

4. 沒有 fallback

檢索不到還硬答，這是最傷信任的一種錯。

5. 不記錄查詢行為

沒有 log，你根本不知道是 chunk 問題、prompt 問題，還是文件本身過期。

6. 把 RAG 當聊天機器人專案

RAG 的核心不是聊天，而是找對資料。
前端再漂亮，找錯內容還是沒用。

7. 一開始就追求全公司上線

更好的做法是先做單部門。
例如先從客服或業務團隊開始，用 50 到 100 份高價值文件驗證效果，再擴張。

怎麼判斷你的 n8n rag 已經值得上線

你不需要等到 100 分才上。
但至少要過這 5 個門檻：

1. 命中率能穩定

常見問題中，至少 70% 到 80% 能抓到對的片段。

2. 答案可追溯

每次回答都能附來源標題、文件日期或連結。

3. 找不到時會停

寧可回「目前資料不足」，也不要亂猜。

4. 文件更新能同步

至少做到每日或每週自動重建，不要靠人工想到才重跑。

5. 有人能維護

如果只有你看得懂這條工作流，那它還不算可上線。

N8Nmarket 會怎麼建這種專案

我們通常不會從「先選模型」開始，而是先問三件事：

你要解決哪一種查詢行為。
目前文件散在哪裡。
誰要維護這條流程。

接著用模板先做第一版，先把最小可用流程跑起來：

單一資料來源
基礎切片
metadata 欄位
檢索加引用
查詢 log

跑通後再加：

多來源同步
權限分流
重建索引機制
成本與延遲監控

這樣的好處很直接。
你不需要一開始就砸一個月開發，也不會做出一條只有原作者看得懂的工作流。

如果你還在評估這種自動化值不值得做，先看這篇決策框架：https://n8nstart.cc/blog/n8n-automation-decision-framework
想看更多具體成效案例，可以再讀：https://n8nstart.cc/blog/n8n-automation-efficiency-real-cases

結論：n8n rag 不是模型比賽，而是資料流程比賽

企業知識庫要跑得準，重點從來不是把最熱門模型接上去。
真正拉開差距的是：文件有沒有整理、切片有沒有策略、metadata 有沒有設計、檢索不到時會不會收手。

如果你把這四件事做好，n8n rag 對中小企業非常夠用。
如果你跳過這四件事，再多節點都只是把混亂自動化。

想直接用可修改的工作流模板起步，可以到 N8Nmarket 看現成案例與模板：

https://n8nstart.cc/templates

FAQ

n8n rag 適合哪些企業先導入

最適合文件已經很多、查詢重複度高的團隊，例如客服、業務、內訓、法務 SOP 或產品支援。這些場景的共同點是同樣的問題會反覆出現，而且答案本來就存在文件裡。

n8n 向量資料庫一定要選很大的雲服務嗎

不一定。前期資料量不大時，能穩定更新、支援 metadata filter、好維護，比品牌名氣更重要。先把資料生命週期做對，再擴充比較合理。

rag pipeline 要多久才能做出第一版

如果文件來源單純、範圍清楚，用模板先做最小可用版，通常幾天內就能驗證。真正拖時間的通常不是節點，而是文件品質、欄位標準化和更新流程。

為什麼 RAG 已經接上 LLM 還是會答錯

常見原因不是模型本身，而是切片太碎、metadata 缺失、檢索沒有 filter，或 prompt 沒限制只能依據引用內容回答。這幾個問題修掉，準確度通常比換模型更有感。