# 介紹 WP-Bench：WordPress AI 基準測試

*Published:* 2026-01-16
*Author:* 殼殼蟲

語言模型對 WordPress 的理解程度究竟如何?為了回答這個問題,我們推出了 [WP-Bench](https://github.com/WordPress/wp-bench) —— WordPress 官方 AI 基準測試。

WP-Bench 評估 AI 模型對 WordPress 開發的理解程度,從核心 API[2](#c92cb2f3) 和編碼標準到外掛架構和安全最佳實踐。

為什麼 WP-Bench 很重要
----------------

WordPress 為超過 40% 的網站提供支援,但 AI 模型通常是在通用程式設計任務上進行評估的。WP-Bench 透過測量 WordPress 特定能力來填補這一空白。

**瞭解當今的模型。** 無論您是在構建 AI 驅動的外掛還是使用編碼助手,瞭解哪些模型在 WordPress 方面表現出色都能幫助您做出更好的工具選擇。

**塑造未來的模型。** 我們希望 WP-Bench 成為 AI 實驗室在開發新模型時使用的標準基準。當 OpenAI、Anthropic 和 Google 等提供商進行預釋出評估時,我們希望 WordPress 效能在他們的關注範圍內 —— 而不是事後才想到。這為數百萬依賴 WordPress 的開發者和網站所有者創造了最佳化激勵。

**構建開源排行榜。** 我們正在努力建立一個公開的排行榜,跟蹤模型在 WordPress 任務上的效能。這將為社群提供透明的結果,為 WordPress 專案如何與 AI 提供商合作提供資訊,並幫助開發者為他們的專案選擇合適的工具。

工作原理
----

WP-Bench 從兩個維度測量 AI 能力:

- **知識** —— 測試 WordPress 概念、API、鉤子、安全模式和編碼標準的多項選擇題,重點關注 Abilities API 和 Interactivity API 等現代新增功能。
- **執行** —— 程式碼生成任務,由真實的 WordPress 執行時透過靜態分析和執行時斷言進行評分。

該基準使用 WordPress 本身作為評分器,在沙盒環境中執行生成的程式碼。這確保我們既測量理論理解,也測量生成符合標準的可工作程式碼的實際能力。

當前狀態和已知限制
---------

WP-Bench 是早期版本,我們對需要改進的地方保持透明:

- **資料集規模** —— 當前測試套件相對較小。我們需要更多跨 WordPress API 和模式的測試用例,以使其成為全面的基準。
- **版本覆蓋** —— 該基準目前偏向於 WordPress 6.9 的功能,如 Abilities API 和 Interactivity API。這部分是有意為之(較新的 API 是模型真正難以應對的地方),但也造成了偏差,因為這些功能晚於大多數模型的訓練資料。我們需要更多對已建立的 WordPress 模式的覆蓋,以建立平衡的評估。
- **基準飽和** —— 早期測試顯示模型在較舊的 WordPress 概念上得分很高,這意味著這些問題沒有提供強烈的訊號。挑戰在於找到真正困難的問題,而不僅僅是新問題。

這些限制正是我們現在釋出而不是等待的原因。我們知道 WordPress 社群在幫助構建強大、有代表性的基準方面具有獨特的優勢。

快速開始
----

```
# 安裝
python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

# 啟動 WordPress 執行時
cd runtime && npm install && npm start

# 執行基準測試
cd .. && wp-bench run --config wp-bench.example.yaml
```

在 `.env` 檔案中配置您的模型提供商 API 金鑰,結果將寫入 `output/results.json`。該測試工具支援在單次執行中執行多個模型以便於比較。

支援 AI 構建塊
---------

WP-Bench 透過測量 AI 模型與 WordPress 的配合程度來補充其他 [WordPress AI 構建塊](https://make.wordpress.org/ai/2025/07/17/ai-building-blocks/)。隨著我們構建 Abilities API、MCP[3](#74d2555f) 介面卡和其他基礎設施,標準化的基準有助於確保這些工具與最佳可用模型整合。

參與其中
----

WP-Bench 需要您的幫助。基準測試的質量取決於其測試用例,而 WordPress 社群擁有數十年關於 WordPress 開發挑戰的集體知識。

**貢獻方式:**

- **新增測試用例** —— 知道一個讓開發者困惑的棘手 WordPress 模式嗎?它可能也會讓 AI 困惑。我們需要覆蓋更多 API、鉤子和實際場景。
- **執行基準測試** —— 測試您正在使用的模型並分享您的發現。
- **改進評分邏輯** —— 幫助使評估更加嚴格。
- **提交結果** —— 為公開排行榜做出貢獻。

如果您在 AI 實驗室工作,我們很樂意就將 WP-Bench 整合到您的評估流程中進行合作。

**資源:**

- [WP-Bench GitHub[1](#8ca81878) 倉庫](https://github.com/WordPress/wp-bench)
- [WordPress AI 構建塊](https://make.wordpress.org/ai/2025/07/17/ai-building-blocks/)

---

我們的目標是讓 WP-Bench 成為 AI 提供商在釋出新模型時使用的標準評估 —— 建立一個良性迴圈,使 WordPress 效能隨著每一代的發展而提高。加入我們的 [\#core-ai](https://wordpress.slack.com/archives/C08TJ8BPULS) 頻道討論、分享結果,並幫助塑造 WordPress 中 AI 的未來。

### 名詞解釋

1. GitHub：全球最大的程式碼託管和協作開發平臺 [↩︎](#8ca81878-link)
2. API：應用程式程式設計介面，軟體之間互動的標準方式 [↩︎](#c92cb2f3-link)
3. MCP：AI 模型與外部工具互動的協議 [↩︎](#74d2555f-link)
<!-- WP Chinese Converter Full Page Converted. Target Lang: zh-tw -->