介紹 WP-Bench：WordPress AI 基準測試

殼殼蟲

2026.01.16

乙巳蛇年冬月廿八

123 次瀏覽

新聞資訊

語言模型對 WordPress 的理解程度究竟如何?為了回答這個問題,我們推出了 WP-Bench —— WordPress 官方 AI 基準測試。

WP-Bench 評估 AI 模型對 WordPress 開發的理解程度,從核心 API 和編碼標準到外掛架構和安全最佳實踐。

為什麼 WP-Bench 很重要

WordPress 為超過 40% 的網站提供支援,但 AI 模型通常是在通用程式設計任務上進行評估的。WP-Bench 透過測量 WordPress 特定能力來填補這一空白。

瞭解當今的模型。 無論您是在構建 AI 驅動的外掛還是使用編碼助手,瞭解哪些模型在 WordPress 方面表現出色都能幫助您做出更好的工具選擇。

塑造未來的模型。 我們希望 WP-Bench 成為 AI 實驗室在開發新模型時使用的標準基準。當 OpenAI、Anthropic 和 Google 等提供商進行預釋出評估時,我們希望 WordPress 效能在他們的關注範圍內 —— 而不是事後才想到。這為數百萬依賴 WordPress 的開發者和網站所有者創造了最佳化激勵。

構建開源排行榜。 我們正在努力建立一個公開的排行榜,跟蹤模型在 WordPress 任務上的效能。這將為社群提供透明的結果,為 WordPress 專案如何與 AI 提供商合作提供資訊,並幫助開發者為他們的專案選擇合適的工具。

工作原理

WP-Bench 從兩個維度測量 AI 能力:

知識 —— 測試 WordPress 概念、API、鉤子、安全模式和編碼標準的多項選擇題,重點關注 Abilities API 和 Interactivity API 等現代新增功能。
執行 —— 程式碼生成任務,由真實的 WordPress 執行時透過靜態分析和執行時斷言進行評分。

該基準使用 WordPress 本身作為評分器,在沙盒環境中執行生成的程式碼。這確保我們既測量理論理解,也測量生成符合標準的可工作程式碼的實際能力。

當前狀態和已知限制

WP-Bench 是早期版本,我們對需要改進的地方保持透明:

資料集規模 —— 當前測試套件相對較小。我們需要更多跨 WordPress API 和模式的測試用例,以使其成為全面的基準。
版本覆蓋 —— 該基準目前偏向於 WordPress 6.9 的功能,如 Abilities API 和 Interactivity API。這部分是有意為之(較新的 API 是模型真正難以應對的地方),但也造成了偏差,因為這些功能晚於大多數模型的訓練資料。我們需要更多對已建立的 WordPress 模式的覆蓋,以建立平衡的評估。
基準飽和 —— 早期測試顯示模型在較舊的 WordPress 概念上得分很高,這意味著這些問題沒有提供強烈的訊號。挑戰在於找到真正困難的問題,而不僅僅是新問題。

這些限制正是我們現在釋出而不是等待的原因。我們知道 WordPress 社群在幫助構建強大、有代表性的基準方面具有獨特的優勢。

快速開始

# 安裝
python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

# 啟動 WordPress 執行時
cd runtime && npm install && npm start

# 執行基準測試
cd .. && wp-bench run --config wp-bench.example.yaml

在 .env 檔案中配置您的模型提供商 API 金鑰,結果將寫入 output/results.json。該測試工具支援在單次執行中執行多個模型以便於比較。