介紹 WP-Bench:WordPress AI 基準測試

4b3fe497f6127ce72e6361d8ad77ce9

語言模型對 WordPress 的理解程度究竟如何? 為了回答這個問題, 我們推出了 WP-Bench —— WordPress 官方 AI 基準測試。

WP-Bench 評估 AI 模型對 WordPress 開發的理解程度, 從核心 API 和編碼標準到外掛架構和安全最佳實踐。

為什麼 WP-Bench 很重要

WordPress 為超過 40% 的網站提供支援, 但 AI 模型通常是在通用程式設計任務上進行評估的。 WP-Bench 透過測量 WordPress 特定能力來填補這一空白。

瞭解當今的模型。 無論您是在構建 AI 驅動的外掛還是使用編碼助手, 瞭解哪些模型在 WordPress 方面表現出色都能幫助您做出更好的工具選擇。

塑造未來的模型。 我們希望 WP-Bench 成為 AI 實驗室在開發新模型時使用的標準基準。當 OpenAI 、 Anthropic 和 Google 等提供商進行預釋出評估時, 我們希望 WordPress 效能在他們的關注範圍內 —— 而不是事後才想到。這為數百萬依賴 WordPress 的開發者和網站所有者創造了最佳化激勵。

構建開源排行榜。 我們正在努力建立一個公開的排行榜, 跟蹤模型在 WordPress 任務上的效能。這將為社群提供透明的結果, 為 WordPress 專案如何與 AI 提供商合作提供資訊, 並幫助開發者為他們的專案選擇合適的工具。

工作原理

WP-Bench 從兩個維度測量 AI 能力:

  • 知識 —— 測試 WordPress 概念、 API 、鉤子、安全模式和編碼標準的多項選擇題, 重點關注 Abilities API 和 Interactivity API 等現代新增功能。
  • 執行 —— 程式碼生成任務, 由真實的 WordPress 執行時透過靜態分析和執行時斷言進行評分。

該基準使用 WordPress 本身作為評分器, 在沙盒環境中執行生成的程式碼。這確保我們既測量理論理解, 也測量生成符合標準的可工作程式碼的實際能力。

當前狀態和已知限制

WP-Bench 是早期版本, 我們對需要改進的地方保持透明:

  • 資料集規模 —— 當前測試套件相對較小。我們需要更多跨 WordPress API 和模式的測試用例, 以使其成為全面的基準。
  • 版本覆蓋 —— 該基準目前偏向於 WordPress 6.9 的功能, 如 Abilities API 和 Interactivity API 。這部分是有意為之 (較新的 API 是模型真正難以應對的地方), 但也造成了偏差, 因為這些功能晚於大多數模型的訓練資料。我們需要更多對已建立的 WordPress 模式的覆蓋, 以建立平衡的評估。
  • 基準飽和 —— 早期測試顯示模型在較舊的 WordPress 概念上得分很高, 這意味著這些問題沒有提供強烈的訊號。挑戰在於找到真正困難的問題, 而不僅僅是新問題。

這些限制正是我們現在釋出而不是等待的原因。我們知道 WordPress 社群在幫助構建強大、有代表性的基準方面具有獨特的優勢。

快速開始

# 安裝
python3 -m venv .venv && source .venv/bin/activate
pip install -e ./python

# 啟動 WordPress 執行時
cd runtime && npm install && npm start

# 執行基準測試
cd .. && wp-bench run --config wp-bench.example.yaml

.env 檔案中配置您的模型提供商 API 金鑰, 結果將寫入 output/results.json 。該測試工具支援在單次執行中執行多個模型以便於比較。

支援 AI 構建塊

WP-Bench 透過測量 AI 模型與 WordPress 的配合程度來補充其他 WordPress AI 構建塊。隨著我們構建 Abilities API 、 MCP 介面卡和其他基礎設施, 標準化的基準有助於確保這些工具與最佳可用模型整合。

參與其中

WP-Bench 需要您的幫助。基準測試的質量取決於其測試用例, 而 WordPress 社群擁有數十年關於 WordPress 開發挑戰的集體知識。

貢獻方式:

  • 新增測試用例 —— 知道一個讓開發者困惑的棘手 WordPress 模式嗎? 它可能也會讓 AI 困惑。我們需要覆蓋更多 API 、鉤子和實際場景。
  • 執行基準測試 —— 測試您正在使用的模型並分享您的發現。
  • 改進評分邏輯 —— 幫助使評估更加嚴格。
  • 提交結果 —— 為公開排行榜做出貢獻。

如果您在 AI 實驗室工作, 我們很樂意就將 WP-Bench 整合到您的評估流程中進行合作。

資源:


我們的目標是讓 WP-Bench 成為 AI 提供商在釋出新模型時使用的標準評估 —— 建立一個良性迴圈, 使 WordPress 效能隨著每一代的發展而提高。加入我們的 #core-ai 頻道討論、分享結果, 並幫助塑造 WordPress 中 AI 的未來。

文章目錄



發表評論

發表回覆

您的郵箱地址不會被公開。 必填項已用 * 標註