BlueAI株式会社BlueAI
データ分析489Forks: 41

Prompt Eval

by promptfoo

ゴールデンデータセット・自動グレーダー・統計的有意性レポートを使って、プロンプトの構造化 A/B 評価を実行。

雰囲気頼みのプロンプト調整を、悪化を防ぐ再現可能な評価パイプラインに置き換え

平原尚樹
監修: 平原尚樹

株式会社BlueAI 代表取締役CEO / ソフトウェアエンジニア / プロダクトエンジニア / Google Cloud Architect / 元AIスタートアップ(Doorkel)

酒井歩乃加
監修: 酒井歩乃加

早稲田大学文化構想学部卒業 / フリーランス編集者・ライター / 元マイベスト編集ディレクター / SEO対策記事・取材記事執筆

主な機能

  • ゴールデンデータセット管理
  • ペアワイズ・ルーブリックグレーダー
  • コストとレイテンシの追跡
  • リグレッション時の CI ゲート
  • HTML 差分レポート

活用シーン

  • カスタマーサポートエージェントのプロンプト調整
  • モデルバージョンの選定
  • デプロイ前のプロンプト書き換え検証

Claude Code を体系的に学びませんか?

全10章・30レッスン無料公開中

第1章から始める