データ分析489Forks: 41
Prompt Eval
by promptfoo
ゴールデンデータセット・自動グレーダー・統計的有意性レポートを使って、プロンプトの構造化 A/B 評価を実行。
雰囲気頼みのプロンプト調整を、悪化を防ぐ再現可能な評価パイプラインに置き換え
監修: 平原尚樹
株式会社BlueAI 代表取締役CEO / ソフトウェアエンジニア / プロダクトエンジニア / Google Cloud Architect / 元AIスタートアップ(Doorkel)
監修: 酒井歩乃加
早稲田大学文化構想学部卒業 / フリーランス編集者・ライター / 元マイベスト編集ディレクター / SEO対策記事・取材記事執筆
主な機能
- ゴールデンデータセット管理
- ペアワイズ・ルーブリックグレーダー
- コストとレイテンシの追跡
- リグレッション時の CI ゲート
- HTML 差分レポート
活用シーン
- カスタマーサポートエージェントのプロンプト調整
- モデルバージョンの選定
- デプロイ前のプロンプト書き換え検証