AI & Automation

Promptfoo คืออะไร? คู่มือ Open-Source LLM Testing & Eval Framework สำหรับ SME ไทย 2026

Promptfoo คือ Open-Source LLM Testing Framework ที่ช่วยทีมพัฒนา AI ทดสอบ Prompt, ประเมินคุณภาพ Output และเปรียบเทียบ Model หลายตัวอย่างเป็นระบบ คู่มือ SME ไทย 2026 ครบทั้งวิธีติดตั้ง การเขียน YAML config และ Best Practices CI/CD

AF
ADS FIT Team
·8 นาที
Share:
Promptfoo คืออะไร? คู่มือ Open-Source LLM Testing & Eval Framework สำหรับ SME ไทย 2026

# Promptfoo คืออะไร? คู่มือ Open-Source LLM Testing & Eval Framework สำหรับ SME ไทย 2026

ในยุคที่ทุกธุรกิจเริ่มผูก Workflow เข้ากับ Large Language Model (LLM) ไม่ว่าจะเป็น Chatbot ตอบลูกค้า, ระบบสรุปเอกสาร, หรือ AI Agent ภายในองค์กร คำถามที่ทีม IT มักเจอคือ "Prompt ของเราดีพอหรือยัง?" และ "ถ้าเปลี่ยน Model จาก GPT-4o ไป Claude 3.5 หรือ Llama 3.3 ผลลัพธ์จะแย่ลงไหม?" การทดสอบด้วยมือ (Manual QA) ไม่สามารถ Scale ได้ เมื่อ Prompt มีหลายสิบหรือร้อยรูปแบบ และ Output เปลี่ยนทุกครั้งที่ Vendor อัปเดต Model

Promptfoo คือ Open-Source CLI + Web UI ที่ออกแบบมาเพื่อแก้ปัญหานี้โดยเฉพาะ ทำให้การทดสอบและประเมิน LLM กลายเป็นกระบวนการที่ทำซ้ำได้ (Reproducible), เปรียบเทียบได้ (Comparable) และผูกเข้ากับ CI/CD ได้เหมือนการ Unit Test ทั่วไป

ในคู่มือนี้คุณจะได้เรียนรู้ว่า Promptfoo ทำอะไรได้บ้าง วิธีติดตั้งและตั้งค่าใน 10 นาที การเขียน Test Case แบบ YAML, การใช้ Assertion เพื่อตรวจคุณภาพ Output อัตโนมัติ และเปรียบเทียบกับ Tool คู่แข่งอย่าง LangSmith และ Phoenix Arize เพื่อให้ SME ไทยเลือกใช้ได้ตรงกับงบประมาณและทีม

Promptfoo คืออะไรและแก้ปัญหาอะไรได้บ้าง

Promptfoo เป็นเครื่องมือ Open-Source ภายใต้ MIT License พัฒนาโดย Ian Webster (อดีต Engineer ที่ Google และ Karma) เน้น 4 จุดหลัก:

  • Prompt Testing — รัน Prompt ตัวเดียวกับหลาย Provider/Model เพื่อเทียบผลลัพธ์เคียงข้างกัน
  • Automated Evaluation — ใช้ Assertion (Equals, Contains, Regex, JavaScript, LLM-as-Judge) ตัดสินว่า Output ผ่านหรือไม่
  • Red-Teaming & Security — สร้าง Adversarial Test กว่า 50 ประเภท เช่น Prompt Injection, Jailbreak, PII Leak
  • CI/CD Integration — รันใน GitHub Actions, GitLab CI หรือ Jenkins ได้ตรงๆ ผ่านคำสั่ง `promptfoo eval`
  • ปัญหาที่ SME มักเจอแล้ว Promptfoo แก้ได้:

    | ปัญหา | วิธีที่ Promptfoo ช่วย |

    |---|---|

    | ไม่รู้ว่า Model ใหม่ดีกว่าตัวเก่าจริงไหม | รัน A/B Test บน Test Set เดียวกัน + Cost/Latency Report |

    | Prompt แก้นิดเดียวแล้วลูกค้าบ่น | Snapshot Test ตรวจสอบ Regression อัตโนมัติ |

    | Hallucination ที่ Production | LLM-as-Judge + RAG Evaluation Metric |

    | ไม่มี Budget สำหรับ LangSmith/Galileo | Self-host ฟรี รันใน Laptop หรือ On-Premise ได้ |

    คุณสมบัติเด่นที่ทำให้ Promptfoo เหมาะกับ SME ไทย

  • **Provider รองรับครบ** — OpenAI, Anthropic, Google Gemini, Azure OpenAI, Ollama (Local), vLLM, AWS Bedrock, Hugging Face และอื่นๆ กว่า 30 ตัว
  • **YAML-First Configuration** — เขียน Test Case ใน Git ได้ ไม่ต้องผูกกับ SaaS Dashboard
  • **Web UI สวย ใช้งานง่าย** — เปิด `promptfoo view` แล้วได้ Dashboard ทันที สำหรับ Stakeholder ที่ไม่ใช่ Engineer
  • **Cost Tracking** — แสดงค่าใช้จ่ายต่อ Test และ Token Usage แบบเรียลไทม์ ช่วยควบคุมงบ
  • **Plugin System** — เขียน Custom Assertion เป็น JS/Python ได้ เหมาะกับธุรกิจที่มีกฎเฉพาะ เช่น ตรวจเลขประจำตัว, ภาษาไทย, รูปแบบใบกำกับภาษี
  • **Privacy-Friendly** — ข้อมูลไม่ออกจาก Server ของคุณ เหมาะกับองค์กรที่ต้อง Comply กับ PDPA, ISO 27001 หรือ HIPAA
  • วิธีติดตั้งและตั้งค่า Promptfoo ใน 10 นาที

    ขั้นตอนต่อไปนี้ออกแบบสำหรับทีม Dev ที่มี Node.js 18+ บนเครื่อง:

    Step 1: ติดตั้งผ่าน npx (ไม่ต้องลงถาวร)

    ```bash

    npx promptfoo@latest init my-llm-eval

    cd my-llm-eval

    ```

    คำสั่งนี้สร้าง Folder พร้อมไฟล์ตัวอย่าง `promptfooconfig.yaml`

    Step 2: ตั้งค่า API Key ของ Provider ที่ใช้

    ```bash

    export OPENAI_API_KEY=sk-...

    export ANTHROPIC_API_KEY=sk-ant-...

    ```

    Step 3: เขียน Test Case ใน YAML

    ```yaml

    prompts:

  • "ช่วยสรุปข้อความนี้เป็นภาษาไทย 3 บรรทัด: {{text}}"
  • providers:

  • openai:gpt-4o-mini
  • anthropic:claude-3-5-haiku
  • tests:

  • vars:
  • text: "บริษัท ABC ประกาศผลประกอบการ Q4 ปี 2026 รายได้เพิ่ม 25% YoY..."

    assert:

  • type: contains
  • value: "Q4"

  • type: llm-rubric
  • value: "ต้องสรุปครบ 3 บรรทัด ไม่เพิ่มข้อมูลที่ไม่อยู่ใน Source"

    ```

    Step 4: รัน Eval

    ```bash

    npx promptfoo@latest eval

    npx promptfoo@latest view

    ```

    Web UI จะเปิดที่ `http://localhost:15500` แสดงผลเปรียบเทียบ GPT-4o-mini กับ Claude 3.5 Haiku พร้อม Pass Rate, Cost, Latency

    Step 5: ผูกเข้า CI/CD

    ใน GitHub Actions เพิ่ม Job ที่รัน `promptfoo eval --output results.json` แล้วใช้ `--share` ในการ Upload ผลขึ้น Cloud View หรือเก็บเป็น Artifact ก็ได้

    Promptfoo vs LangSmith vs Phoenix Arize

    | ฟีเจอร์ | Promptfoo | LangSmith | Phoenix (Arize) |

    |---|---|---|---|

    | License | MIT (ฟรี) | Commercial / Free Tier จำกัด | Apache 2.0 (ฟรี) |

    | Self-hosting | ✅ Native | จำกัดเฉพาะ Enterprise | ✅ Docker/K8s |

    | YAML Config | ✅ First-class | ❌ ใช้ SDK | ⚠️ ส่วนใหญ่เป็น UI |

    | Red-Teaming Plugin | ✅ 50+ Attack | ⚠️ ต้องเขียนเอง | ⚠️ Limited |

    | ผูกกับ Framework | Provider-agnostic | LangChain-centric | LlamaIndex-centric |

    | Cost Tracking | ✅ ในตัว | ✅ | ⚠️ ต้องตั้งค่า |

    | เหมาะกับ | SME ทุกขนาด | ทีมที่ใช้ LangChain หนัก | ทีม Data Science / Observability |

    ถ้าต้องการ Free + CI/CD-Native + Provider-Agnostic Promptfoo คือคำตอบที่ตรงที่สุด LangSmith เหมาะถ้าทีมยังใช้ LangChain เป็นหลักและพร้อมจ่ายรายเดือน Phoenix เหมาะถ้าต้องการ Observability Layer ระดับ Production แทน Test Framework

    Best Practices สำหรับ Production

  • **เริ่มจาก Test Set ขนาดเล็ก** — 20–50 Case ที่ครอบคลุม Edge Case ดีกว่า 1,000 Case ที่ซ้ำกัน
  • **ใช้ LLM-as-Judge อย่างระมัดระวัง** — ใช้ Model ที่ใหญ่กว่า Production Model เป็น Judge เสมอ และตรวจ Bias ของ Judge เป็นรายไตรมาส
  • **เก็บ Result เป็น Artifact** — Commit ไฟล์ JSON ผลลัพธ์ใน Repo เพื่อใช้เปรียบเทียบ Regression ข้าม Release
  • **แยก Test Set ตามภาษา** — สร้าง YAML แยก สำหรับภาษาไทย vs อังกฤษ เพราะ Tokenizer และคุณภาพ Model ต่างกันมาก
  • **ตั้ง Threshold ใน CI** — ให้ Pipeline Fail เมื่อ Pass Rate ต่ำกว่า 90% หรือ Cost ต่อ Run เกินงบ
  • **อย่าลืม Red-Team** — รัน `promptfoo redteam` ก่อนเปิดบริการกับลูกค้าเพื่อตรวจ Prompt Injection และ PII Leakage
  • สรุป + เริ่มใช้งานวันนี้

    Promptfoo เปลี่ยนการพัฒนา LLM จากศิลปะกลายเป็นวิศวกรรม ด้วย Workflow ที่ทดสอบได้, ทำซ้ำได้, และโปร่งใส ทีม SME ไทยที่กำลังลงทุนใน AI ไม่ควรพลาดเครื่องมือฟรีตัวนี้ เพราะช่วย:

  • ลด **Hallucination** และ Regression ก่อนถึงมือลูกค้า
  • เปรียบเทียบ Model หลายตัวอย่าง **เป็นระบบ** เพื่อเลือกตัวที่คุ้มค่าที่สุด
  • ผูกการทดสอบ AI เข้ากับ **CI/CD** ได้เหมือน Unit Test ปกติ
  • ป้องกัน **Security Risk** ผ่าน Built-in Red-Team Plugin
  • ถ้าทีมของคุณต้องการคำปรึกษาเรื่องการวาง LLMOps Pipeline, การเลือก Model ที่เหมาะกับธุรกิจ, หรือ Workshop การใช้ Promptfoo สำหรับองค์กร [ติดต่อทีม ADS FIT](https://www.adsfit.co.th/#contact) ได้ทันที — เราช่วยวางระบบ AI ที่ปลอดภัย ทำซ้ำได้ และพร้อม Scale ตามธุรกิจคุณ อ่านบทความที่เกี่ยวข้อง: [AI Guardrails](/blog/ai-guardrails-llm-safety-nemo-llamaguard-guide-sme-thailand-2026) และ [OWASP LLM Top 10 2026](/blog/owasp-llm-top-10-ai-security-sme-thailand-2026) เพื่อเสริมความปลอดภัยของระบบ AI ของคุณ

    Tags

    #Promptfoo#LLM Testing#Prompt Engineering#AI Evaluation#Open Source#LLMOps

    สนใจโซลูชันนี้?

    ปรึกษาทีม ADS FIT ฟรี เราพร้อมออกแบบระบบที่ฟิตกับธุรกิจของคุณ

    ติดต่อเรา →

    บทความที่เกี่ยวข้อง