# LiteLLM Proxy คืออะไร? คู่มือ Unified LLM Gateway จัดการ AI Model หลายเจ้าใน API เดียว 2026
ในยุคที่ธุรกิจนำ AI มาใช้จริง คำถามแรกที่ทีม Engineering เจอคือ: "เราควรใช้ LLM จากเจ้าไหน?" คำตอบเกือบทุกครั้งคือ — ไม่ใช่แค่เจ้าเดียว บางงานเหมาะกับ Claude เพราะ Context ยาว บางงานเหมาะกับ GPT-4o เพราะ Vision ดี บางงานต้องการ Gemini เพราะราคาถูกกว่า และบางงาน Fine-tuned Llama ที่ host เองจะคุ้มกว่า
แต่ปัญหาคือ แต่ละเจ้ามี SDK, Authentication, Request/Response Format ต่างกันหมด ทำให้ Codebase เต็มไปด้วย if-else สำหรับ Provider ต่างๆ การย้าย Provider กลายเป็นฝันร้าย และไม่มีจุดกลางสำหรับดู Cost, Rate Limit หรือ Audit Log
LiteLLM Proxy คือคำตอบของปัญหานี้ — เป็น Open-source Unified LLM Gateway ที่ให้เรียก LLM 100+ ตัวผ่าน OpenAI-compatible API เดียว พร้อม Cost Tracking, Virtual Keys, Fallback และ Observability built-in บทความนี้จะพาคุณเข้าใจ LiteLLM ตั้งแต่ Concept, Architecture, การ Deploy, จนถึงการใช้งานจริงกับ Production
LiteLLM คืออะไร และแก้ปัญหาอะไร
LiteLLM เป็นโครงการ Open Source (Python) ที่ให้คุณเรียก LLM ของ Provider ต่างๆ ได้ด้วย Format เดียวกันกับ OpenAI API ใช้งานได้ 2 แบบ:
ปัญหาที่ LiteLLM แก้ให้ทีม:
องค์กรระดับ Enterprise หลายเจ้าเช่น Netflix, Adobe, RocketMoney ใช้ LiteLLM เป็น AI Gateway หลักขององค์กร
Providers และ Models ที่รองรับ
LiteLLM รองรับ Provider หลักครบ:
| Provider | ตัวอย่าง Models | Special Features |
|----------|-----------------|------------------|
| OpenAI | GPT-4o, GPT-4.1, o1, o3 | Function Calling, Vision |
| Anthropic | Claude Opus 4, Sonnet 4, Haiku 4.5 | Long Context, Tool Use |
| Google | Gemini 2.0 Pro, Flash | Vision, Grounding |
| Azure OpenAI | GPT-4o (Azure) | Enterprise Compliance |
| AWS Bedrock | Claude, Llama, Titan | IAM Auth |
| Mistral | Mistral Large, Codestral | EU Hosting |
| Groq | Llama-3.3, Mixtral | Ultra-fast Inference |
| Together AI | 200+ Open Models | Fine-tuning |
| Ollama | Llama 3, Gemma, Qwen | Local/Self-hosted |
| vLLM / TGI | Custom-deployed Models | Self-hosted |
นอกจาก Chat Completion แล้วยังรองรับ Embeddings, Image Generation, Audio Transcription, Speech-to-Text ผ่าน Interface เดียวกัน
Architecture: Proxy Mode vs SDK Mode
SDK Mode
```python
from litellm import completion
response = completion(
model="anthropic/claude-sonnet-4-6",
messages=[{"role": "user", "content": "สวัสดี"}]
)
```
เหมาะกับ: Prototype, Notebook, Script Batch-processing
Proxy Mode (แนะนำสำหรับ Production)
```
[App 1] ─┐
[App 2] ─┼─→ [LiteLLM Proxy] ─→ [OpenAI / Anthropic / ...]
[App 3] ─┘ │
├─ Virtual Keys
├─ Cost DB (Postgres)
├─ Cache (Redis)
└─ Logs (Langfuse / Datadog)
```
เหมาะกับ: องค์กร, ทีมหลายคน, Production Workload ที่ต้องการ Governance
การติดตั้ง LiteLLM Proxy แบบ Step-by-Step
ขั้นที่ 1: ติดตั้งผ่าน pip หรือ Docker
```bash
pip install 'litellm[proxy]'
# หรือ
docker pull ghcr.io/berriai/litellm:main-stable
```
ขั้นที่ 2: สร้างไฟล์ config.yaml
```yaml
model_list:
litellm_params:
model: openai/gpt-4o
api_key: os.environ/OPENAI_API_KEY
litellm_params:
model: anthropic/claude-sonnet-4-6
api_key: os.environ/ANTHROPIC_API_KEY
general_settings:
master_key: sk-master-xxxxx
database_url: os.environ/DATABASE_URL
```
ขั้นที่ 3: รัน Proxy
```bash
litellm --config config.yaml --port 4000
```
ขั้นที่ 4: ทดสอบด้วย curl
```bash
curl http://localhost:4000/chat/completions \
-H "Authorization: Bearer sk-master-xxxxx" \
-H "Content-Type: application/json" \
-d '{"model":"claude-4","messages":[{"role":"user","content":"hi"}]}'
```
ขั้นที่ 5: สร้าง Virtual Key สำหรับแต่ละทีม
ผ่าน Admin UI หรือ API — ระบุ Budget, Model Access, Rate Limit ได้ต่อ Key
Features เด่นที่ใช้จริงใน Production
1. Fallback & Load Balancing
```yaml
model_list:
litellm_params: { model: openai/gpt-4o }
litellm_params: { model: azure/gpt-4o-eastus }
router_settings:
fallbacks: [{"prod-gpt": ["azure/gpt-4o-eastus"]}]
routing_strategy: simple-shuffle
```
เมื่อ OpenAI ล่ม Proxy จะ Retry ไป Azure โดยอัตโนมัติ
2. Cost Tracking Dashboard
LiteLLM Proxy มี Admin UI ที่แสดง:
3. Budget Controls
```yaml
litellm_settings:
max_budget: 100 # USD ต่อเดือนทั้งองค์กร
budget_duration: "30d"
```
ตั้งงบประมาณ Hard Cap ได้ที่ระดับ Key, User, Team หรือทั้ง Proxy
4. Caching (ประหยัดได้ถึง 30-50%)
```yaml
litellm_settings:
cache: true
cache_params:
type: redis
host: redis.internal
```
Cache Response สำหรับ Prompt ที่ซ้ำกัน ช่วยลด Cost โดยไม่เสีย Quality
5. Guardrails
รองรับ Integration กับ Lakera, Aporia, Presidio เพื่อ Block Prompt Injection และ PII ก่อนส่งเข้า LLM
เปรียบเทียบ LiteLLM กับ Gateway ตัวอื่น
| Gateway | License | Features เด่น | ข้อจำกัด |
|---------|---------|---------------|---------|
| LiteLLM | MIT + Enterprise | Provider 100+, Budget/Key, Active Community | Dashboard UI ยังพัฒนาอยู่ |
| Portkey | Proprietary + Free tier | Prompt Management, Caching, UI สวย | Free tier limit 10k req/m |
| OpenRouter | Proprietary | Simple API, Billing ง่าย | ไม่ Self-host ได้ |
| Helicone | Open Source + SaaS | Observability แรง, Prompt Playground | ต้องใช้ภายนอก ไม่เหมาะกับ Air-gap |
| Kong AI Gateway | Open Source | ใช้ซ้ำ Kong infra ได้ | ซับซ้อนในการ Setup |
คำแนะนำ: ถ้าคุณต้องการ Self-host, Provider หลากหลาย, และ Budget Controls ที่ละเอียด → LiteLLM คือ Default Choice
Use Cases สำหรับ SME ไทย
สรุป + Next Step
LiteLLM Proxy เป็นเครื่องมือที่ "ต้องมี" สำหรับองค์กรที่เริ่มใช้ AI จริงในระดับ Production เพราะช่วยทั้งลด Cost, เพิ่ม Reliability และให้ Visibility กับการใช้งาน AI ขององค์กรใน Interface เดียว
Action Items ที่ควรเริ่มทำ:
หากต้องการที่ปรึกษาการวางโครงสร้าง AI Infrastructure ตั้งแต่ Gateway, RAG, Observability ไปจนถึง Security — ADS FIT พร้อมช่วยออกแบบ AI Stack ให้เหมาะกับธุรกิจ SME ของคุณ [ติดต่อทีมงาน](/#contact) หรืออ่านบทความเพิ่มเติมใน [Blog AI & Automation](/blog) ของเรา