LLM/RAG không thể release dựa trên cảm giác 'chat thử thấy ổn'. Golden set chính là regression test suite của hệ thống AI. Mỗi lần đổi prompt, chunking, embedding model, reranker, retrieval top-k, LLM...
Trong production, LLM output phải được xem như untrusted input. Prompt chỉ là một lớp mềm. Hệ thống cần enforce policy bằng code: validate request, filter permission trước retrieval, sanitize retrieve...