서빙 인프라 심층 분석: 배포부터 Softmax 문제까지이 글은 LLM 서빙 인프라를 중심으로 프로덕션 환경에서 모델을 배포·관리·최적화하는 방식을 설명하고, Softmax 관련 문제를 통해 추론 파이프라인과 성능 최적화의 핵심 개념을 정리합니다.