튼튼발자 개발 성장기🏋️

T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기를 읽고나서 본문

기타/타사 기술 블로그 읽기

T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기를 읽고나서

시뻘건 튼튼발자 2026. 1. 26. 13:09
반응형
오늘은 올리브영 기술 블로그에서 소개된 자체 sLLM 구축기를 읽고 느낀 점을 자유롭게 적어보려고 한다.
나는 작년 4분기에 비슷한 구축기를 시도했었다. 팀 내에서 사용할 Ollama를 구축했었고 그 뒤에 여러 요청사항을 통해 vLLM을 새로 구축하였다. 이와 같은 경험을 했던 터라, 제목만 보고서도 호기심이 자극되었다.

소형 LLM, 진짜 실용의 길을 찾다

요즘 LLM이 핫하긴 한데, 대부분 서비스들은 상용 API나 엄청 비싼 GPU 자원을 쓰는 구조가 많다.
그런데 올리브영 팀은 Tesla T4 16GB, 그러니까 렌탈비도 저렴하고 진입장벽이 낮은 하드웨어 환경 하나로 95% 상용 품질을 만들어냈다.
LLM은 거대한 리소스가 필요하다고만 생각했었는데, 작은 모델과 현장 맞춤화로 실제 서비스까지 연결되는 과정을 보면서 AI 민주화가 점점 현실이 되는 느낌이랄까..?
돈 없으면 LLM 서비스 못 만든다는 건 이제 핑계가 되어버린 세상!?

재현성과 버전 관리에 대한 생각

글에서 여러 번 언급된 “재현성”과 “버전 통제” 이야기가 진짜 인상적이다.
나는 이전 공모전으로 나갔던 프로젝트를 통해서 상용 API로 서비스 프로토타입을 만들다가, 어느 날 API 답변이 미묘하게 달라져서 갑자기 품질이 떨어진 적이 있었다. 블랙박스 API의 단점이기도 하고 개발자에게 얼마나 불안 요소인지 공감을 할 수 있었다.
직접 모델을 학습하고 체크포인트를 관리하면 언제든 필요한 버전으로 복원할 수 있고 업데이트로 인한 장애 걱정을 줄일 수 있다.
결국 ‘내가 직접 컨트롤 하는 인프라 + AI’가 운영 관점에서 앞으로 정말 중요한 가치가 될 거라 생각한다.

프롬프트 엔지니어링과 SFT

상용 모델을 쓸 때 프롬프트가 점점 길어지고, 토큰비, 반응속도 그리고 품질 관리가 힘들어진다는 이야기는 이제 ai를 사용하는 개발자라면 대부분 알고 있는 사실일 거라 생각한다.
그래서 나는 "이 글에서 이야기하고싶은 바"가 SFT로 아예 지시사항과 출력 형식을 모델에 때려넣고 짧고 단순한 프롬프트로 추론을 한다는 점이지 않을까싶다.
프롬프트 엔지니어링에 시간을 쏟는 것보다 SFT 데이터셋을 직접 만들어 파인튜닝에 투자하는 게 더 효율적일 수 있다는 걸 실제 서비스 레퍼런스가 보여주는 것 같다.

프롬프트 단축의 효과

프롬프트를 528자에서 98자로 줄였더니 인프라 비용이 81%나 절약된다는 실제 수치를 보면 결국 AI 시스템에서도 코스트 절감 중심의 ‘엔지니어 마인드’가 중요하다는 걸 다시 느꼈다. 또 지나친 프롬프트 단축이 무조건 좋은 게 아니라 구조화와 명확성도 핵심이라는 내용이 매우 공감된다. AI 학습이나 추론에서도 경험적 실험 > 데이터 기반 결론이 정말 중요함을 보여주는 사례다!

도메인 특화 SFT(?)

범용 LLM을 그대로 호출해서 서비스를 만드는 시대에서 이제는 내 문제를 잘 알고 내 데이터를 반영하는 도메인 특화 LLM이 활약하는 시대일까?
마음 한 켠에서는 마케팅, 쇼핑, 리뷰 추천 등에서 기존 룰/템플릿/인포매틱스 대응이 어려웠던 고민들이 LLM+SFT로 빠르게 해결되는 방향성을 보면서 앞으로 이런 작은 모델들의 대중화가 가속화될 수 있을 것이라는 생각도 든다.
그런 생각을 할 수 있었던 근거는 이 모든 과정을 작은 GPU 한 장으로 해냈다는 점이다. 앞으로 누구나 쉽게 자신만의 "작은 LLM"을 운영하는 세상이라는 것이다!

참고

반응형