| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
- 애자일기법
- 클린코드
- JPA
- framework
- kotlin
- ES
- AI
- 그리디
- database
- 스프링
- 엘라스틱서치
- 프레임워크
- 코딩테스트
- 개발자
- API
- 자바
- 그리디알고리즘
- 백준
- 데이터베이스
- 개발
- cleancode
- Spring
- Java
- 코드
- Elasticsearch
- 읽기쉬운코드
- Baekjoon
- 코딩
- spring boot
- 알고리즘
- Today
- Total
튼튼발자 개발 성장기🏋️
AI 엔지니어의 문제 정의 능력과 데이터 전략 본문
AI 엔지니어에게 가장 중요한 능력 중 하나는 문제를 정확히 정의하고 적합한 모델과 데이터 전략을 수립하는 것이다. 무작정 좋은 모델을 쓰는 것이 아니라, 주어진 제약 조건(인터넷 환경, GPU, 비용) 안에서 최적의 해법을 찾는 능력이 실력을 결정한다.
1. 기업에서 AI 엔지니어가 하는 일
AI 엔지니어는 단순히 모델을 학습시키는 것에 그치지 않는다. 비즈니스 문제를 기술 언어로 번역하고, 가능한 범위를 빠르게 판단하며, 전체 AI 개발 사이클을 이끌어 가야 한다.
1단계: 신규 서비스 기획
전사의 신규 서비스를 기획한다. 해당 서비스로 얻을 수 있는 기대 효과와 필요한 기술을 1차적으로 정의하는 단계이다.
2단계: 의사결정 지원
신규 서비스 기획을 바탕으로 기한 내 현실적으로 가능한 부분과 가능하지 않은 부분을 빠르게 결정하도록 지원한다.
3단계: 개발 및 이슈 해결
의사 결정을 바탕으로 서비스를 개발하고, 발생하는 이슈를 지속적으로 해결한다.
4단계: 지원 및 운영
상위의 활동을 지원하고 운영하기 위한 인프라 전문가를 육성하고 영입하는 단계이다.
2. 문제 분석과 모델 선택
좋은 모델을 선택하려면 먼저 문제의 본질을 정확히 파악해야 한다. 태스크 유형, 데이터 특성, 도메인 복잡성에 따라 선택하는 모델이 완전히 달라진다.
문제의 본질과 난이도 파악
- 태스크 유형 분석 (분류, 생성, 추론)
- 데이터 특성 파악
- 도메인 복잡성 평가
- 핵심 요구사항 정의
최적의 모델 아키텍처
- 빠른 임베딩: E5, BGE (BERT 기반)
- 생성 모델: Llama, Qwen, Gemma
- 복잡한 추론: GPT-4o, Claude, o1
리소스 고려사항
- 컴퓨팅 자원: GPU 가용성
- 시간 제약: 개발/추론 속도
- 배포 환경: 클라우드/로컬
3. 데이터 확보 전략 수립
데이터는 AI 프로젝트의 핵심이다. 충분한 데이터가 없다면 합성 데이터를 활용하고, 프롬프트 엔지니어링으로 품질을 높이는 전략을 세워야 한다.
프롬프트 엔지니어링
- Few-shot: 예제를 적극 활용
- Chain-of-Thought: 단계적 추론 유도
- 역할 부여: 페르소나 프롬프트 적용
- 생성된 데이터를 검증하는 프롬프트 설계
데이터 생성 방법
- GPT-4o 또는 Claude API 활용 여부 결정
- 신규 생성: 키워드로부터 데이터 생성
- 데이터 증강: 기존 데이터 변형 활용
데이터 품질 관리
- 다양성 확보: 표현/문체/길이 변화
- 편향성 검토: 데이터 편향 검증
- 일관성 검증: 레이블링 기준 확인
- LLM이 스스로 검증하는 프로세스 설계
4. 효율적인 모델 튜닝
데이터가 준비되면 어떤 방식으로 모델을 튜닝할지 결정해야 한다. 학습 방법, 하이퍼파라미터, 추가적인 튜닝 기법 선택이 성능에 큰 영향을 미친다.
학습 방법 선택지
| 방법 | 설명 | 적합한 상황 |
|---|---|---|
| Full Fine-tuning | 모든 파라미터를 조정 | 충분한 GPU와 데이터가 있을 때 |
| PEFT | 일부 파라미터만 조정 | 리소스를 절약해야 할 때 |
| LoRA | 추가 파라미터만 조정 | 빠른 적용이 필요할 때 |
| QLoRA | 양자화 + LoRA 조합 | 소형 GPU 환경 |
| DPO | 선호도 기반 최적화 | 사람의 선호도를 반영할 때 |
5. 성능 평가 및 최적화
모델 튜닝 이후에는 정확한 평가 지표를 선정하고, Safety 이슈 및 오류 패턴을 분석하여 지속적으로 개선해야 한다.
평가 지표 선정
- 분류: 정확도, F1, AUC
- 생성: BLEU, ROUGE, BERTScore
- LLM 기반의 자동 평가 활용
Safety 이슈
- 환각 측정: 사실 정확성 평가
- 안전성: 유해 출력 저항성 검사
- 편향성: 다양한 집단에 대한 공정성
오류 분석 및 개선
- 오류 패턴: 실패 사례 분류
- 원인 분석: 근본 문제 파악 (대부분 데이터 이슈)
- 타겟 데이터: 특화 데이터 보강
6. 합성 데이터란?
합성 데이터(Synthetic Data)란 생성형 AI 기술을 이용하여 만든, 사람이 직접 생성하지 않은 데이터를 말한다. 텍스트 데이터의 경우 일반적으로 거대 언어 모델을 사용하여 만드는 경우가 많다.
합성 데이터 활용 방법
- GPT-4o나 Claude와 같이 고성능이지만 API로만 사용 가능한 모델로 대량의 합성 데이터를 생성한다.
- 생성된 데이터를 활용하여 소형 모델을 파인 튜닝(Fine-tuning)한다.
- 비용 효율적으로 특정 도메인에 특화된 모델을 구축할 수 있다.
7. GPT-4o API를 활용한 데이터 생성
파이썬을 이용하면 GPT-4o를 코드로 호출할 수 있다. 웹 사이트에서 사용하는 ChatGPT와 달리 반복문으로 대량 작업을 자동화할 수 있다는 장점이 있다.
System 프롬프트
AI가 답변 시 지켜야 할 수칙이나 몰입할 역할을 정의한다. 만들어야 하는 데이터의 조건과 예시를 작성한다.
User 프롬프트
현재 작성하고 싶은 질문이나 요청이 들어간다. 입력 데이터를 넣어 반복 처리할 수 있도록 설계한다.
GPT-4o API 과금 구조
- 입력: 100만 토큰에 2.5달러
- 출력: 100만 토큰에 10달러
- 이미지 인식이 가능한 멀티모달 작업도 지원
8. 실전 문제 해결 사례
사례 #1: 공장 고장 내용 자동 분류
문제 상황
공장에 설비 기사가 작성한 수만 건의 '고장 내용' 데이터가 있으며 앞으로도 계속 쌓일 예정이다. '고장 부품', '불량 유형', '조치 내용'을 자동으로 분류해야 하는데, 공장에서는 인터넷이 되지 않고 내부에 GPU도 존재하지 않는다.
단계별 Solution
사례 #2: ESG 점수 자동 측정 LLM
문제 상황
기업의 뉴스나 사업 보고서를 보고 ESG 점수를 자동으로 계산하는 LLM을 만들어야 한다. E(환경), S(사회), G(지배구조) 각각에 대해 1~5점 사이의 점수를 부여해야 하며, 학습 데이터는 없는 상태이다.
신뢰할 수 있는 합성 데이터 생성 전략
CoT 프롬프트의 장점
근거를 먼저 작성하게 하면 모델의 성능이 올라가는 동시에, 사용자는 근거를 통해 답변의 신뢰성을 직접 확인할 수 있다. 이는 AI 시스템의 투명성과 설명 가능성을 높이는 핵심 기법이다.
사례 #3: RAG 성능 향상을 위한 파인튜닝
문제 상황
10B 이하의 소형 LLM에서 RAG 성능을 극대화하기 위해 파인튜닝을 적용하려 한다. 단순히 QA 데이터를 생성하는 것으로는 부족하며, 다양한 유형의 질문과 시나리오에 대응하는 합성 데이터가 필요하다.
RAG 파인튜닝을 위한 필수 데이터 유형
- 단답 유도: 구체적이고 지엽적인 질문 ex) "11월 27일에 세미나가 열린 장소의 이름은 무엇입니까?"
- 풍부한 답 유도: 넓은 의미의 질문 ex) "세미나의 주제는?"
- 명사구 형태: ex) "11월 27일에 세미나가 열린 장소"
- 다국어 대응: 영어 질문 및 영어 검색 결과 (필요 시)
- 검색 결과 수 변화: 1개, 2개, n개일 때 대응
- 답 없음 시나리오: 검색 결과에 질문에 대한 답이 전혀 없을 때
- 단일 문서 인용: 검색 결과 중 1개 문서만 인용하는 경우
- 다중 문서 인용: 검색 결과 중 다수 문서를 인용하는 경우
9. LLM 기반 문제 해결 능력의 핵심
문제 분석부터 모델 선택, 데이터 확보, 튜닝, 평가까지 전체 AI 개발 과정을 체계적으로 수행하는 것이 곧 AI 엔지니어의 종합적 역량이다.
효율성 (Efficiency)
한정된 리소스와 시간 내에서 최적의 결과를 도출하는 능력
예: 원래 30B로 프롬프트로 풀던 문제를 3B Full Fine-tuning으로 해결
적응성 (Adaptability)
다양한 도메인과 태스크에 유연하게 대응할 수 있는 능력
확장성 (Scalability)
소형 모델부터 대형 모델까지 다양한 규모에 맞게 모델을 튜닝할 수 있는 능력
'AI > LLM 서비스 개발' 카테고리의 다른 글
| LLM 파인튜닝 실전: 금융 뉴스 분석기를 직접 만들어보자 (0) | 2026.04.01 |
|---|---|
| LoRA, QLoRA, SFT, DPO, vLLM, 멀티 LoRA 서빙 (0) | 2026.03.31 |
| 파인 튜닝 (1) | 2026.03.23 |
| 프롬프트 엔지니어링 (0) | 2026.03.23 |
| 언어 모델 (Language Model) (0) | 2026.03.17 |