멀티모달 프롬프팅 완전 정복 — 이미지·오디오·영상으로 AI와 소통하는 법

들어가며: 14편이 남긴 질문

14편에서 Reasoning Model을 다루며 이런 예고를 남겼습니다.

"프롬프팅의 대상이 텍스트에서 이미지·오디오·동영상으로 확장되는 영역이 남아있습니다."

지금까지 이 시리즈에서 다룬 프롬프트는 모두 텍스트를 입력으로 가정했습니다. 명확한 지시, 구조화된 출력, 예시 제공, 컨텍스트 설계. 이 모든 것이 텍스트를 기반으로 했습니다.

그런데 현실 문제는 텍스트만으로 표현되지 않습니다.

스크린샷 하나를 보여주면서 "이 UI 어떻게 개선할 수 있을까?"라고 묻고 싶을 때가 있습니다. 회의 녹음 파일을 주고 "핵심 결정 사항만 요약해줘"라고 하고 싶을 때가 있습니다. 영상을 넘기면서 "이 강의에서 중요한 내용만 뽑아줘"라고 하고 싶을 때도 있습니다.

이것이 멀티모달 프롬프팅입니다. 텍스트 이외의 입력(이미지, 오디오, 영상)을 AI에게 전달하고, 그것을 효과적으로 활용하는 기술입니다.

이번 편에서는 멀티모달 AI의 작동 방식부터, 이미지·오디오·영상별 프롬프트 전략, 그리고 자주 저지르는 실수까지 처음부터 끝까지 다룹니다.

1. 멀티모달이란 무엇인가

1.1. 모달(Modal)이 뭔지부터

모달(Modality) 은 정보를 전달하는 방식을 뜻합니다. 텍스트, 이미지, 오디오, 영상이 각각 하나의 모달입니다.

기존 LLM은 텍스트만 이해했습니다. 텍스트를 받아 텍스트를 출력하는 단일 모달(Single-modal) 시스템이었습니다.

멀티모달(Multi-modal) 은 두 가지 이상의 방식을 동시에 처리합니다. 이미지와 텍스트를 함께 받거나, 오디오와 텍스트를 함께 처리하는 것입니다.

# 단일 모달 (기존)
입력: 텍스트 → 출력: 텍스트

# 멀티모달 (현재)
입력: 이미지 + 텍스트 → 출력: 텍스트
입력: 오디오 + 텍스트 → 출력: 텍스트
입력: 영상 + 텍스트 → 출력: 텍스트

1.2. 어떤 모델이 무엇을 지원하는가

모델	이미지	오디오	영상
GPT-4o	✅	✅	❌
Claude Sonnet/Opus	✅	❌	❌
Gemini 1.5 Pro / 2.0	✅	✅	✅

현재(2026년 기준) 이미지는 세 모델 모두 지원하지만, 오디오와 영상은 Gemini가 가장 폭넓게 지원합니다. 이 편에서는 각 모달의 프롬프트 전략을 중심으로 다룹니다.

2. 이미지 프롬프팅

이미지 프롬프팅은 멀티모달 중 가장 성숙한 분야입니다. 세 가지 방향으로 나눌 수 있습니다. 이미지를 분석하거나, 이미지를 생성하거나, 이미지를 편집하는 것입니다.

2.1. 이미지 분석 — 무엇을 어떻게 물어볼 것인가

이미지를 AI에게 보여주고 분석을 요청할 때 가장 많이 저지르는 실수는 너무 막연하게 묻는 것입니다.

# ❌ 막연한 질문
"이 이미지 분석해줘"
→ 모델이 무엇에 집중해야 할지 모름. 모든 것을 나열하거나 중요한 것을 놓침.

# ✅ 구체적인 질문
"이 UI 스크린샷에서 사용자 경험을 저해하는 요소를 3가지 찾아줘"
→ 분석의 목적이 명확해서 집중된 답변이 나옴.

특정 영역을 지정하는 것도 중요합니다.

# ❌ 영역 미지정
"이 그래프 설명해줘"

# ✅ 영역 지정
"이 그래프의 오른쪽 상단 파란색 선이 2024년 이후 급격히 하락하는 이유가 뭘까?
 아래 축 레이블과 범례를 참고해서 설명해줘"

실제 이미지 분석 프롬프트 예시:

이 스크린샷은 모바일 앱의 회원가입 화면이야.

아래 관점에서 분석해줘:
1. 입력 필드 배치가 자연스러운가
2. 오류 상태가 명확하게 표시되는가
3. CTA 버튼이 눈에 잘 띄는가

각 항목마다 "문제점 / 개선안" 형식으로 답해줘.

2.2. OCR과 문서 분석

이미지 속 텍스트를 추출하거나 문서를 분석하는 데도 멀티모달이 유용합니다.

# 영수증 분석
이 영수증 이미지에서 아래 정보를 추출해서 JSON으로 반환해줘:
{
  "날짜": "",
  "상호명": "",
  "항목": [{"품목": "", "수량": 0, "금액": 0}],
  "합계": 0
}
글씨가 흐릿한 부분은 "불명확"으로 표시해줘.

# 명함 분석
이 명함에서 이름, 직책, 회사명, 이메일, 전화번호를 추출해줘.
정보가 없는 항목은 null로 표시해줘.

2.3. 코드와 다이어그램 분석

개발자에게 특히 유용한 활용법입니다.

# 화이트보드 아키텍처 다이어그램 분석
이 화이트보드 사진은 서비스 아키텍처 다이어그램이야.

아래를 분석해줘:
1. 각 컴포넌트의 역할
2. 데이터 흐름 방향
3. 잠재적인 단일 장애점(SPOF)이 있는가

화살표 방향과 레이블을 최대한 참고해서 설명해줘.

# 에러 스크린샷 분석
이 에러 스크린샷을 보고 원인과 해결 방법을 알려줘.
스택 트레이스 전체를 참고하고, 특히 빨간색으로 표시된 라인에 집중해줘.

2.4. 이미지 생성 프롬프팅

DALL-E, Midjourney, Stable Diffusion 같은 이미지 생성 AI에게 프롬프트를 쓸 때는 다른 전략이 필요합니다.

좋은 이미지 생성 프롬프트의 구조:

[주제] + [스타일] + [분위기/조명] + [구도] + [기술적 파라미터]

# 나쁜 프롬프트
"고양이 그려줘"

# 좋은 프롬프트
"A small orange tabby cat sitting on a wooden desk,
 soft morning sunlight coming through a window,
 watercolor illustration style,
 warm and cozy atmosphere,
 close-up shot, detailed fur texture,
 high quality, 8k"

스타일 지정이 핵심입니다.

# 스타일 예시
photorealistic         → 사진처럼 사실적
oil painting           → 유화 느낌
watercolor             → 수채화
3D render, Pixar style → 픽사 3D 스타일
cyberpunk              → 사이버펑크 미래 도시
Studio Ghibli style    → 지브리 애니메이션 느낌

부정 프롬프트(Negative Prompt)로 원하지 않는 것을 제거합니다.

프롬프트: "portrait of a woman, natural lighting, professional photo"
부정 프롬프트: "blurry, low quality, extra fingers, deformed hands, watermark"

3. 오디오 프롬프팅

3.1. 오디오 입력을 지원하는 모델 활용

GPT-4o와 Gemini는 오디오 파일을 직접 입력으로 받을 수 있습니다. 음성을 텍스트로 변환하지 않고도 오디오 자체를 이해합니다.

주요 활용 사례:

# 회의 녹음 요약
이 회의 녹음 파일을 분석해서 아래 형식으로 정리해줘:

1. 참석자 (목소리로 식별 가능한 경우)
2. 주요 논의 사항 (각 3줄 이내)
3. 결정된 사항
4. 다음 액션 아이템 (담당자 포함)

# 강의 내용 추출
이 강의 오디오에서 핵심 개념만 뽑아줘.
개념마다 "용어 / 정의 / 예시" 형식으로 정리해줘.

3.2. 음성 텍스트 변환(STT) 후 프롬프팅

오디오를 직접 지원하지 않는 모델을 쓸 때는 Whisper 같은 STT 도구로 먼저 텍스트로 변환한 뒤 프롬프팅합니다.

import openai

client = openai.OpenAI()

# 1단계: 오디오 → 텍스트
with open("meeting.mp3", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        language="ko"
    )

# 2단계: 텍스트 → 분석
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": f"""아래는 회의 녹취록이야. 핵심 결정 사항과 액션 아이템을 정리해줘.

            {transcript.text}"""
        }
    ]
)

4. 영상 프롬프팅

영상 프롬프팅은 현재 Gemini가 가장 앞서 있습니다. 영상 파일을 통째로 이해하고 분석할 수 있습니다.

4.1. 영상 분석 전략

영상은 이미지보다 정보량이 훨씬 많습니다. 따라서 무엇에 집중할지를 더 명확하게 지정해야 합니다.

# ❌ 범위가 너무 넓음
"이 영상 분석해줘"
→ 어디서부터 어디까지 분석해야 할지 모름

# ✅ 목적이 명확함
"이 제품 시연 영상에서 사용자가 버튼을 클릭할 때마다
 어떤 반응이 나타나는지 시간 순서대로 정리해줘.
 UI 오류나 예상치 못한 동작이 있으면 특별히 표시해줘."

타임스탬프 기반 분석 요청:

이 강의 영상을 분석해서 아래 형식으로 챕터를 나눠줘:

[00:00] 챕터 제목 — 핵심 내용 한 줄
[05:30] 챕터 제목 — 핵심 내용 한 줄
...

중요한 개념이 처음 등장하는 시점도 표시해줘.

4.2. 영상 + 텍스트 컨텍스트 결합

영상만 주는 것보다 관련 텍스트 컨텍스트를 함께 주면 훨씬 정확한 분석이 나옵니다.

# 제품 데모 영상 분석
[영상 첨부]

이 영상은 우리 서비스의 온보딩 플로우 데모야.
현재 사용자 이탈률이 3번째 단계에서 60%야.

영상을 보고:
1. 3번째 단계에서 사용자가 헷갈릴 수 있는 요소 찾기
2. 진행 상황 표시가 충분한지 확인
3. 개선할 수 있는 구체적인 방안 3가지 제안

5. 멀티모달 프롬프팅의 핵심 원칙

이미지든 오디오든 영상이든, 멀티모달 프롬프팅에 공통으로 적용되는 원칙이 있습니다.

5.1. 모델이 보는 것과 내가 보는 것이 다를 수 있다

사람은 이미지를 볼 때 맥락, 경험, 추론을 동시에 활용합니다. 모델은 픽셀 패턴을 분석합니다. 내가 "당연히 보이는 것"이 모델에게는 불명확할 수 있습니다.

# 내가 당연하다고 생각한 것
"이 그래프에서 이상한 부분이 보이지?"
→ 모델이 내가 보는 것과 다른 부분을 "이상하다"고 볼 수 있음

# 명확하게 지정
"이 그래프에서 2023년 3월에 값이 갑자기 0으로 떨어지는 부분이 있어.
 이게 데이터 오류인지 실제 현상인지 어떻게 판단할 수 있을까?"

5.2. 텍스트 컨텍스트로 시각 정보를 보완한다

이미지 하나만 던지는 것보다, 이미지와 함께 배경 설명을 주면 훨씬 정확한 답변이 나옵니다.

# 이미지만 전달
[스크린샷 첨부]
"이거 왜 안 되는 거야?"

# 이미지 + 컨텍스트 전달
[스크린샷 첨부]
"Next.js 14 앱에서 이 에러가 나타났어.
 서버 컴포넌트에서 fetch를 호출하는데,
 로컬에서는 잘 되는데 Vercel 배포 후에만 이 에러가 나와.
 원인과 해결 방법을 알려줘."

5.3. 출력 형식을 명확히 지정한다

멀티모달 분석 결과도 원하는 형식으로 받아야 활용하기 좋습니다.

# 형식 미지정 — 매번 다른 구조로 답변
"이 대시보드 분석해줘"

# 형식 지정 — 일관된 구조
"이 대시보드를 분석해서 아래 JSON으로 반환해줘:
{
  '핵심_지표': [{'지표명': '', '현재값': '', '추세': '상승/하락/유지'}],
  '이상_감지': ['이상 항목 목록'],
  '권장_조치': ['우선순위 순 목록']
}"

6. 멀티모달 프롬프팅 실패 패턴

6.1. 환각된 세부사항을 믿는다

이미지 속 텍스트나 숫자를 AI가 잘못 읽는 경우가 있습니다. 특히 손글씨, 작은 글씨, 저화질 이미지에서 자주 발생합니다.

# 위험한 사용법
이미지 속 계약서 날짜와 금액을 그대로 추출해서 DB에 저장

# 안전한 사용법
이미지 속 계약서에서 날짜와 금액을 추출해줘.
단, 불명확하거나 확신하기 어려운 부분은 반드시 [불명확]으로 표시해줘.
→ 사람이 [불명확] 항목을 직접 확인

6.2. 이미지 하나에 너무 많은 것을 묻는다

# ❌ 너무 많은 질문
"이 대시보드에서 트렌드 분석하고,
 이상값 찾고, 다음 달 예측하고,
 개선 방안도 제안하고,
 경쟁사와 비교도 해줘"

# ✅ 하나씩 집중해서
"이 대시보드에서 지난 6개월 트렌드 중 가장 주목할 변화 2가지만 짚어줘"

6.3. 이미지 품질을 고려하지 않는다

저화질, 흐릿한, 부분적으로 잘린 이미지에서는 정확도가 떨어집니다. 프롬프트에 이 사실을 반영해야 합니다.

이 이미지는 화질이 낮아서 일부 내용이 불명확할 수 있어.
읽기 어려운 부분은 추측하지 말고 "불명확"으로 표시해줘.
확실하게 읽히는 부분만 추출해줘.

6.4. 영상의 전체 길이를 고려하지 않는다

매우 긴 영상을 분석할 때는 모델의 컨텍스트 한계와 처리 비용을 고려해야 합니다.

# 긴 영상 처리 전략
1. 먼저 전체 요약 요청 → 어느 부분이 중요한지 파악
2. 중요한 부분만 타임스탬프로 지정해서 재분석
3. 필요한 경우 영상을 구간별로 나눠서 처리

7. 실전 활용 사례 모음

7.1. 개발자 — 코드 리뷰 + 에러 분석

[에러 스크린샷 첨부]

이 에러를 분석해줘.
- 언어/프레임워크: Python FastAPI
- 발생 시점: POST /api/upload 엔드포인트 호출 시
- 스택 트레이스의 마지막 3줄에 집중해서 원인을 찾아줘
- 수정 코드를 예시로 보여줘

7.2. 디자이너 — UI/UX 피드백

[디자인 시안 첨부]

이 랜딩 페이지 시안을 Nielsen의 10가지 사용성 휴리스틱 관점에서 검토해줘.
위반되는 원칙이 있으면 해당 요소의 위치(좌상단, 중앙 등)와 함께 설명해줘.
개선안도 구체적으로 제시해줘.

7.3. 마케터 — 경쟁사 분석

[경쟁사 웹사이트 스크린샷 첨부]

이 경쟁사 랜딩 페이지를 분석해줘:
1. 메인 메시지가 무엇인가
2. 타겟 고객층이 누구인가 (추측)
3. 가장 강조하는 기능/혜택 3가지
4. 우리가 배울 수 있는 점과 차별화 포인트

7.4. 데이터 분석가 — 차트 해석

[데이터 차트 첨부]

이 차트를 분석해줘.

먼저 차트의 종류, X축, Y축 단위를 확인해줘.
그다음 아래 질문에 답해줘:
- 전체 트렌드는 어떤 방향인가
- 특이점(급등, 급락, 이상값)이 있는가
- 이 데이터가 의미하는 비즈니스 시사점은 무엇인가

결론: 텍스트를 넘어 세상을 입력으로

1편부터 14편까지는 텍스트를 얼마나 잘 구성하느냐의 문제였습니다. 멀티모달은 그 경계를 허뭅니다.

이제 AI는 우리가 보는 화면, 듣는 대화, 보는 영상을 함께 이해할 수 있습니다. 이것은 단순히 "더 많은 것을 입력할 수 있다"는 의미가 아닙니다. AI와 협업하는 방식이 근본적으로 달라진다는 뜻입니다.

텍스트로 설명하는 데 30분 걸릴 내용을 스크린샷 하나로 전달할 수 있습니다. 회의 1시간을 녹음해서 5분 만에 액션 아이템을 정리할 수 있습니다. 길고 복잡한 영상에서 필요한 정보만 골라낼 수 있습니다.

핵심은 하나입니다. 어떤 입력이든 목적을 명확히, 컨텍스트를 충분히, 출력 형식을 구체적으로.

핵심 원칙 요약

원칙	핵심
목적 명확히	"이미지 분석해줘"가 아니라 무엇을 알고 싶은지 구체적으로
영역 지정	이미지의 어느 부분에 집중해야 하는지 명시
컨텍스트 보완	이미지/오디오/영상만 주지 말고 배경 설명 함께
형식 지정	분석 결과를 어떤 구조로 받을지 명시
환각 방지	불명확한 부분은 추측하지 말고 표시하도록 지시

16편을 향하여

멀티모달까지 다뤘다면, 이제 AI를 사용하는 과정에서 반드시 마주치는 보안 문제가 남아있습니다.

"누군가가 악의적으로 내 AI를 조종하려 한다면 어떻게 막을 수 있을까?"

[16편: 프롬프트 인젝션 방어전 — AI를 공격으로부터 지키는 법] 에서는 프롬프트 인젝션 공격의 원리와 방어 전략을 다룹니다.