AI에게 보여준다는 것
멀티모달 프롬프트가 말로 설명하기 어려운 화면, 이미지, 문서의 맥락을 AI에게 보여주는 방식이며, 무엇을 봐야 하는지 함께 가리켜야 한다는 점을 이해한다.
에러 화면 하나를 캡처해서 AI에게 보여준다.
"이거 왜 안 돼?"
이 짧은 질문 하나로 설명이 끝나는 순간이 있다. 오류 메시지를 옮겨 적고, 어떤 버튼을 눌렀는지 설명하고, 화면의 어느 부분이 이상한지 말로 풀어 쓰지 않아도 된다. 이미지는 그 모든 맥락을 한 번에 담고 있다.
이 간결함이 멀티모달 프롬프트의 힘이다.
하지만 여기에는 함정이 있다. AI는 내가 보는 것과 같은 방식으로 이미지를 읽지 않는다. 나에게는 당연히 보이는 버튼, 간격, 오류 메시지, 화면 흐름이 모델에게는 불명확할 수 있다.
그래서 이미지를 보여주는 것만으로는 충분하지 않다. 무엇을 봐야 하는지 함께 가리켜야 한다.
말 대신 보여줄 수 있게 됐다
멀티모달 프롬프트는 텍스트만이 아니라 이미지, 스크린샷, 문서, 표 같은 입력을 함께 사용하는 방식이다.
예전에는 화면을 설명해야 했다. 지금은 화면을 보여줄 수 있다.
UI가 어색한지, 에러 메시지가 어디에 있는지, 표의 구조가 어떻게 생겼는지, 디자인의 분위기가 왜 맞지 않는지 말로 모두 옮기지 않아도 된다. AI는 이미지 안의 요소를 보고 답을 만들 수 있다.
오디오나 영상도 같은 방향으로 확장될 수 있다. 다만 모델과 도구마다 지원 방식이 다르기 때문에, 이 글에서는 가장 자주 쓰이고 이해하기 쉬운 이미지와 스크린샷을 중심으로 본다.
AI가 이미지를 읽는 방식
사람은 이미지를 볼 때 경험과 의도를 함께 가져온다.
개발자는 에러 화면에서 빨간 줄과 파일 경로를 먼저 본다. 디자이너는 간격과 대비를 먼저 본다. 사용자는 버튼이 눌리는지, 다음에 무엇을 해야 하는지를 먼저 본다.
AI는 이런 의도를 자동으로 공유하지 않는다. 이미지 안의 텍스트, 배치, 색, 형태를 바탕으로 답을 만들지만, 내가 무엇을 중요하게 보고 있는지까지 당연히 알지는 못한다.
나에게는 명확한 문제가 모델에게는 그저 화면 속 여러 요소 중 하나일 수 있다.
이미지를 본다는 것과, 내가 보는 문제를 같은 방식으로 본다는 것은 다르다.
보여주는 것만으로 부족할 때
이미지 하나만 던지고 "어때?"라고 묻는 것은 넓은 질문이다.
AI는 색을 볼 수도 있고, 레이아웃을 볼 수도 있고, 텍스트를 읽을 수도 있고, 접근성을 말할 수도 있다. 그중 무엇을 기준으로 답해야 하는지 모르면 답은 넓고 흐릿해진다.
# 흔한 요청
이 화면 어때?
# 구체적인 요청
이 에러 화면을 봐줘.
내가 알고 싶은 것은 세 가지야.
1. 에러의 직접 원인
2. 내가 먼저 확인해야 할 파일이나 설정
3. 수정할 때 조심해야 할 점
화면에 보이는 메시지를 기준으로 판단하고,
확실하지 않은 부분은 추측이라고 표시해줘.
두 요청 모두 같은 이미지를 보여준다. 하지만 두 번째 요청은 AI가 어디를 봐야 하는지, 무엇을 답해야 하는지, 어디서 멈춰야 하는지를 함께 정한다. 이미지는 상황을 보여주고, 텍스트는 관찰 기준을 정한다.
말과 시각을 함께 쓰는 법
멀티모달 프롬프트는 이미지와 짧은 지시가 함께 있을 때 가장 안정적이다.
이미지는 상황을 보여준다. 텍스트는 관찰 기준을 정한다.
[이미지]
에러 화면 스크린샷
[배경]
Next.js 프로젝트에서 archive 페이지를 수정하던 중 발생한 에러다.
최근 검색 필터와 active 상태 관련 코드를 변경했다.
[봐야 할 것]
- 에러 메시지의 직접 원인
- 관련 있어 보이는 컴포넌트나 상태값
- controlled/uncontrolled input 문제 가능성
[원하는 답]
- 원인 후보
- 확인 순서
- 수정 지시문 초안
이미지는 증거가 되고, 텍스트는 렌즈가 된다. 무엇이 보이는지보다 중요한 것은 어떤 기준으로 볼 것인지다.
UI 피드백을 요청할 때도 같은 구조가 작동한다.
[이미지]
Archive 페이지 스크린샷
[목표]
왼쪽에서 현재 선택된 category/subject가 잘 보이는지 확인한다.
[바꾸면 안 되는 것]
- 펼쳐진 책 UI
- 어두운 도서관 분위기
- 전체 레이아웃
[원하는 답]
- 문제점
- 우선순위
- Tailwind 수정 방향
배경이 있으면 AI가 불필요한 제안을 줄인다. 목표가 있으면 AI가 집중할 수 있다. 금지 사항이 있으면 AI가 방향을 잃지 않는다.
이미지가 대화를 바꾼다는 것
멀티모달 프롬프트는 설명을 없애는 기술이 아니다.
오히려 설명의 위치를 바꾼다. 화면 자체는 이미지가 보여주고, 사람은 그 화면에서 무엇을 봐야 하는지 알려준다. 길게 묘사하던 수고는 줄어들지만, 판단 기준을 정하는 일은 더 중요해진다.
AI에게 보여준다는 것은 설명의 수고를 줄이는 일이 아니다. 무엇을 봐야 하는지 더 정확하게 가리키는 일이다.