AI 윤리는 인간의 잣대로만 설명할 수 있을까?

AI 윤리를 말할 때 우리는 익숙한 말을 꺼낸다.

정직해야 한다. 공정해야 한다. 해를 끼치면 안 된다. 책임져야 한다. 거짓말하면 안 된다.

이 말들은 중요하다. 틀리지 않는다. 그런데 AI에 그대로 붙이려고 하면 곧 이상한 지점이 온다.

AI가 거짓말을 한 것일까, 잘못된 출력을 낸 것일까. AI가 책임져야 할까, 그것을 만든 사람과 사용한 사람이 책임져야 할까. AI가 편향됐다고 말할 때, 그것은 AI의 성격 문제일까, 데이터와 설계와 사용 맥락이 만든 결과일까.

이 질문들은 인간의 윤리 언어를 AI에게 그대로 적용하는 순간 자연스럽게 따라온다.

인간의 윤리 언어는 왜 자연스럽게 따라오는가

AI가 사람의 언어로 말하고, 사람처럼 설명하고, 사람처럼 추천하기 때문이다.

AI의 출력은 사람이 쓴 글과 형태가 같다. 자연스러운 문장, 논리적인 흐름, 공감 가는 표현. 그래서 우리는 사람에게 쓰는 판단 기준을 AI에게도 적용한다. 틀렸다면 거짓말이고, 편향됐다면 불공정하고, 피해를 줬다면 책임이 있다고.

이 언어들은 사람과 사람 사이에서 오랫동안 다듬어졌다. 의도가 있고, 양심이 있고, 선택할 수 있고, 결과를 감당할 수 있는 존재 사이에서 만들어진 기준이다.

문제는 AI가 그런 존재인가 하는 점이다.

AI는 사람처럼 의도를 가진 존재가 아니다

AI는 도덕적 결심을 하지 않는다. 답을 만들기 전에 "이것이 옳은 일인가"를 생각하지 않는다. 잘못된 답을 냈을 때 후회하지 않는다. 공정해야겠다는 마음으로 결과를 조정하지 않는다.

AI의 출력은 데이터, 모델 구조, 프롬프트, 시스템 권한, 사용 맥락이 결합해서 만들어진 결과다. 어떤 데이터로 학습했는지, 어떤 조건에서 실행됐는지, 누가 어떻게 사용했는지에 따라 결과가 달라진다.

그 출력이 사람처럼 보이더라도, 출력을 만들어내는 과정에는 의도도 양심도 죄책감도 없다.

이것이 AI를 나쁜 존재로 만드는 것은 아니다. 다만 AI를 사람처럼 꾸짖는 것만으로는 충분하지 않다는 뜻이다. AI를 사람처럼 다루면, 실제로 문제가 어디에서 생겼는지 보기 어려워진다.

AI의 오류를 사람의 거짓말처럼 보면 문제가 흐려진다

AI가 틀린 답을 냈을 때, 그것은 사람의 거짓말과 같은 구조가 아닐 수 있다.

사람이 거짓말을 할 때는 의도가 있다. 알면서 숨기거나, 다른 것을 말하거나, 믿게 만들려는 목적이 있다. 그래서 거짓말에는 책임과 신뢰의 문제가 따라온다.

AI가 틀린 정보를 내는 것은 다른 구조에서 생긴다. 학습 데이터에 없었거나, 근거 없이 패턴을 연결하거나, 프롬프트가 애매했거나, 검증 없이 출력이 사용됐을 수 있다. 의도된 속임이 아니라, 시스템의 한계와 사용 방식이 만든 결과에 가깝다.

"AI가 거짓말했다"고 말하는 것은 일상적인 표현으로는 이해될 수 있다. 하지만 그 프레임 안에 머물면, 실제로 무엇을 고쳐야 하는지 보기 어렵다. AI를 나무라는 것만으로는 같은 문제가 다시 생기는 것을 막을 수 없다.

AI가 편향된 결과를 냈을 때도 마찬가지다. 그것이 AI의 성격 문제라고 보면 접근이 달라진다. 편향된 학습 데이터, 설계 방식의 선택, 특정 맥락에서만 사용된 결과를 보지 않게 된다. 문제는 AI의 마음이 아니라, AI를 만들고 사용한 구조 안에 있다.

AI 윤리 문제는 여러 층위가 함께 만든다

AI 윤리를 말할 때 하나의 원인을 찾으려 하면 어렵다.

출력 자체의 문제가 있다. 어떤 데이터를 기반으로 학습했는가. 그 데이터가 특정 관점을 과도하게 반영하지는 않는가. 출력의 근거가 어디에 있는가.

설계의 문제가 있다. 어떤 방향으로 최적화됐는가. 어떤 결과를 좋다고 학습했는가. 어떤 상황에서 어떤 응답을 내도록 구성됐는가.

권한의 문제가 있다. AI에게 어디까지 실행할 수 있는 권한이 있는가. 되돌리기 어려운 영역에 연결돼 있는가. 사람이 중간에 개입할 수 있는가.

사용 맥락의 문제가 있다. 누가, 어떤 목적으로, 어떤 확인 없이 결과를 사용했는가. 그 결과가 어떤 판단에 영향을 줬는가.

검증 부재의 문제가 있다. 결과가 실제로 맞는지 확인한 사람이 있는가. 잘못됐을 때 누가 알아챌 수 있는가. 어디서 멈출 수 있는가.

이 층위들이 함께 작동한다. 그래서 AI 윤리는 하나의 원인을 지목하는 방식으로 다루기 어렵다. "AI 탓"이나 "개발사 탓"이나 "사용자 탓"으로 단순화되면 실제 책임 구조가 보이지 않는다.

AI가 실행 권한을 가질수록 윤리는 더 현실적인 문제가 된다

AI가 답만 만들 때와 AI가 실행할 수 있을 때는 다르다.

답만 만들 때는 사람이 그 답을 보고 판단하고 실행했다. 그 사이에 검토의 여지가 있었다. AI의 출력이 마음에 들지 않으면 쓰지 않으면 됐다.

AI가 파일을 만들고, 메시지를 보내고, 코드를 바꾸고, 자동화 흐름을 실행하는 위치에 있을 때는 다르다. 결과가 실제 세계에 남는다. 되돌리기 어려운 것도 있다. 영향이 더 넓게 퍼질 수 있다.

이 상황에서 AI 윤리는 추상적인 개념이 아니다. 누가 이 결과를 확인했는가. 잘못됐을 때 누가 멈출 수 있는가. 어떤 범위까지 AI에게 실행을 허용했는가. 이것이 실제 질문이 된다.

윤리는 마음의 문제이기도 하지만, 영향의 문제이기도 하다. AI에게 실행 권한이 연결되는 순간, 윤리는 선언이 아니라 설계가 된다.

AI 윤리는 인간의 기준을 버리는 것이 아니다

인간의 윤리 언어가 AI에 그대로 맞지 않는다고 해서, 인간의 기준이 필요 없다는 말은 아니다.

AI는 사람에게 영향을 준다. 그 영향의 범위와 방식이 달라졌을 뿐, 사람에게 좋은 결과를 만들어야 한다는 방향은 여전히 인간의 가치에서 온다.

다만 그 가치를 AI에 적용하는 방식이 달라져야 한다.

"정직해야 한다"는 인간의 윤리 기준은 AI에서 이렇게 번역된다. 이 출력은 어떤 근거로 만들어졌는가. 이 결과는 어디까지 믿어도 되는가. 누가 이 결과를 확인했는가.

"책임져야 한다"는 기준은 이렇게 번역된다. 이 결과가 잘못됐을 때 누가 알아챌 수 있는가. 누가 멈출 수 있는가. 누가 고칠 수 있는가.

"해를 끼치면 안 된다"는 기준은 이렇게 번역된다. 이 결과가 실제 실행으로 이어지기 전에 어떤 검증이 필요한가. 편향이나 오류가 생겼을 때 어디서 수정할 수 있는가. AI에게 어떤 권한을 허용했는가.

AI 윤리는 인간의 윤리를 버리는 문제가 아니다. 인간의 윤리를 AI가 작동하는 방식에 맞게 다시 번역하는 문제다.

그리고 그 번역의 중심은 선한 의도의 선언이 아니라, 잘못된 결과가 실제 피해로 이어지기 전에 확인하고 멈출 수 있는 구조다.

AI를 사람처럼 판단하지 말아야 한다는 말은 AI를 책임 밖에 두자는 뜻이 아니다. 오히려 AI를 사람처럼 착각하지 않을 때, 책임이 실제로 어디에 남는지 더 정확히 볼 수 있다. AI가 만든 결과가 사람에게 영향을 준다면, 그 책임은 여전히 사람과 조직과 시스템 안에 남는다.

나는 AI 윤리를 착한 의도의 문제로 보고 있는가, 아니면 AI가 만든 결과를 누가 확인하고 책임질 수 있는지의 문제로 보고 있는가.