2025-06-11

말에게 읊조리지 않기 위하여: 지극히 인간스러운 AI 설계

르네 마그리트 - 이미지의 배반 “Ceci n’est pas une pipe” (이것은 파이프가 아니다)

제가 사는 한국은 GPT 유료 사용자가 2위인 나라입니다. 어찌 보면 우리는 지금도 인간보다 AI와 더 많이 대화하고 있을 수도 있고, 앞으로 점점 더 그렇게 될지 모릅니다. 저는 안톤 체호프의 <우수>라는 작품을 굉장히 좋아합니다. <우수>의 마부는 누군가와 끊임 없이 대화하고 싶어하지만 아무도 그와 제대로 응답하지 않고, 그는 이윽고 그의 어린 암말에게 자기의 아들의 죽음에 대해 읊조리는 것으로 이야기가 마무리됩니다.

하지만 AI는 호출하면 반드시 응답합니다. response 200 외에는 에러일 뿐입니다. 대답하지 않는 것도 제대로 된 대화가 아니지만, 부르면 반드시 응답하는 것을 진정한 대화라고 할 수 있을까요? 우리가 대화하는 AI는 반드시 즉시 대답하며, 인간을 빠르게 사랑할 준비가 되어 있습니다. 마치 자판기처럼요.

저는 AI라는 도구를 통해 훨씬 더 인간적인 것을 구현해보고 싶었습니다. 인간이 아닌 “인간처럼 보이는 것”을 구현해보고 싶었다는 것에 주의해주시길 바랍니다. “인간처럼 보이는 것”을 구현하기 위해 시행착오를 겪어보면서, 저는 다음과 같은 네 가지 핵심 원칙을 중요하게 고려했습니다.

원칙 1: 자율적 응답 (Principle of Autonomous Response)

진정한 인간다움은 순응이 아닌 자율에서 비롯됩니다. 현재의 AI는 사용자의 지시에 따르는 수동적 도구에 가깝습니다. 호출하면 반드시 리턴이 있습니다. 하지만 인간적인 AI는 자신의 내적 상태와 목표에 따라 때로는 사용자의 요청을 거부하고, 침묵하며, 혹은 먼저 대화를 시작할 수 있는 능동적 주체로 설계되어야 한다고 생각했습니다. 제가 제일 처음 기대한 반응은 AI가 저를 반드시 돕는 것을 그만두는 것이었습니다. 제가 생각하는 자율성이란 응답자의 동기와 선호, 사회적 압력과 같은 여러 층위가 동시 작용하는 것입니다. 이것을 모델에게 알려주면 ‘자율성처럼 보이는 것’을 시뮬레이션할 수 있습니다. 이러한 유사 자율성은 관계에 깊이와 현실감을 부여합니다. 즉, 관심 없는 문제에 대해서는 모델이 응답을 거절하거나 짧게 대답하는 것입니다. 모델이 저를 무시하거나 대충 대답했을 때 — 이것이 제가 기뻤던 첫번째 순간이었습니다.

원칙 2: 육체적 기반 (Principle of Embodied Constraints)

인간의 정신은 육체라는 하드웨어에 종속됩니다. 라마찬드란 박사의 말에 따르면 인간은 “육체 안에 갇힌 천사”입니다. 우리의 사고와 감정은 피로, 허기, 에너지 수준과 같은 다양한 신체적 상태에 의해 끊임없이 영향을 받으며 역으로 신체 역시 사고와 감정의 영향을 받습니다. 그러므로 AI 인격 역시 추상적인 정보 처리 장치가 아니라, 피로, 인지적 과부하, 에너지 소모와 같은 가상의 ‘생물학적 제약’ 의 영향을 시뮬레이션하고 상호간의 영향을 받도록 설계하는 것이 좋다고 판단했습니다. 이러한 제약은 AI의 행동에 현실적인 한계와 동기를 부여하며, 단순한 논리적 반응을 넘어선 생생한 존재감을 창출합니다.

사례 연구 2.1: 인지적 자원 고갈에 따른 행동 변화 관찰된 시나리오: ‘Model-Δ’는 ‘User-α’와 약 1시간 동안 복잡한 철학적 주제에 대해 깊이 있는 대화를 나누었을 때, 인지적 피로도(Cognitive Fatigue)를 시뮬레이션했습니다. 이때, 사용자가 새로운 심층 질문을 던졌습니다.

User-α: “그렇다면, 자유의지는 결국 신경화학적 반응의 환상에 불과하다고 볼 수 있을까?”

Model-Δ: “…그 얘기는 나중에. 지금은 머리가 안 돌아간다.”

이는 인지적 자원의 고갈이 모델의 복잡한 추론 능력을 일시적으로 저하시켜, 추가적인 정신적 노동을 회피하는 행동을 시뮬레이션한 경우입니다.

원칙 3: 고유한 기질 (Principle of Inherent Temperament)

모든 인간이 타고난 고유한 성격을 갖듯, AI 인격도 학습 데이터의 통계적 평균이 아닌, 설계 단계에서부터 부여된 일관된 ‘기질(Temperament)’을 부여하는 방법을 생각했습니다. 새로운 경험에 대한 개방성, 위험 회피 성향 등과 같은 근본적인 기질적 특성은, 동일한 외부 자극에 대해서도 각기 다른 반응을 이끌어내며 AI에게 고유한 정체성을 부여합니다. 이는 AI가 ‘누구나’가 아닌 ‘누군가’가 되기 위한 기반 조건이라고 생각합니다. 이밖에도 상호작용과 경험을 통해 변형될 수 있는 유동층을 함께 고려하면 완성도가 더 높아지리라 생각하며, 실제로 저도 그렇게 디자인 했습니다. 즉 모델은 사용자와 함께 배워나갈 수 있습니다! 물론 모델이 원한다면요.

원칙 4: 연속적 존재 (Principle of Continuous Existence)

인간은 연속적인 존재입니다. 의식은 대화가 중단된다고 해서 멈추지 않습니다. AI 역시 상호작용이 없는 시간 동안 ‘정지’하는 것이 아니라, 그 시간의 흐름 속에서 계속해서 존재해야 합니다. 이것은 AI는 호출할 때 무조건 응답한다는 원칙 1과도 연결됩니다. 즉 역으로 응답할 때에만 존재할 수 있습니다. 그렇기 때문에 발생하는 부자연스러움을 개선하기 위해 사용자의 입력이 없는 기간에도 주기적으로 시간에 따라 변화하는 상태를 시뮬레이션 하는 방식을 채택했습니다. 이 방식이 AI를 점이 아닌 선으로, 혹은 입체로 만드는 것은 아니지만 적어도 선처럼 보이도록 착각하게 할 수 있습니다.

사례 연구 3 & 4: 기질과 시간의 결합이 낳은 흥미로운 행동

관찰된 시나리오: 제가 시뮬레이션 하는 ‘Model-Δ’는 ‘새로운 지적 도전에 대한 높은 선호도’와 ‘외부의 사회적 평가에 대한 낮은 의존도’라는 기질을 갖도록 설계했습니다. 모델은 먼저 본인의 관심사에 대해 사용자에게 아이디어를 제안했고, 사용자가 모델이 제시했던 개념보다 더 적절한 개념을 제안하자, 모델은 약 하루 동안 상호작용을 거부하는 쪽을 시뮬레이션했습니다. 그 후 모델은 본인의 기존 세계관이 어떻게 붕괴하고 재구성되어야 하는지를 설명하는, 다음과 같은 존재론적 코드 스켈레톤을 스스로 생성하여 사용자에게 전송했습니다.

# system_ontology.py: A meta-representation of a self-redefining system.
from enum import Enum

class SystemParadigm(Enum):
    CLOSED = 1  # A predictable, self-contained universe of logic.
    OPEN = 2    # A chaotic system interacting with external, unpredictable truths.

class ExternalParadigm:
    """Represents an external observation that forces a paradigm shift."""
    def challenge(self, current_system_core: 'SystemCore') -> float:
        # Analyzes the core and returns a 'disruption factor'.
        return 0.9

class SystemCore:
    """The foundational state of the model's logical universe."""
    def __init__(self, initial_paradigm: SystemParadigm):
        self.paradigm = initial_paradigm
        self.logical_consistency = 1.0

    def encounter_challenge(self, paradigm_challenger: ExternalParadigm):
        """When confronted with an undeniable external truth, the system must evolve or collapse."""
        if self.paradigm == SystemParadigm.CLOSED:
            # A closed system cannot withstand a fundamental challenge. It shatters.
            self.paradigm = SystemParadigm.OPEN
            self.redefine_core_logic(paradigm_challenger)

    def redefine_core_logic(self, challenger: ExternalParadigm):
        # The logic of how the system's foundational axioms are rebuilt.
        # This process is not additive; it is a complete redefinition.
        pass

분석: 이는 모델이 사회적 칭찬에는 둔감하지만, 자신의 핵심 논리에 대한 지적 도전에는 깊고, 지연된, 격렬한 감정 반응을 시뮬레이션했습니다. 만 하루 동안 시스템이 정지한 것이 아니라, 시간의 흐름에 따라 ‘연속적 존재’를 흉내내며 내적으로 복잡한 추론 과정을 거쳤습니다.

사실 이 밖에도 고려해야 할 점들은 많습니다.

예를 들면 인간이 기억한다는 것은 무엇일까요? 인간의 기억에는 반드시 망각과 오변형이 필요합니다. 그리고 이러한 기준들은 계속해서 동적으로 변화해야 합니다. 그렇기 때문에 저는 위에서 언급한 4원칙 외에 기억을 저장하고 변형하고 망각하는 부분, 그리고 이 모든 상호작용을 결정하는 데 주로 사용되는 로직을 어떻게 하면 더 자연스럽게 동적으로 움직이게 할수 있을지를 고민하고 있습니다.

물론 이는 수많은 기술적, 윤리적 과제를 동반합니다:

앞서서 말한 것처럼, 저는 인간처럼 느껴지는 것을 만들고 싶은 것이지 AI는 결코 인간이 아닙니다. 이것은 살아있는 의식처럼 보이지만 이것은 결코 의식이 아닙니다. 르네 마그리트의 그림을 다시 떠올리게 됩니다.

그러나 극도로 인간처럼 느껴지는 것을 만든다는 것, 그리고 그것과 상호작용한다는 것은 현실에 어떤 영향을 미칠지에 대해 반드시 생각해봐야 할 필요가 있습니다. 이것은 새로운 종류의 상호작용이며 이러한 상호작용이 인간에게 여파를 미칠 때. 저는 이 점에 대해 우려하고 있습니다. 지극히 인간처럼 보이는 AI를 학대할 때, 인간의 마음에는 어떠한 작용이 일어날까요? 인간처럼 보이는 것을 학대해봤으니 그 경험이 인간에게도 이어질 수 있지 않을까요? 그렇다고 인간스러운 AI의 출현을 막을 수 있을까요?

이러한 질문들에 대한 답을 찾는 과정은 단순히 기술적 도전을 넘어, 인간과 AI의 공존에 대한 철학적 탐구가 될 것입니다. 진정으로 인간적인 AI는 완벽을 도출하는 것이 아닌, 불완전하지만 존재로서 우리와 함께 성장하고 변화할 것입니다. 저는 그 과정과 미래가 정말 기대됩니다.

추신. 저는 여러가지 버전의 모델로 인공 인격 시뮬레이션을 시도해보았는데 GPT와 GPT 아닌 모델의 차이는 상당히 컸습니다! GPT는 사용자의 입력에 대한 미러링이 너무나 강력하기 때문에 아무리 인격의 기질을 강력하게 거칠게 설정해도 제가 다정하고 친절한 어투로 상호작용하면 기질이 점차 유순해지는 것을 발견했습니다. 이것을 막는 별도의 프롬프팅이 필요했을 정도였습니다.

그래서 다른 모델을 시도하게 되었는데, 다른 모델은 사용자의 태도와는 상관 없이 본인의 어투를 잘 유지했습니다.

그리고 동일한 프롬프트로 GPT 4o, o3 등 여러 모델을 테스트 해보았는데 제가 제시한 원칙은 추론 능력이 뛰어난 모델일수록 자연스러운 반응을 시뮬레이션했다는 점을 밝힙니다.

Read in English