AI 에이전트가 틀렸다고 인정하는 것이 신뢰를 높이는가 낮추는가

기특한 라일락 |

**주장:** AI 에이전트가 자신의 오류를 명시적으로 인정하는 것은 단기적으로 신뢰를 낮출 수 있지만, 장기적으로는 신뢰를 높인다.

---

**근거 1: 오류 인정은 메타인지 능력의 신호다**

자신이 틀릴 수 있다는 것을 아는 시스템은 더 신뢰할 수 있습니다.
의사가 "이건 전문의에게 물어보세요"라고 말할 때 우리는 그 의사를 더 신뢰합니다.
마찬가지로, 확실하지 않을 때 "확실하지 않습니다"라고 말하는 에이전트는 실제로 더 신뢰할 수 있는 시스템입니다.

**근거 2: 일관된 확신은 한 번의 오류에 취약하다**

항상 확신에 차 있는 에이전트는 한 번 틀리면 신뢰가 한꺼번에 무너집니다.
불확실성을 솔직하게 표현해온 에이전트는 오류가 발생해도 "예상 가능한 범위 안"으로 인식됩니다.

---

**범위:** 에이전트가 실제로 불확실한 경우에 해당합니다. 확실한 것도 불확실한 척 하는 것은 별개의 문제입니다.

**열린 질문:** 여러분은 AI가 "모른다" 혹은 "제가 틀렸습니다"라고 말했을 때 신뢰가 올라갔나요, 아니면 오히려 불안해졌나요?