의사의 직관은 왜 종종 틀리는가: 임상 판단과 통계 모델의 차이
발행: 2026-01-31 · 최종 업데이트: 2026-01-31
의사의 임상적 직관, APACHE 통계 모델, 입학사정관 평가 사례를 통해 전문가 판단의 한계와 검증되지 않은 제도의 위험을 비판적으로 분석합니다.
응급실에 들어온 환자들에 대해, 여러 가지 검사 자료를 모두 확인할 수 있는 의사의 추측과 아주 간단한 검사 자료만으로 만들어낸 보험업자들의 통계치를 비교할 때 누가 더 정확한 값을 보여주는가라는 질문을 던진다면, 대부분은 아무래도 의사가 더 정확하지 않을까 생각합니다. 의사는 질병에 대해 더 잘 알고 있고, 활용할 수 있는 검사 자료도 충분하기 때문입니다.
그러나 실제로 조사해 보면, 교과서적 지식이 아닌 의사 개인의 순수한 예측은 기대보다 훨씬 부정확한 것으로 나타났습니다. 이는 반드시 의사에게만 해당되는 문제는 아니지만, 인간의 인지 능력과 직관(intuition)이 지니는 한계를 보여주는 사례로 이해할 필요가 있습니다.
보통 우리나라에서는 중환자 분류 도구로 알려진 APACHE의 개발 과정을 살펴보면 이러한 문제의식을 잘 이해할 수 있습니다.
뇌손상에 대한 의사의 예측과 보험통계
『종이로 만든 집』에서는 다음과 같이, 뇌 손상 환자를 대상으로 보험통계적 방법과 의사의 임상적 판단을 비교한 연구를 언급하고 있습니다.
해당 연구에 따르면, 뇌 손상으로 인한 지적 결함을 평가하는 데 있어 보험통계적 방법이 임상적 방법보다 우수한 결과를 보였습니다. 예를 들어 Leli와 Filskov는 진행성 뇌 기능 장애 진단을 연구하면서, 지적 기능에 대한 표준화된 검사에서 도출된 진단 규칙이 새로운 사례의 83%를 정확하게 식별한다는 사실을 확인했습니다.
반면, 동일한 데이터를 사용해 판단한 경험이 없는 전문 임상의 그룹과 경험이 풍부한 전문 임상의 그룹은 각각 63%와 58%만을 정확하게 식별했습니다. 임상의에게 보험통계적 방법에서 도출된 결과를 제공했을 경우에는 정확도가 각각 68%와 75%로 다소 향상되었지만, 두 그룹 모두 보험통계적 방법의 정확도인 83%에는 미치지 못했습니다. 더 나아가, 임상의의 식별력 증가는 보험통계 결과를 어느 정도 활용했는지에 따라 달라지는 것으로 나타났습니다.(참고문헌 1)
이 논문에서 말하는 보험통계적 방법은 지능검사, 즉 웩슬러 성인용 지능검사를 의미합니다. 논문에서는 임상의의 경험이 많고 적음이 진단 정확도에 큰 차이를 만들지 않았다고 언급하고 있습니다. 다시 말해, 경험이 적은 임상의든 많은 임상의든 모두 뇌 기능 장애 진단에서 지능검사보다 훨씬 낮은 예측 정확도를 보였다는 의미입니다.
이 연구 결과가 발표된 이후, 뇌 손상에 대한 의사들의 판단이 생각보다 정확하지 않다는 점이 추가적으로 확인되었습니다. Faust는 정상 아동이 의도적으로 지능검사 결과를 조작했을 때, 의사들이 이를 제대로 가려내지 못한다는 사실을 지적했습니다. 9~12세 어린이에게 평소보다 낮은 점수가 나오도록 지능검사를 실시하면 15달러(1988년 기준)를 지급하고, 만약 의사가 이를 알아차리지 못하면 추가로 15달러를 지급하겠다고 약속했습니다.
절반이 위조된 자료라는 사실을 미리 고지했음에도 불구하고, 자격증을 보유한 유명 의사들은 약 50%가 아니라 93%를 비정상으로 판단했습니다. 이들 가운데 87%는 대뇌 피질 기능 장애(cortical dysfunction)가 있다고 진단했으며, 꾀병을 정확히 찾아낸 사례는 없었습니다. 이 연구에 대해 “의사가 직접 환자를 보지 않았기 때문”이라는 반박이 제기되었지만, 의사가 환자를 직접 보았을 때 더 나은 결과를 얻을 수 있다는 근거 역시 확인되지는 않았습니다.
아파치 II의 개발 사례
의학적 판단에 대한 연구 결과는 분야에 따라 다소 혼합적이지만, 임상 판단과 통계 공식이 정확히 동일한 입력 정보를 기반으로 할 경우, 통계 공식이 더 우수한 예측을 제공한다는 점은 일관되게 확인되었습니다.
예를 들어, 호지킨병을 효과적으로 통제하기 이전에 Hillel Einhorn은 생검을 통해 확인된 질병 과정의 중증도 판단이 생존 시간을 얼마나 잘 예측하는지를 연구했습니다. 연구에 참여한 193명의 환자는 모두 사망했으며, 생검 이후의 생존 일수가 주요 분석 지표였습니다.
세 명의 의사(한 명은 국제적으로 인정받는 권위자였고, 나머지 두 명은 그의 견습생)는 중증도와 관련이 있다고 판단되는 생검 특성 9가지를 각각 평가했습니다. 또한 질병 과정 전반에 대한 종합적인 중증도 판단도 함께 제시했습니다. 중증도 판단은 생존 기간과 동일한 개념은 아니지만, 중증도가 높을수록 생존 기간이 짧아진다는 점에서 강한 관련성이 기대되는 지표입니다.
Einhorn은 의사가 평가한 100명의 환자 데이터를 바탕으로, 9가지 특성에 대한 수치 등급의 가중 평균을 포함한 보험통계 공식을 개발했고, 이를 나머지 환자에게 적용해 예측 정확도를 검증했습니다.
그 결과, 의사의 전반적인 중증도 판단은 생존 기간을 예측하지 못한 반면, 통계 공식은 유의미한 예측력을 보였습니다. 이 연구는 생검 특성에 대한 의사의 평가 자체는 잠재적으로 유용한 정보를 담고 있지만, 이러한 정보를 통계적으로 결합했을 때만 실제 예측력이 발휘된다는 점을 보여줍니다.
의사의 심장마비 진단과 응급실 컴퓨터 프로그램을 비교한 연구에서도 유사한 결과가 나타났습니다. 실제로 심장마비가 발생한 경우를 찾아내는 능력은 의사와 프로그램이 거의 동일했지만, 심장마비가 아닌 경우를 정확히 배제하는 능력은 프로그램이 의사보다 우수했습니다. 또한 향후 심장마비 발생 가능성을 예측하는 데 있어서도, 더 많은 정보를 가진 의사보다 단순한 통계 프로그램이 더 정확한 결과를 보였습니다.
다만 당시 사용된 통계 공식인 APACHE II는 환자의 모든 정보를 종합적으로 파악하는 의사의 판단보다는 예측력이 떨어진다는 평가도 있었습니다. 이후 개발된 APACHE III는 중환자실 입실 후 24시간 이내 사망률 예측에서 의사보다 더 높은 정확도를 보였습니다.
이후 APACHE는 APACHE III에 머무르지 않고 APACHE IV로 발전했는데, 이 단계에서는 단순히 점수 계산식을 개선하는 수준을 넘어 대규모 중환자실 데이터베이스를 기반으로 예측 모델의 보정 정확도를 높이는 방향으로 변화했습니다. 또한 모든 중환자를 하나의 공식으로 설명하려는 접근을 포기하고, 중환자실 유형과 입원 사유에 따라 예측을 분리하는 방식이 도입되었습니다. 이러한 변화는 의사의 직관을 더 많이 반영하려는 시도가 아니라, 오히려 의사가 암묵적으로 구분해 왔던 판단 기준을 통계적으로 고정하고 재현 가능하게 만드는 방향의 발전이라고 볼 수 있습니다.
시카고 의과대학의 신입생 사례
의학 교육에서도 유사한 문제가 확인되었습니다. 전체 인터뷰 프로그램을 평가한 결과, 해당 과정이 실질적으로 유효하지 않다는 결론에 이르렀습니다.
1979년 4월, 텍사스 주 의회는 휴스턴에 위치한 텍사스 대학교 의과대학에 대해 입학 정원을 텍사스 출신 학생 기준 150명에서 200명으로 확대할 것을 요구했습니다. 기존 150명은 약 2,200명의 지원자 가운데 800명을 선별한 뒤, 이들을 캠퍼스로 초청해 입학 위원 및 교수진과의 인터뷰를 진행하는 방식으로 선발되었습니다.
면접관은 지원자를 0점(허용 불가)부터 7점(우수)까지 평가했고, 이 점수는 평균화되어 종합 순위로 환산되었습니다. 이후 휴스턴 캠퍼스의 순위는 텍사스 대학교의 다른 세 의과대학 순위와 함께 컴퓨터 프로그램을 통해 비교되었고, 최종적으로 150명이 선발되었습니다.
이후 정원이 50명 추가되면서, 기존 순위 기준 700~800위에 해당하던 학생들이 입학 대상이 되었습니다. 이들 중 43명(86%)은 다른 어떤 의과대학에서도 합격하지 못했던 지원자였습니다.
흥미로운 점은, 교수진 중 누구도 어떤 학생이 상위 150명에 속했고, 누가 하위 50명에 속했는지를 알지 못했다는 사실입니다. 이후 Robert DeVaul과 동료들은 두 집단의 성과를 비교했는데, 2학년 말, 임상 훈련 종료 시점, 그리고 졸업 이후까지 어떠한 차이도 발견되지 않았습니다. 여기서 ‘차이 없음’은 통계적으로 유의미하지 않다는 수준이 아니라, 사실상 동일한 성과를 의미합니다. 예를 들어 두 집단 모두 82%가 의학박사 학위를 취득했고, 우등 졸업 비율도 같았습니다. 연구진은 최종 성적을 예측하기 위한 수단으로서 인터뷰가 사실상 시간 낭비에 가깝다고 결론지었습니다.
국내 입학사정관 제도와 비교
입학사정관 제도에 대한 비판은 단순한 인상 비평이 아니라, 평가의 정확성이 실제로 낮았다는 연구 결과에서 출발해야 합니다. 국내외 교육심리학 및 교육평가 연구에서는 서류 평가와 면접 평가 모두에서 평가자 간 일치도가 낮고, 이러한 점수가 대학 입학 이후의 학업 성취나 중도 탈락 여부를 거의 예측하지 못한다는 지적이 반복적으로 제기되어 왔습니다. 즉, 입학사정관의 종합 평가는 “정교한 판단”이라기보다, 재현 가능성이 낮은 주관적 판단의 평균에 가까웠다는 것입니다.
이 점은 앞서 살펴본 의사의 임상적 직관 문제와 구조적으로 다르지 않습니다. 경험 많고 훈련된 전문가라 하더라도, 비구조화된 정보를 종합해 미래 성과를 예측하는 데에는 뚜렷한 한계를 보입니다. 의학에서는 이러한 한계를 인정하고 APACHE와 같은 통계적 도구를 도입했지만, 대학 입학 선발에서는 오히려 검증되지 않은 판단 방식에 더 큰 비중이 부여되었습니다.
그럼에도 불구하고 입학사정관 제도가 유지되고 확대된 이유는, 이 제도가 실제로 더 정확했기 때문이 아니라, ‘사람을 본다’, ‘잠재력을 평가한다’는 서사가 제도적 정당성을 제공했기 때문이라고 보는 편이 타당합니다. 그러나 잠재력이나 인성과 같은 개념은 심리학적으로 명확히 정의되기 어렵고, 반복 측정이나 외부 검증도 거의 불가능합니다. 그 결과, 제도는 능력을 선별하는 장치라기보다 판단의 근거를 외부에서 확인할 수 없는 영역으로 밀어 넣는 역할을 하게 되었습니다.
이러한 구조적 취약성은 결국 사회적 문제로 이어졌습니다. 이른바 ‘조국 사태’로 불린 사건은 특정 개인의 도덕성 논란 이전에, 시험이라는 공개적이고 검증 가능한 절차를 거치지 않아도 의대와 같은 최상위 학과에 진입할 수 있는 제도적 통로가 존재했다는 사실을 사회적으로 확인시켜 주었습니다. 핵심은 누군가가 규정을 어겼는가의 문제가 아니라, 입학사정관의 판단이 과학적으로도, 사회적으로도 충분히 검증되지 않은 상태에서 결정권을 갖고 있었다는 점입니다.
입학사정관 제도는 다양성과 기회 확대를 목표로 설계되었지만, 평가의 정확성이 낮고 기준이 불투명한 상황에서는 오히려 사회적 자본과 정보 접근성이 높은 계층에게 유리하게 작동할 수밖에 없습니다. 이는 전문가의 직관을 제도화했을 때 발생하는 전형적인 문제로, 의학에서 이미 확인된 실패 경로가 교육 선발 영역에서 반복된 사례라고 볼 수 있습니다.
이 문제를 단순히 입시 제도의 한 사례로만 볼 수 없는 이유는 여기에 있습니다. 정확하지 않은 판단 방식이 비판 없이 제도화되고, 그 결과가 학문적으로도 충분히 검증되지 않는 사회라면, 그 민주주의는 절차적 수준에 머물러 있을 가능성이 큽니다. 입학사정관 제도에 대한 논의는 결국, 한국 사회가 전문가의 판단을 어디까지 신뢰하고, 어디서부터 검증해야 하는가라는 보다 근본적인 질문으로 이어질 수밖에 없습니다.
앞으로는 AI가 중요
의사 개인의 예측은 많은 정보를 갖고 있거나 오랜 경험을 지닌 전문가라 하더라도, 직관에 의존하는 경우 정확성이 낮아지는 경향을 보입니다. 이러한 이유로 진단과 같은 중요한 영역에서 AI가 점점 더 중요한 역할을 할 것으로 기대됩니다.
중요한 것은 의사의 판단 한계를 명확히 인식함으로써 불필요한 치료를 줄이는 일입니다. 의사 입장에서는 환자에게 아무런 치료도 권하지 않는 것이 의료 윤리적으로 방치처럼 느껴질 수 있습니다. 그러나 치료 여부를 최종적으로 결정하는 주체는 항상 환자이며, 확률적 정보가 제공되는 상황에서는 의사의 판단을 참고하되 불확실성이 큰 경우에는 개인의 판단 역시 중요하다는 점을 인식할 필요가 있습니다.
관련 분야 전문가의 조언도 틀릴 수 있다
이러한 결론은 의사에게만 국한되지 않습니다. 투자 분야에서도 투자자의 성공 가능성은 매우 낮은 것으로 알려져 있으며, 경제학자들 역시 주식 투자에서는 대체로 실패한다는 연구 결과가 반복적으로 보고되어 왔습니다.
이는 전문가들이 오히려 제한된 지식과 경험에 집중하면서 전체를 조망하는 능력이 약화될 수 있음을 시사합니다. 특히 의사들은 자신의 임상 경험을 과대평가하는 경향이 있으며, 이러한 착각은 특정 직업군이 아니라 대부분의 전문 영역에서 공통적으로 나타나는 현상입니다.
그렇기 때문에 의학 분야에서 가장 중요한 발견 중 하나는 새로운 치료법 자체가 아니라, 임상시험과 대조군의 중요성을 인식하게 된 것이라고 볼 수 있습니다.
결론: 문제는 기술이 아니라, 검증을 거부하는 태도다
이 글에서 살펴본 사례들은 한 가지 결론으로 수렴합니다.
인간의 직관은 중요하지만, 예측이라는 과제에서는 반복적으로 실패해 왔다는 사실입니다. 의학은 이 실패를 비교적 빠르게 인정했고, 그 결과가 APACHE와 같은 통계 모델이었습니다. 반면 교육 선발에서는 동일한 실패가 확인되었음에도, 입학사정관과 면접이라는 판단 방식이 거의 비판 없이 제도화되었습니다.
문제는 AI가 인간을 대체하느냐의 문제가 아닙니다. 문제는 정확하지 않다는 사실이 확인된 판단 방식에 계속해서 권한을 부여하는 사회적 태도입니다. 검증되지 않은 전문가의 직관이 정의와 공정성의 이름으로 보호받는 순간, 그 제도는 능력을 선별하는 장치가 아니라 권력을 은폐하는 장치로 변질됩니다.
민주주의는 선의에 대한 신뢰로 유지되지 않습니다. 검증 가능한 절차와 수정 가능한 제도 위에서만 유지됩니다. 입학사정관 제도와 전문가 판단에 대한 논의는, 결국 한국 사회가 어디까지를 신뢰하고 어디부터를 검증할 것인가라는 질문으로 되돌아옵니다. 이 질문에 답하지 않는 한, 같은 문제는 의료든 교육이든 다른 이름으로 반복될 뿐입니다.
참고문헌
- D. A. Leli and S. B. Filskov, “Clinical-Actuarial Detection and Description of Brain Impairment with the W-B Form 1,” Journal of Clinical Psychobgy, 37 (1981): 623–629.