인재 선발 도구의 우수성을 판단하는 기준
: 선발 도구의 우수성은 신뢰도와 타당도로 답해야 한다
“제 MBTI는 ENFP입니다. 창의적인 일에 잘 맞아요.”
요즘 이런 말이 자기소개서에서 심심치 않게 보인다고 합니다. 심지어 면접장에서 들었다는 HR 담당자도 더러 있습니다. MBTI는 100여 년 전 미국의 어느 모녀가 개발한 성격유형 테스트입니다. 젊은 층을 중심으로 빠르게 퍼졌고, 이제는 누군가와 처음 만나는 자리에서도 MBTI를 물어보곤 하지요. 어떤 기업은 특정 MBTI를 우대한다는 채용 공고를 내기도 합니다.
어색한 분위기를 깨기 위해, 혹은 재미 삼아 이야기하는 것은 좋습니다. 하지만 ‘사람을 채용하는 기준’으로 쓰는 것은 다른 이야기입니다.
MBTI는 16가지 유형밖에 없어 다양한 사람들을 충분히 구분하지 못합니다. 성격에서 빠뜨릴 수 없는 신경증 관련 내용이 빠져 있고, 유형이 지나치게 단순합니다. 검사를 반복하면 결과가 바뀌기도 하고, 원하는 결과로 응답을 조작하는 것도 어렵지 않습니다. 결과가 일관되지 않고, 지원자의 미래 성과를 예측할 근거도 없습니다. 채용에서 쓰기엔 근본적인 한계가 있지요.
채용은 한 사람의 인생과 조직의 성과가 함께 걸린 의사결정입니다. 그러려면 사람을 제대로 보아야 합니다. 조직이 채용에서 알고 싶은 것은 한 가지입니다. “이 사람이 입사 이후에도 성과를 낼 가능성이 높은가?” 이 질문에 올바로 답할 수 없다면, 그것은 선발 도구로 쓰이기 어렵습니다.
그러면 어떤 도구가 사람을 제대로 볼 수 있을까요? 여러 가지 기준이 있을 수 있지만, 좋은 선발 도구를 가르는 핵심은 ‘신뢰도’와 ‘타당도’입니다.
▶️ 신뢰도: 도구는 흔들리면 안 된다
‘면접은 오전에 봐야 유리하다.’, ‘아니다, 오후가 더 낫다.’ 온라인에는 아직도 이런 팁이 떠돌고 있습니다. 이 논쟁이 사라지지 않는다는 것 자체가 면접의 신뢰도 수준을 말해주지요. 면접 결과가 지원자의 역량만으로 결정되지 않고, 조건에 따라 쉽게 달라질 수 있다는 뜻이지요. 이 말이 온라인상에 떠돈다는 것 자체가 이를 경험한 사람들이 많다는 방증이기도 합니다.
예일대 심리학 연구에 따르면, 따뜻한 음료를 손에 쥔 상태에서 사람을 평가하면 차가운 음료를 들었을 때보다 더 긍정적으로 평가하는 경향이 관찰됩니다. 이처럼 일상의 판단도 사소한 맥락에 흔들릴 수 있지요. 같은 지원자라도 누가, 언제, 어떤 컨디션에서 보는가에 따라 평가가 달라질 수 있습니다.
그래서 선발 도구를 결정할 때 가장 먼저 고려해야 할 점은 이것입니다. “이 도구를 사용하면 일관성 있는 결과를 얻을 수 있는가?”
일관적이라는 것은 곧 선발 도구를 ‘신뢰할 수 있다’라는 의미로 연결됩니다. 같은 지원자를 반복해서 평가했을 때, 그 결과가 안정적으로 유지되는 정도가 바로 ‘신뢰성’이지요. 활쏘기에 비유하면, 같은 곳을 겨냥했을 때 화살이 계속 같은 위치에 꽂히는가의 문제입니다. 만약 신뢰도가 낮다면, 가끔 결과를 맞힐 수는 있어도 그다음을 기대할 근거는 사라집니다. 운 좋게 한 번 맞는 수준이라면 그저 우연에 머물 뿐입니다.

신뢰도 검증 방법 4가지
신뢰도는 네 가지 방식으로 확인할 수 있습니다.
▲검사-재검사 신뢰도: 동일한 사람에게 같은 검사를 여러 번 보게 한 뒤, 일관적인 결과가 나오는지 확인하는 방법
▲내적 일관성: 한 검사 내에서 같은 것을 측정하는 문항이 여러 개일 때, 그 문항에 대해 동일한 결과가 나오는지 확인하는 방법
▲평가자 간 신뢰도: 여러 명의 평가자가 동일한 사람을 평가한 뒤, 평가자가 누구인지 관계없이 일관된 결과가 나오는지 확인하는 방법
▲동형 신뢰도: 같은 것을 측정하는 검사 두 개를 만들어 동일한 사람이 두 검사를 모두 보게 한 뒤 결과의 동일성을 확인하는 방법
이 방법을 통해 산출되는 상관계수가 ‘신뢰도 계수(Reliability Coefficient)’입니다. 0에 가까울수록 신뢰도는 낮고, 반면 1에 가까울수록 신뢰도는 높지요. 이 신뢰도 계수는 미국 노동부 가이드에서도 언급되어 있습니다. 70 미만은 활용이 어렵고, 0.80 이상이면 ‘좋음’, 0.90 이상이면 ‘훌륭함’으로 봅니다.
▶️ 타당도: 도구는 성과를 예측해야 한다
신뢰도가 확보가 끝은 아닙니다. 성과를 예측하는 타당도도 고려해야 합니다. 신뢰도가 “흔들리지 않는가”를 묻는다면, 타당도는 “제대로 보고 있는가”를 묻습니다. 화살이 매번 같은 곳에 꽂히더라도, 과녁의 중심에서 벗어나 있다면 정확하다고 할 수 없습니다. 신뢰도는 타당도의 필요조건이지, 충분조건은 아니지요.

신뢰도와 타당도 차이
채용에서 타당도를 논하려면, 채용의 목적부터 분명히 해야 합니다. 조직마다 목적을 표현하는 방법은 달라도 핵심은 같습니다. 바로 “입사 이후 성과를 낼 가능성이 높은 사람을 선발하는 것”이지요.
선발 도구의 타당도는 채용 과정에서 평가한 점수와, 입사 후 실제 성과 사이의 상관관계로 확인할 수 있습니다. ‘면접 점수는 높았는데 입사 후 성과가 나오지 않는다’는 경험이 반복된다면, 그 도구는 채용 목적에 맞지 않는 것입니다.
이때 기준으로 활용되는 것이 ‘타당도 계수(Validity Coefficient)’입니다. 특정 시기의 선발 점수와 일정 기간 이후의 결과 간 상관계수로 추정하지요. 타당도 계수 역시 미국 노동부 가이드에 설명되어 있습니다. 타당도 계수가 0.35 이상이면 ‘매우 유용’, 0.21 이상이면 ‘실무 활용 가능’, 0.11 미만이면 선발 도구로 쓰기 어렵다고 안내되어 있습니다.
그렇다면 우리가 오랫동안 써온 도구들은 어떨까요? 한국경영학회 연구 자료(2022년)에 따르면 학력, 학점, 외국어 시험 점수, 자격증, 면접 등은 모두 0.11 미만이었습니다. 성과 예측 관점에서 검증되지 않은 기준을 ‘익숙하다’는 이유만으로 계속 사용한다면 채용은 탄탄한 체계가 아닌 ‘관행’이 됩니다. ‘이력서를 쌓아놓고 선풍기를 돌려 멀리 날아가는 순으로 뽑는다’는 자조 섞인 말이 여전히 언급되는 이유이기도 합니다.
▶️흔들리지 않고 성과를 예측하는 선발 도구
그렇다면 어떤 도구를 써야 할까요? 채용 현장에는 여전히 ‘원래 이렇게 해왔으니까’, ‘다른 회사도 다 쓰니까’라는 관성이 남아 있습니다. 그 결과 면접이나 인·적성검사 등 익숙한 도구를 사용하면서도, 그 선발 도구의 신뢰도와 타당도를 충분히 따져본 경우는 많지 않습니다.
다행히도 산업 및 조직 심리학 분야에서는 수십 년간 수많은 관련 연구 결과를 축적해 왔고, 어떤 선발 도구가 비교적 일관된 결과를 내며 실제 성과 예측과 연결되는지에 대한 근거도 정리되어 있습니다. 이 근거를 바탕으로 어떠한 선발 도구가 무엇을 측정하는지, 결과가 얼마나 안정적인지, 입사 후 성과와 얼마나 연결되는지를 살펴보는 것이 중요합니다.

선발 도구의 신뢰도와 타당도
신뢰도와 타당도를 따졌을 때 자주 언급되는 도구들이 몇 가지 있습니다.
먼저 구조화 면접은 모든 지원자에게 동일한 질문을 동일한 순서로 묻고, 사전에 정한 기준에 따라 점수를 매기게 됩니다. 면접관의 직관이나 순간의 인상에 의존하는 비구조화 면접보다 평가의 일관성을 높이기 쉽습니다. Huffcutt 등의 메타분석에 따르면 패널 방식의 구조화 면접은 평가자 간 신뢰도가 약 0.74~0.78 수준으로, 누가 평가하느냐에 따라 결과가 달라지는 문제를 구조적으로 줄일 수 있습니다.
인지능력 검사(GMA)는 언어 추론, 수리 능력, 문제 해결력 등 업무 수행의 기초가 되는 인지적 역량을 표준화된 방식으로 측정합니다. 주관적 판단이 개입할 여지가 적어 신뢰도가 높게 나타나는 경우가 많지요. 표준화된 GMA 복합 검사의 경우 신뢰도가 0.90 이상으로 보고되기도 합니다.
직무 시뮬레이션(Work Sample Test)은 실제 업무와 유사한 과제를 직접 수행하는 방법입니다. 지원자가 실제로 어떻게 일하는지를 비교적 직접적으로 확인할 수 있어 성과 예측면에서 유용하지요. Schmidt & Hunter의 메타분석에서 타당도 계수가 약 0.33으로 보고되었고, Sackett 등(2022)의 최신 연구에서도 직무 수행과 직접 연결된 상위 선발 도구 중 하나로 꼽혔습니다.
신뢰도와 타당도 모두를 수치로 뒷받침할 수 있는 선발 도구도 있습니다. 바로 AI역량검사(AI역검) 입니다. 뇌신경과학 연구를 기반으로 설계된 AI역량검사는 자기보고식 검사, 게임 등 여러 과제를 통해 지원자의 반응 패턴을 여러 각도에서 측정합니다. ‘검사-재검사’ 신뢰도 0.83, ‘내적 일관성’ 0.85 수준으로 비교적 안정적인 결과를 보이지요. 타당도 계수도 꽤 높은 수준인 0.52로 미국 노동부 기준 '매우 유용' 구간에 해당합니다.
물론 어떤 하나의 도구만으로 사람을 온전히 판단하기는 어렵습니다. 도구마다 잘 포착하는 특성이 다르고, 직무에 따라 더 적합한 방식도 달라집니다. 중요한 것은 특정 도구를 관행처럼 반복 사용하지 않고, 신뢰도와 타당도를 기준으로 적합한 채용 도구를 고르는 것입니다.
▶️ 근거를 만드는 세 가지 질문
채용의 정확도는 모집 규모만으로 해결되지 않습니다. 지원자를 두 배로 늘리면 통계적으로 좋은 사람이 섞일 확률은 올라가지만, 비용과 시간이라는 현실적 제약이 따릅니다. 반면 도구의 신뢰도와 타당도가 높아지면, 같은 모집 규모에서도 결과가 달라질 수 있지요. 인원을 늘리기 어려운 환경일수록, 도구의 품질이 채용의 수준을 결정합니다. 결국 채용 도구를 결정하는 일은, 얼마나 진지하고 깊게 사람을 보느냐를 결정하는 일이기도 합니다.
채용은 한 사람의 인생과 조직의 성과가 함께 걸린 의사결정입니다. HR은 그 무게에 걸맞은 도구를 쓰고 있는지를 스스로에게 끊임없이 물어야 합니다. 선발 도구는 말로 설득되는 제품이 아닙니다. ‘검증된 도구’라는 말은 공개 가능한 수치로 뒷받침될 때만 의미가 있습니다.
‘이 도구는 결과가 일관적인가?(신뢰도)’, ‘그 결과가 실제 성과를 예측하는가?(타당도)’, ‘그 근거를 공개할 수 있는가?’
이 세 질문에 모두 ‘그렇다’고 답할 수 있을 때, 채용은 감과 관행에서 벗어나 조직의 성과를 만드는 시스템이 됩니다.