H.LAB 연구노트

[개발자노트] 역검(역량검사)의 영상 면접 데이터는 어떻게 학습되었나요?

작성자: 역량센터 | Jun 9, 2023 5:23:00 AM
👀 이 콘텐츠에 집중해야 하는 분!
👉 역검에 사용된 AI기술이 어떤 것인지 궁금한 분
👉역검의 AI기술의 정확도가 궁금한 분
🤔 Editor's MEMO
AI면접, 그 기술에 대해서 여전히 많은 사람들이 의문점을 가지고 있어요. AI가 사람을 정확하게 평가할 수 있을지, 객관적으로 보는 것이 가능한지, 공정성에 어긋나진 않을지 등 다양한 궁금증들을 가지고 있어요. 하지만 시원하게 궁금증을 해소할 수 있는 자료가 많지 않은 것으로 보여요.
이 콘텐츠에서는 역검(역량검사)의 영상면접에서 사용하는 AI기술에 대해서 디테일하게 알아보고자 합니다. 영상면접 기술의 주요한 특징부터 장점, 알고리즘, 공정성 이슈까지! 궁금해하실 모든 주제들을 다뤄봤어요.

마이다스에서 인사담당자들을 대상으로 한 최근 조사에 따르면, 대부분의 기업에서 면접 전형을 많이 사용하고 있고 그만큼 신뢰하며/효과적이라고 생각하는 경향을 보였어요. (자세한 내용이 궁금하다면, ‘인사담당자의 고민상담소(3) - 당신이 원하는대로 면접을 진행하기 어려운 이유를 참고해 주세요!) 특히나 직무 중심의 수상시 채용으로 전환이 되며, 면접에 대한 의존도는 갈수록 높아지고 있어요.

 

면접은 지원자의 실제 의사소통 능력, 기업과의 적합도 등 지원자에 대한 정성적인 평가를 위해서 가장 보편적으로 사용하는 선발 도구 중 하나에요. 하지만 면접을 효과적으로 진행하기 위해서는 면접관 교육, 지원자와 면접관 간의 시간 조정, 장소 제공 등 들이는 시간과 비용은 굉장히 큰 편인데 비하여, 실제 면접의 타당도는 일부 구조화 면접을 제외하고는 낮은 것으로 알려져 있어요. 면접관의 숙련도, 직급, 연령, 후광효과, 확증 편향 등 개인의 주관적인 판단에 평가가 영향을 받기 쉬워서 객관적이고 일관된 평가 기준을 적용하기 어렵다는 문제점도 안고 있어요.

 

역량검사에서는 이러한 면접이 안고 있는 문제를 해결하고, 더 효과적으로 채용을 진행할 수 있도록 돕고자 영상면접검사를 제공하고 있어요. 다양한 질문 방식을 사용하고, AI기술을 활용하여 지원자를 객관적으로 평가할 수 있는 지표를 제공하고 있다고 합니다. 코로나 19로 인한 비대면 채용의 증가로 인해, 온라인 화상 면접 툴을 사용하거나, 역검과 같은 AI면접이 포함된 툴을 사용하는 기업의 수가 많아지고 있어요.

 

그런데 잠깐, 이렇게 사용량이 많아지고 있는 만큼 영상 면접 데이터의 공정성, 모형의 학습 관련된 이슈들이 있지 않나요? 진짜 객관적인거 맞아? 어떤 특징과 장점을 가지고 있는거지? 믿을 만하고 정확한 검사가 맞을까? 라는 궁금증이 드시는 분들이 많을 거예요.

 

많은 궁금증들을 파헤쳐보기 위해, 역량검사의 영상면접을 기획한 기획자에게 직접 인터뷰를 해보았답니다!

 

 

📌 간단한 자기소개 부탁드려요!

 

 

"안녕하세요. 만나서 반갑습니다."

 

역검을 경험해 보신 분이라면 제 인사말이 익숙하실 거 같아요! ㅎㅎ 저는 역량센터에서 역량검사를 기획하고 있는 정은주라고 합니다. 저는 역량검사에서 영상면접 및 게임 점수, 커스터마이징에 대한 기획과, 결과표 기획 등 주로 고객들에게 전해지는 컨텐츠 및 정확도와 관련된 기획을 담당하였습니다. 저 말고도 역량센터 내에 많은 분이 정확도에서부터 채용 과정의 공정성, 사용의 편의성, 그리고 구직자 친화성까지 많은 부분에서 고민한 결과를 역량검사에 담기 위해 노력하고 계시는데요. 오늘은 그중에서도 역량검사의 영상면접을 많은 분들의 노력을 대표해서 소개할 수 있게 되어 영광이라고 생각합니다.

 

 

📌 역검 영상면접의 주요한 특징은 무엇인가요?

 

 

먼저 역검의 영상면접은 자동화된 단방향 인터뷰(비동기화 인터뷰 방식)이에요. 생소한 단어일 수 있겠네요. 면접 영상을 나중에 확인할 수 있도록 미리 설정된 질문에 대한 응시자의 답변이 기록/녹화되는 것을 말해요. 대면 면접과 같이 즉각적으로 질문과 답변이 이루어지는 것을 동기화된 인터뷰 방식이라고 하고 그 반대가 되는 개념이라고 생각하면 쉽겠죠? (비대면 온라인 면접에 대해서 더 자세하게 알고 싶다면, ‘비대면 온라인 면접의 효과성콘텐츠를 확인해 보세요!)

 

비동기화 인터뷰 방식의 장점은 우선 시간과 비용을 절감할 수 있다는 것이 기업 입장에서는 가장 클 거예요. 잘 활용한다면 대면 면접을 위해 들이는 시간을 효과적으로 축소할 수 있고, 미리 지원자들의 답변을 보면서 성향을 파악할 수도 있겠죠. 구직자 역시 시간과 장소의 제약을 받지 않고 언제 어디서나 자유롭게 응시할 수 있기 때문에, 더 편안한 마음으로 응시할 수 있게 됩니다. (저희는 면접 기회를 더 많은 구직자에게 제공하고 싶다는 목적도 있었어요!) 또한 비동기화 인터뷰 방식은 겉모습이나 초기 인상에 대한 초두 효과를 줄일 수 있다는 연구 결과도 있었어요b.

 

그리고 무엇보다 특징을 꼽자면 정말 다양한 영상면접 과제와 질문을 구조화된 형태로 구성할 수 있다는 점이에요. 사실 대면 면접 상황에서는 여러가지 상황 변수가 많기 때문에 구조화 면접을 제대로 실시하기란 어려워요. 하지만 역검에서는 좀 더 통제된 상태에서 질문을 제공할 수 있기 때문에 영상면접을 잘 활용한다면 원하는 구조화 면접을 시행할 수 있습니다.

 

 

📌 영상면접, 자랑하고 싶은 장점은?

 

가장 특징적인 장점을 꼽자면, 위에서도 말했지만 다양한 질문 방식을 통해 면접의 효과성을 극대화하고자 한 것이에요. 구조화 면접 형식을 채택하여 효과적으로 응시자의 특성을 예측할 수 있도록 돕고자 하는 것이 주요한 목적이기도 하니까요cd. 주로 과거의 경험에 대해서 물어보거나 특정 상황에서 어떻게 행동할 것인지 물어보는 면접 형식을 차용했어요.

 

경험이나 상황 질문 외에도 기본적인 자기소개, 직무 지원 동기, 응시자가 직접 질문을 선택해서 답변할 수 있는 질문 선택형 면접 등 새로운 영상면접 방식을 도입하였어요. 이는 다른 제품들과 비교해보아도 저희의 방식이 훨씬 다양하다는 것을 알 수 있을 거에요.

 

추가적으로 기업에서 외국어나 실무 능력 관련한 질문을 직접 설정할 수 있고, 위와 같은 다양한 영상면접 과제들을 원하는대로 구성할 수 있기 때문에 이러한 기능을 통해 기업 맞춤형 영상 면접 운영이 가능하도록 한 것도 큰 장점이라고 생각해요!

 

 

 

 

📌 영상면접 AI분석 알고리즘이 궁금해요

 

역검에서는 영상 면접 결과를 예측하는 점수를 만들어 내기 위해, 응시자 영상/음성 데이터를 보거나 듣고, 본인의 의사표현을 잘하는지, 감정전달은 잘하는지, 응시자의 답변을 통한 매력 정도, 신뢰할 수 있는 사람인지, 얼마나 긴장하지 않고 잘 말하는지, 자신감이 있는지 등 응시자의 특성에 대해서 숙련된 면접 전문가들이 평가를 진행했어요. 물론 평가를 진행하기 전과 후에 정확한 평가를 위한 평가자 교육도 진행했답니다.

 

그리고 시각 분석 기술*과 음성 분석 기술*을 활용하여 영상에서 응시자가 보여주는 시각적/음성적 특징을 추출하고 이를 바탕으로 면접에서 관찰할 수 있는 응시자의 특성과 면접 결과를 예측하는 모형을 학습했어요.

 

이렇게 만들어진 모형을 통해 응시자의 역량과 관계없는 정보들의 영향을 최소화한 상태에서 응시자가 면접에서 보여줄 수 있는 특성에 대한 정보를 미리 제공함으로써 개별 면접관의 편향을 최소화한 공정한 평가 지표를 만들고자 했어요.

 

* 시각 분석 기술 (Vision): 영상에서 프레임 단위로 얼굴의 주요 랜드마크의 위치를 추출하여 시선처리, 얼굴 회전 변화량, 표정 변화 등을 측정
*
음성 분석 기술 (Voice): 영상에서 얻어진 음성 파형 데이터를 토대로 발성 시간, 속도, 음색, 휴지, 음성 크기 변화 등의 특성을 분석
(※
, 영상면접의 답변(내용/의미) 분석은 지원하지 않는다.)

 

 

📌 실제로 역량검사의 영상면접을 사용하면 편향이 줄어들까요?

 

면접은 오전에 봐야 한다! 오후에 보면 불리하다!’라는 말도 있듯이, 면접관의 상태가 오전/오후의 피로의 누적에 따라 달라지면서 평가가 달라질 수 있어요. 그만큼 면접은 면접관의 주관적인 편향이나 상태에 큰 영향을 받을 수 있다는 취약점이 있습니다. (자세한 내용이 궁금하다면, ‘아침과 저녁의 채용 결과가 다르다? 믿을 수 있는 선발도구 고르기를 참고해 주세요!)

 

역량검사에서는 모든 사람들에게 같은 기준을 적용하여 안정적인 평가가 가능해요2022년도에 역검에 자유롭게, 여러 번 응시한 응시자들의 데이터를 분석을 해봤는데요. 한 사람이 처음 영상면접에 응시했을 때, 두 번째로 영상면접에 응시했을 때, 세 번째로 응시했을 때까지의 영상면접 점수가 응시 간격이나, 환경, 내용이 달라졌을텐데도 불구하고 아주 높은 수준의 일치도를 보였습니다.

 

 

 

📌 면접 결과를 예측하는 모형을 학습했다고 했는데, 구체적인 학습 절차가 어떻게 되나요?

 

영상 면접에서 보여주는 특성을 분석하는 알고리즘은 두 단계로 나뉘어요. 첫번째는 지원자가 면접 과정에서 보여주는 무의식적으로 시각적, 음성적 특징을 영상 데이터로부터 가공하고 추출하는 단계이고, 두번째는 이러한 특징을 학습하여 실제 면접 상황에서 보일 수 있는 역량을 추론하는 단계에요.

 

AI의 예측력이 정확도를 확보하기 위해서는 변별력 있는 특징을 선택해야 하고, 양질의 데이터도 필요하고, 데이터의 특징에 적합한 알고리즘을 선택하는 것도 매우 중요해요. 결과적으로 모델의 성능은 주어진 데이터를 바탕으로 실제로 보일 수 있는 특성에 대한 평가를 얼마나 정확하게 예측할 수 있는지에 대한 정확도 수치를 통해서 산정할 수 있어요.

 

역검에서는 정확하고 공정한 영상면접 결과 학습 및 예측 모형을 구축하기 위해서 여러 절차를 거쳤는데요. 이를 크게 4개의 절차로 구분할 수 있어요. 먼저 데이터 수집 단계에서는 실제로 자사 공채에 지원한 지원자의 영상을 사용했고, 전문적인 면접관 교육을 진행시켰어요. 두번째로 데이터 처리 단계에서는 면접관이 영상 데이터를 라벨링 했는데요. 응시자 영상을 배정하고 응시자 1명에 대해 평가자 여러 명이 6점 척도로 평가를 진행하도록 했어요. 평가 결과로 이분법 분류를 위해 데이터 변환을 하였는데요, 1~2점은 0, 5~6점은 1, 기타 중간 데이터는 제외를 시켰습니다. 만약 이 과정에서 여러 평가자들의 판단이 갈렸다면 데이터에서 제외시켰어요. 또한 이 단계에서 영상의 주요한 시각적, 음성적 특징도 추출했어요.

세번째는 모델 학습 단계에요. 변수 및 가중치 설정 편향을 최소화하도록 성별이나 학벌 등 예측에 필요하지 않은 데이터는 제외한 상태에서 모델링을 진행했습니다. 또한 데이터 불균형 문제에 대한 고려로 데이터 수가 분류에 대해 일치하도록 무작위 샘플링하여 학습에 사용했어요. 마지막으로는 만들어진 모형의 정확도 추정 작업을 하였습니다.

 

 

📌 그 모형은 얼마나 정확한가요? 영상면접 결과를 믿고 사용할 수 있을까요?

 

이렇게 만들어진 모형은 실제 성별이나 학벌 등의 정보를 배제했을 때, 응시자가 어떤 평가를 받을 수 있는지에 대한 예측 모형인 셈이죠. 이 모형의 예측 정확도는 모형이 실제 면접 평가 결과를 얼마나 잘 예측하지에 대한 분류 정확도를 이용하였는데요.

 

정확도 검증을 위해서 10-fold 교차 검증 방법을 도입하였고, 교차 검증 시 데이터 불균형이 최소화되도록 샘플링 했어요.

 

💡참고💡
K-fold 교차 검증 방법이란?
교차 검증(Cross Validation)이란 데이터를 여러 번 반복해서 나누고 여러 모델을 학습하여 성능을 평가하는 방법입니다. 별도의 여러 세트로 구성된 학습용 데이터 및 검증용 데이터 세트에서 학습과 평가를 여러 번 한 것의 평균적인 성능을 계산하면 한 번 나누어 학습하는 것보다 일반화된 성능을 얻을 수 있습니다.
K-fold 교차 검증은 가장 보편적으로 사용하는 교차 검증 기법으로, 데이터를 K개로 분할한 뒤 K-1 개를 학습용 데이터 세트로, 1개를 평가용 데이터 세트로 사용하여 K개의 성능 지표를 얻어내는 방법입니다.
역검에서는 10-fold 방법을 이용하였으므로, 10개의 폴드된 데이터 세트를 학습과 검증을 위한 데이터 세트로 변경하면서 10번 평가를 수행한 뒤 평균한 결과를 가지고 예측 성능을 평가한 것으로 볼 수 있습니다.

 

결과적으로 영상 면접 측정 역량에 따른 정확도 수치는 현재 안정감(긴장 수준)이 67%, 자신감 76%, 의사표현 72%, 감정 전달 71%, 매력도 72%, 신뢰도 69%를 보였어요. 영상을 이용한 사람의 판단의 불확실성까지 고려했을 때, 현재 역검에서 사용하는 모형의 경우 꽤 의미 있게 높은 수준의 정확도를 보이고 있고 변별력이 높다고 할 수 있어요.

 

 

📌 AI 관련한 공정성 이슈가 제기되고 있는데, 여기서는 해당 이슈를 어떻게 다루었나요?

 

공정성 이슈는 저희도 굉장히 신경 써서 다루고 있어요. 데이터 수집과 선정 과정은 AI 모형을 구축하는 모든 단계들 중에서 편향에 가장 큰 영향을 미치는 단계이기 때문에, 그 절차에서부터 각별한 노력을 기울이고 있어요.

 

데이터 수집을 할 때 대표성을 가진 표본 추출이 매우 중요한데, 특정 연령이나 성별 집단에 편중된 표본을 추출하면 해당 결과는 편향성을 가질 수밖에 없어요. 역검은 특히 ‘선발’에 활용하는 검사이기 때문에 지원자 집단을 대표할 수 있고 성별 등 특정 집단에서 차별이 발생하지 않도록 균형 잡힌 데이터를 수집하는 것이 중요해요. 이를 위해 M 사의 2018년도 하반기 공채 지원자의 실제 면접 지원 영상을 수집했고, 이 수집된 데이터의 남녀 성비는 실제로 1.4:1였는데 실제 학습에 활용할 때는 1:1로 비율을 맞춰서 학습을 시키기 위해 노력했습니다.

 

또한 편향을 방지하기 위해서 데이터 라벨링 단계에서도 심혈을 기울여요. 데이터 라벨링 단계에서는 적절하지 않은 도메인 지식을 가진 사람이 데이터를 평가하거나 라벨링된 데이터의 양이 불균형할 때 발생하게 되는데요. 역검에서는 이 때 발생할 수 있는 편향을 최소화하기 위해서, 평가자 훈련을 철저하게 시켰습니다. 또한 일관성 있는 평가를 위해 가이드라인 문서를 제공하였고, 학교, 스펙, 출신 지역 등 평가에 영향을 미칠 수 있는 모든 정보는 평가자에게 전달하지 않았습니다. 오직 면접 영상과 음성만 가지고 평가를 한 것이죠. 영상도 영상만 보고 평가하는 경우, 음성만 듣고 평가하는 경우, 둘 다 있을 때의 평가를 모두 고려하여 평가가 이루어졌어요. 한 영상과 음성 데이터를 여러 명의 평가자(평가자 성별도 고려했어요!)가 평가하도록 하고 불일치하는 평가자료는 사용하지 않았어요.

 

💡참고💡
고용정책 기본법 제7조에 의하면 근로자를 모집/채용할 때에는 합리적인 이유 없이 성별, 신앙, 연령, 신체조건, 사회적 신분, 출신 지역, 학력, 출신학교, 혼인, 임신 또는 병력(病歷) 등을 이유로 차별하여서는 안 된다. 역검에서는 숙련된 면접관의 면접 평가 데이터를 학습하는 과정에서 성과와 무관한 상기의 정보를 배제하고 객관성과 중립성을 확보하기 위해 데이터 수집 및 분석 절차에서 다음의 사항을 준수하고 있다.

첫째, 성별이 데이터 학습에 미치는 영향을 최소화하기 위해, 데이터 수집 단계에서 면접 영상의 성비를 1:1로 유지하였다.

둘째, 데이터 평가 과정에서 면접관의 선입견이 개입되는 것을 최소화하기 위하여, 학교, 스펙, 출신 지역 등에 대한 정보는 평가단(면접관)에게 일체 전달하지 않았으며, 평가단은 오직 영상면접(시각/음성 데이터)을 기준으로만 판단하도록 가이드하였다.

셋째, 데이터 학습 과정에서 성과와 무관한 학교, 스펙, 출신 지역 등에 대한 정보를 알고리즘 학습의 입력 데이터(input feature)로 사용하지 않았다.

 

어떠신가요? 가지고 계신 의문점이 어느 정도 해결되었나요? 역검 영상면접과 관련된 특징부터 알고리즘, 정확도까지 AtoZ를 확인할 수 있는 콘텐츠를 준비해 보았는데요. 실제로 기획한 기획자가 설명해주니 미처 생각하지 못한 특징도 알 수 있었고, 정확한 알고리즘을 구현해내기 위해 정말 세심하고 치밀한 노력을 기울이고 있다는 것을 알 수 있었어요!

 

✔ 바쁘신 분들은 이것만 확인하세요!

- 면접은 대부분의 기업에서 가장 많이 사용하고 있는 전형이며, 그만큼 신뢰하고 효과적이라고 생각하는 경향이 나타났습니다. 하지만 효과적인 면접을 위해서는 시간과 비용이 굉장히 많이 드는 데에 비해, 실제 면접의 타당도는 일부 구조화 면접을 제외하고는 낮은 것으로 알려져 있습니다.
- 역검의 '영상면접' 검사는 다양한 질문 방식을 활용하여 구조화된 면접이 가능합니다.
- 역검에서 사용하는 AI분석 알고리즘은 시각 분석 기술, 음성 분석 기술을 활용하여, 면접에서 관찰할 수 있는 응시자의 특성과 면접 결과를 예측할 수 있는 모형을 학습했어요.
- 면접 결과를 예측하는 모형 학습을 위해 크게 (1) 데이터 수집 (2) 데이터 처리 (3) 모델 학습 (4) 정확도 추정 및 검증/평가 이렇게 4단계로 나뉘어요. 특히 편향 등이 발생하지 않도록 데이터 수집 단계부터 철저한 평가자 훈련을 시키고, 학습 단계에서도 성비의 불균형을 맞추기 위해 노력하는 등 심혈을 기울이고 있어요.
- 영상 면접 측정 역량에 따른 정확도 수치는 안정감 67%, 자신감 76%, 의사표현 72%, 감정 전달 71%, 매력도 72%, 신뢰도 69% 에요. 영상을 이용한 사람의 판단의 불확실성까지 고려했을 때, 역검에서 사용하는 모형은 꽤 의미 있게 높은 수준의 정확도와 변별력을 가지고 있다고 할 수 있어요.

 

[참고문헌]

  1. a. Salgado, J. F., & Moscoso, S. (2002). Comprehensive meta-analysis of the construct validity of the employment interview. European Journal of Work and Organizational Psychology, 11(3), 299-324.
  2. b. Sue, Chen, Lu (2019). Does the use of synchrony and artificial intelligence in video interviews affect interview ratings and applicant attitudes? Computers in Human Behavior, 98.
  3. c. Milkovich, G. T. & Boudreau, J. W. (1997). Personnel/human resource management: A diagnostic approach (8" ed.). Homewood, IL: Richard Irwin, Inc.
  4. d. Suen, H. Y., Hung, K. E., & Lin, C. L. (2020). Intelligent video interview agent used to predict communication skill and perceived personality traits. Human-centric Computing and Information Sciences, 10(1), 1-12.