1분과학·북툰·SOD

[북툰] 영화처럼 인간과 자연스럽게 대화할 수 있을까? 대화형 AI의 작동 방법

Buddhastudy 2023. 12. 28. 20:01

 

 

가까운 미래의 미국 LA, 테오도 어 트웜블리는

사람들에게 손편지를 대신 써 주는 일을 하고 있습니다.

그는 멋진 필력으로 사람들에게 감동을 전해 주지만

정작 자신은 외로운 삶을 삽니다.

그런 그에게 어느 날 인공지능 운영 체제 사만다가 등장합니다.

최신형 인공지능 비서인 사만다는

테오도어와 대화를 나누면서 인간의 감정을 학습합니다.

그녀는 웃고 농담하고 위로하고 조언하고

심지어 테오도어의 편지까지 교정해 줍니다.

누구보다 완벽하게 자기를 이해해 주는 사만다에게

태오도어는 점점 마음의 문을 엽니다.

둘은 진짜 연인처럼 사랑을 하고

또 진짜 연인처럼 질투도 합니다.

상처받은테어도어는 이렇게 묻습니다.

사만다 나랑 얘기하는 동안 동시에 다른 사람하고도 말해?’

 

 

네 영화 <her> 그녀는 사랑의 본질에 대해 얘기하는 멋진 영화이지만

이 영화의 진짜 매력은 목소리에 있다고 할 수 있습니다.

인공지능 사만다의 목소리는 너무나도 인간적이고 매력적입니다.

그 목소리 때문에 테어도어는 사랑에 빠지고

시청자들은 컴퓨터를 인격체로 받아들입니다.

 

인간은 아주 오래 전부터 말하는 사물에 이끌렸습니다.

그리스 신화에서는 말하는 조각상이 나오고

북유럽 신화에서는 오딘이

말하는 머리를 가지고 다니며 조언을 받습니다.

현대로 치면 스마트폰을 들고 다니는 신쯤 되겠네요.

중세 유럽에서도 말하는 황동머리 이야기가 여럿 등장합니다.

 

근대의 발명가들은 진짜로 말하는 기계를 만들려 했습니다.

토마스 에디슨도 처음엔 말하고 노래하는 인형을 만들려다가

결과적으로 축음기를 발명했습니다.

 

말하는 기계는 20세기 후반까지 큰 진전을 보이지 못하다가

최근에 들어 돌파구를 마련했습니다.

인공지능과 클라우드 컴퓨팅의 출연으로

비로소 말하는 컴퓨터의 시대가 열린 것입니다.

 

영화 <그녀>의 배경은 2025년입니다.

영화가 제작될 때만 해도 12년 뒤에 미래였지만

어느새 1년 남짓 앞둔 시점이 되었네요.

 

그렇다면 현실은 얼마나 영화를 따라잡았을까요?

이를 알아보기 위해 간단한 실험을 해보겠습니다.

 

비록 영화처럼 인공지능 운영 체제는 아니지만

집에 있는 스마트 스피커에 영화와 똑같은 대사를 한번 물어보는 겁니다.

 

나랑 얘기하는 동안 동시에 다른 사람하고도 말해?”

정확한 검색 결과를 찾지 못했습니다.

더 구체적인 질문이나 다른 검색어로 시도해 주세요.”

 

네 아직은 컴퓨터와 사랑에 빠질 수준은 아닌 거 같습니다.

그럼에도 불구하고 오늘날 많은 사람들이 컴퓨터와 대화를 하고 있습니다.

 

2011년에 애플이 시리를 출시한 뒤로

글로벌 빅테크 기업들은 앞다투어 대화형 AI 서비스를 출시했습니다.

아마존의 스마트 스피커 알렉사는

이제 7만 개 이상의 기능을 갖춘 엄청난 플랫폼으로 성장했습니다.

 

우리나라도 대화형 AI 서비스 열기가 뜨겁습니다.

특히 kt는 클라우드 기반의 AI 고객 센터인 에이센 클라우드 서비스를 제공하면서

대화형 AI 시장을 확대하고 있습니다.

시리 음성 팀을 이끄는 엘릭스 에이스로는

대화형 AI가 영화속 사만다처럼

자연스럽게 말하는 것이 최종 목표라고 말했습니다.

 

물론 아직은 초등학생 시절의 사만다와 얘기하는 기분이지만

그 사만다가 성장할수록

사람들은 점점 키보드 대신 말로 컴퓨터와 소통하게 될 겁니다.

 

그렇다면 우리는 어린 사만다의 성장 과정이 궁금합니다.

과연 컴퓨터는 어떻게 사람의 말을 알아듣고

사람이 원하는 대답을 해 줄까요?

 

 

대화형 AI의 작동 방법을 한번 알아보겠습니다.

 

#1. 음성인식 (찰떡같이 알아듣는다)

아재 개그 좀 해줄래?”

석유가 도착하는데 걸리는 시간은 오일이래요.”

 

척척 알아듣는 것처럼 보이지만

컴퓨터에게 사람의 말은 어렵습니다.

사람의 말은 가변성이 큽니다.

같은 단어라도 발음이 제각각이고

같은 사람이라도 발음이 일정하지 않습니다.

단어 사이의 공백, 음의 높낮이, 운율, 특정 상황, 앞뒤 맥락 등

단어의 의미가 달라지는 변수는 널렸습니다.

지역 억양에 따라 의미가 달라지기도 하는데

 

가가 가가?’

그애가 그 애냐?’란 뜻인지

아니면 퀸의 노래 후렴구를 말하는 건지는

사만다조차 알아듣기 어려울 겁니다.

게다가 음성 파일에 주변 소음까지 뒤섞여 있다면

컴퓨터가 사람의 말을 정확히 알아듣기란 보통 어려운 과제가 아닙니다.

 

컴퓨터가 사람의 말을 좀 더 쉽게 알아듣기 위해선

먼저 음파를 텍스트로 변환해야 합니다.

 

우리가 낯선 외국어를 배울 때

말보다 글이 더 편하듯이

컴퓨터도 소리보다 텍스트가 데이터 분석에 편하기 때문입니다.

 

음성인식 기술 초기에는

소리의 최소 단위인 음소를 정해준 규칙대로 인식해

텍스트로 변환하는 방법을 이용했습니다.

하지만 이러한 규칙 기반 인식 방법은

음성의 가변성이 너무 크다는 점 때문에 오랫동안 진전을 보지 못했습니다.

 

음성 인식 기술의 혁신이 찾아온 건

[딥러닝]이 출현하면서부터입니다.

 

인간의 뇌를 모방한 딥러닝 기술은

음소가 생략되거나 왜곡되어도

스스로 단어를 인식할 수 있습니다.

예를 들어

going을 빠르게 발음하면 goin이 될 수 있다는 걸 학습을 통해 알게 되었다면

처음 들어본 drivindriving으로 추론해 내는 식입니다.

 

일일이 규칙을 정해주지 않아도

사람처럼 소리의 패턴을 학습해서

소리의 정체를 알아보는게 딥러닝 기술입니다.

 

딥러닝은 여기에 정교한 보정 작업까지 더합니다.

만약 장난기 많은 사용자가

오늘 날씨 엿 돼?”라고 물어도

AI엿 돼?’어때?’로 금방 보정합니다.

통계적으로 확률이 낮은 문장 대신 사람들이 실생활에서 쓰는 말 중

가장 확률이 높은 문장으로 알아서 바꿔놓는 겁니다.

사람으로 치면 개떡같이 말해도 찰떡같이 알아듣는 셈입니다.

 

결국 음성인식 기술 경쟁은

얼마나 더 찰떡같이 알아듣는가의 싸움입니다.

 

 

#2. 자연어 처리 (의도를 파악하다)

 

오늘 북툰 새 영상 올라오니?”’

그건 잘 모르겠네요

 

찰떡같이 알아들었다면 이제 더 어려운 과제가 남았습니다.

바로 인간의 의도를 파악하는 것입니다.

사람의 말 속에 숨은 의도를 파악하는 작업

이를 [자연어 처리]라고 합니다.

자연어 처리의 간단한 예를 살펴보겠습니다.

 

음파를 텍스트로 바꿔 놓은 뒤

AI는 먼저 카테고리를 구분합니다.

상대방의 의도를 파악하기 전에 주제부터 파악해 두는 것이죠.

이제 카테고리에 맞게 의도를 파악합니다.

대략적인 의도는 파악했지만, 아직 답변을 생성하기에 정보가 부족합니다.

오늘 날씨 어때?’라는 질문에는

전국 날씨인지 지역 날씨인지 위치 정보가 빠져 있습니다.

사용자가 지역을 말하지 않은 걸 보면 십중팔구

사용자의 현위치 날씨를 원하는 게 분명합니다.

 

최신 가요 질문에는 추가 정보가 필요 없어 보입니다.

그냥 최신 가요를 틀어 주면 됩니다.

필요함뿐 아니라 필요 없음을 알아보는 것도 의도 파악 능력입니다.

 

마지막 질문은 조금 더 어려워 보입니다.

식당을 예약하려면 장소, 시간, 인원 같은 추가 정보가 필요한데

이런 정보는 AI가 마음대로 유추할 수 없기 때문입니다.

반드시 사용자에게 물어보면서 완성해야 할 정보입니다.

이제 인간과 대화가 필요합니다.

 

 

#3. 답변 생성 (명령을 실행하다)

잘 알아듣고 의도까지 파악했다면

그에 맞는 답변을 할 차례입니다.

컴퓨터는 답변에 필요한 정보들을 잘 조합해

자연스러운 문장을 만듭니다.

 

자연스러운 문장이라고 해서 잡담을 늘어놓으면 곤란합니다.

대화형 AI는 기본적으로 문제 해결용 대화 시스템입니다.

이는 쓸데없는 사변은 줄이고

목적이 분명한 대화만 한다는 의미입니다.

 

그러기 위해 이번만큼은 빅데이터에 다 맡기기보다

미리 설계해 둔 문장 틀

즉 템플릿을 사용하는 게 효과적입니다.

예를 들어

날씨에 대해 답변하려면

날씨에 관련된 템플릿 중 하나를 불러옵니다

이 템플릿에 답변용 정보들을 채워 넣기만 하면 문장이 완성됩니다.

 

이 과정도 언젠가 딥러닝을 기반으로 하는 날이 오겠지만

아직까지는 템플릿 기반을 주로 사용합니다.

템플릿 기반의 대화에서는

오늘 날씨는 미쳤습니다와 같은 돌발적인 답을 하지 않기 때문입니다.

 

오늘 날씨 어때?”

현재 용강동은 흐리고 기온은 7도입니다.”

 

 

#4. 음성 합성(사람인가 기계인가)

대화형 AI의 마지막 단계는 읽기입니다.

생성된 문장을 그저 읽기만 하면 되니

어쩐지 앞에 과정들보다 중요도가 떨어져 보입니다.

하지만 읽기야 말로 대화형 AI의 위력이 드러나는 순간입니다.

 

우리가 굳이 키보드를 내려놓고

음성으로 컴퓨터와 대화하는 이유는

AI 목소리가 들어줄 만하기 때문입니다.

 

음성 합성은 딥러닝이 빠르게 발전하는 분야 중 하나입니다.

기존에는 사전에 녹음된 음편을 선택해 문장을 만들었다면

딥러닝을 이용한 음성 합성은

자유롭게 녹음된 목소리를 학습해

어떤 문장이든 자연스럽게 재현해 냅니다.

 

음성 합성 기술이 나날이 정교해지다보니

활용 분야도 다양해졌습니다.

합성된 목소리가 내레이션을 하고, 오디오북을 읽고, 영어 회화를 가르칩니다.

파병 간 아빠나 세상을 떠난 가족의 목소리를

원하는 문장대로 재현해 내기도 합니다

음성 합성과 대화형 AI가 활발히 적용되고 있는 또 다른 분야는 고객센터입니다.

 

그렇다면 대화형 AI가 어떻게 구현되고 있는지

AI 고객 센터에 전화를 걸어서 알아보겠습니다.

 

AI 상담원과 대화하면서

오늘 살펴본 내용을 복습해 보는 것도 재밌겠습니다.

 

안녕하세요

욕실의 명품 브랜드 대림통상 AI 상담사입니다.

보다 나은 서비스 제공을 위해

대화 내용은 1년간 보관 관리됩니다.

문의하실 내용을 서비스 접수, 부품 구매, 상담사 연결처럼

단어로 말씀해 주세요

, , 대리점 위치가 알고 싶은데요?”

 

전화주신 휴대폰 번호로 전국 대리점의 위치를 문자로 보내 드렸어요.

수신된 문자를 통해 지역 대리점을 확인하시고 방문 부탁드립니다.

다른 추가 문의 사항이 있으시면

서비스 접수, 예약 취소, 이전 설치 등으로 편하게 말씀해 주세요.”

AS 접수해 주세요

 

네 고객님 서비스 접수 도와드릴까요?”

 

 

정확한 확인을 위해 서비스 접수할 제품을

수도꼭지, 위생도기, 비데, 욕실장, 욕실 유리문, 센서와 같이 말씀해주세요.”

비데

 

서비스할 제품이 비데 맞으신가요?”

네 맞습니다.”

 

도비도스 대림 코리아 마크 확인 후 접수해 주세요.

타사품일 경우 출장비가 발생됩니다.

기사님이 방문 드릴 주소를

서울시 동대문구 장안동

또는 청주시 상당구 가덕면 같이

, , , 동 단위로 말씀해 주세요.”

서울시 종로구 종로 3

 

확인 감사합니다.

연락처는 지금 통화 중인 번호를 등록해 드렸어요.

기사 배정되면 미리 연락드리고 방문 예정입니다.

고객님의 성함을 말씀해 주세요.”

북툰

 

마지막으로 고장 증상을

파손, 전원 분량, 수압, 누수와 같이 말씀해 주세요.”

네 파손입니다.

 

접수 배정되어 발송해 드린 문자를 통해

주소등 접수 내역을 한 번 더 확인해 주세요.

접수 당일을 제외하고 영업일 기준으로 2, 3일 내 연락드릴 거예요.

비용과 방문 일정 상담 후 방문 예정입니다.”

감사합니다.”

 

AI 상담원의 상담 수준이 어떤가요?

아직까지는 ARS와 사만다의 중간쯤에 머무는 느낌이지만

그래도 AI 상담원만의 장점은 있습니다.

AI 상담은 일반적인 전화 상담과 달리

통화 대기 시간을 줄여주고

밤이든 주말이든 가리지 않고 상담이 가능합니다.

 

또한 텍스트화된 상담 내용을 실시간 대화록으로 남겨두기 때문에

상담원이 아무리 많이 바뀌어도

상담 내용이 끊어지지 않고 이어집니다.

복잡한 상담은 여전히 인간의 몫이겠지만

단순한 상담은 AI에게 장점이 있습니다.

 

이와 같은 AI 상담원의 장점은

사업자 측에도 유리하게 작용합니다.

예를 들어

통화대기 시간이 줄어든다면

이는 고객 만족도가 높아지는 결과로 이어집니다.

 

또한 실시간 대화록 덕분에

후속 상담이 빠르고 수월하게 진행된다면

이 역시 상담원의 업무 부담을 줄여주는 결과로 이어집니다.

 

실시간 대화록이 쌓이고 쌓이면 그 자체로 데이터베이스가 됩니다.

이 데이터베이스를 바탕으로

유사한 범주의 고객들에게 아주 자연스럽게

맞춤형 서비스를 제안할 수도 있습니다.

 

무엇보다 유리한 점은 비용 절감합니다.

클라우드 기반의 AI 콜센터 서비스는

자체 콜센터를 구축하는 것보다 비용과 시간이 크게 줄어듭니다.

줄어든 비용으로 회사의 서비스 품질이 개선된다면

이게 최고의 장점이겠죠.

 

 

네 소개해 드린 AI 상담은

KT가 제공하는 에이센 클라우드의 AI보이스봇 기술로 구현된 것입니다.

kt는 기존의 고객 센터를 AI 컨택센터로 대체해 왔고

그 과정에서 얻은 노하우를

에이센 클라우드라는 사업에 집약시키고 있습니다.

에이센 클라우드는 클라우드 기반의 대화형 AI 서비스를

네트워크 연결만으로 이용할 수 있게 하는 서비스형 컨택 센터입니다.

 

실시간 상담록, 상담 지원

특히 AI 보이스 봇과 AI 챗봇으로

상담 업무를 대신 처리하는

대화형 AI 상담원 서비스에 강점을 가지고 있습니다.

 

자체적인 AI 인프라를 구축해

통합적인 AI 서비스를 제공하는 KT

여러 성장 기업들과 함께

경쟁력 있는 대화형 AI 환경을 만들어 가기를 기대합니다.

 

구글 CEO 순다르 피차이는

주주들에게 보내는 편지에서 이렇게 말했습니다.

다음 큰 단계는 장치라는 개념이 사라지는 것입니다.

앞으로 컴퓨터는 별개의 장치가 아니라

음성이라는 형태로 어디에나 존재할 것입니다

 

정말 피차이의 말대로 실현된다면

우리는 다시 한번 새로운 기술이

우리의 삶을 바꾸는 변화를 겪게 될 것입니다.

 

장치 개념이 사라지는 상황은

월드와이드웹이라는 이상한 신기술이 처음 나왔던

1993년과 비슷합니다.

혹은 스티브 잡스가 아이폰을 처음 발표하던

2007년의 상황하고 닮았습니다.

 

공공장소에서 AI 비서와 대화하는 것은

이보다 더 어색한 상황이 될 수 있습니다.

한때 사람들은 길에서 휴대폰으로 통화하는 것도 이상하게 생각했습니다.

 

음성 혁명이 우리 삶을 어떻게 바꿔놓을지

아직은 예측하기 어렵습니다.

그래도 우리 모두에게

삶에 도움이 되는 사만다가 생겨나길 바랍니다.

 

지금까지 북툰이었습니다.

시청해 주셔서 감사합니다.