한국어와 인공지능
페이지 정보
작성자 곽중철 이름으로 검색 작성일16-11-21 14:11 조회1,135회 댓글0건관련링크
본문
[동서남북] 4차 산업혁명의 꽃, 한국어와 인공지능
우병현 조선일보 미래전략실장 입력 : 2016.11.21 03:14
아침에 일어나 침대 옆 탁자에 놓인 스피커에 대고 "도널드 트럼프의 미 대선 승리가 서울 강남 부동산에 미칠 영향을 알려줘" 하고 말한다. 스피커는 순식간에 세계 주요 도시 부동산 기사와 각종 경제지표를 분석해서 음성으로 답한다.
영화 '그녀(her)'에서 나왔던 컴퓨터와 사람의 양방향 대화는 이미 현실 곁에 다가와 있다. 미국 아마존의 스마트 스피커인 '에코'는 사람 말을 알아듣고 온라인 상품 주문을 처리하고, 원하는 지식을 찾아준다. 구글이 올해 출시한 양방향 대화 인공지능인 '어시스턴트'는 질문하는 사람의 위치와 취향까지 파악해 영화관을 찾아주고 필요에 따라 보충 질문까지 던진다.
이런 추세를 보면 블루투스 이어폰을 귀에 대고 외국인과 편안하게 모국어로 대화하는 날이 머지않았다. 또 사무실이나 집에서 스마트 스피커가 가정교사 역할부터 비서, 보모 역할을 하는 시대도 곧 열릴 것이다.
언어 관련 인공지능 사업이야말로 4차 산업혁명의 꽃이다. 지금까지 수천만 장 사진에서 고양이 사진을 골라내거나 프로 기사(棋士)와 바둑 대결을 벌이는 인공지능이 주목을 받았다. 하지만 이런 인공지능은 범용성이 떨어진다.
8월31일 서울 을지로 SK텔레콤에서 인공지능 서비스 '누구(NUGU)'를 소개하고 있다. /김연정 객원기자
이에 비해 언어를 학습해 새로운 지식을 추출하고 사람과 대화할 수 있는 인공지능은 인간이 컴퓨터를 고안할 때부터 꿈꿨던 궁극의 이상이다. 하지만 언어는 너무나 많은 변수를 포함하고 있고, 또 끊임없이 변하기 때문에 기계가 도저히 따라갈 수 없는 인간의 영역이었다.
그런데 세계 굴지의 기업들은 막대한 돈을 투자하면서 언어 처리 인공지능 개발에 힘을 쏟았고, 그 결과 최근 난관을 돌파하는 성과를 속속 올리고 있다. IBM 왓슨, 아마존 에코 등이 그런 흐름을 잘 보여준다.
하지만 한국어 기반 인공지능 서비스는 영어권과 비교하면 갈 길이 멀다. SK텔레콤의 스마트 스피커 '누구(Nugu)'는 이제 막 걸음마를 뗀 정도이고, 네이버의 번역기 '파파고'도 구글 번역기보다 성능이 떨어진다. 한국어 인공지능 분야가 왜 이처럼 세계적 수준에 못 미칠까. 전문가들은 의외의 답변을 한다. 인공지능 알고리즘이 문제가 아니라, 알고리즘이 학습할 수 있는 한국어 디지털 데이터 인프라가 취약하다는 것이다.
대표적인 사례가 한국어 말뭉치(corpus) 인프라의 후진성이다. 말뭉치란 컴퓨터가 언어를 이해할 수 있도록 신문 기사, 소설 등 한국어 텍스트에서 유형을 추출하고, 이를 컴퓨터 코드로 바꾼 것이다. 이런 말뭉치가 많고 주기적으로 업데이트될수록 인공지능을 똑똑하게 학습시킬 수 있다.
그런데 말뭉치 사업을 맡은 국립국어원은 1차 말뭉치 사업(세종 계획)을 2007년에 마무리한 이후 10년째 2차 사업에 손도 못 대고 있다. 한국어와 인공지능의 접목을 이해하는 관료가 드물고, 산업계 관심도 낮기 때문이다. 디지털 세계에선 10년은 100년에 해당하기에 그 공백은 한국어 인공지능 사업에 치명적이다.
이에 비해 영미권 기업들은 풍부한 영어 말뭉치 인프라 덕을 톡톡히 보고 있다. 벤처기업들도 언제든지 사용할 수 있는 오픈소스 형태의 영어 말뭉치가 다양한 형태로 널려 있다. 나라 안팎이 어수선하다. 이럴 때일수록 말뭉치와 같은 한국어와 인공지능이 만나는 지점에 투자를 제대로 해야 한다.
/조선일보 DB
[출처] 본 기사는 조선닷컴에서 작성된 기사 입니다
우병현 조선일보 미래전략실장 입력 : 2016.11.21 03:14
아침에 일어나 침대 옆 탁자에 놓인 스피커에 대고 "도널드 트럼프의 미 대선 승리가 서울 강남 부동산에 미칠 영향을 알려줘" 하고 말한다. 스피커는 순식간에 세계 주요 도시 부동산 기사와 각종 경제지표를 분석해서 음성으로 답한다.
영화 '그녀(her)'에서 나왔던 컴퓨터와 사람의 양방향 대화는 이미 현실 곁에 다가와 있다. 미국 아마존의 스마트 스피커인 '에코'는 사람 말을 알아듣고 온라인 상품 주문을 처리하고, 원하는 지식을 찾아준다. 구글이 올해 출시한 양방향 대화 인공지능인 '어시스턴트'는 질문하는 사람의 위치와 취향까지 파악해 영화관을 찾아주고 필요에 따라 보충 질문까지 던진다.
이런 추세를 보면 블루투스 이어폰을 귀에 대고 외국인과 편안하게 모국어로 대화하는 날이 머지않았다. 또 사무실이나 집에서 스마트 스피커가 가정교사 역할부터 비서, 보모 역할을 하는 시대도 곧 열릴 것이다.
언어 관련 인공지능 사업이야말로 4차 산업혁명의 꽃이다. 지금까지 수천만 장 사진에서 고양이 사진을 골라내거나 프로 기사(棋士)와 바둑 대결을 벌이는 인공지능이 주목을 받았다. 하지만 이런 인공지능은 범용성이 떨어진다.
8월31일 서울 을지로 SK텔레콤에서 인공지능 서비스 '누구(NUGU)'를 소개하고 있다. /김연정 객원기자
이에 비해 언어를 학습해 새로운 지식을 추출하고 사람과 대화할 수 있는 인공지능은 인간이 컴퓨터를 고안할 때부터 꿈꿨던 궁극의 이상이다. 하지만 언어는 너무나 많은 변수를 포함하고 있고, 또 끊임없이 변하기 때문에 기계가 도저히 따라갈 수 없는 인간의 영역이었다.
그런데 세계 굴지의 기업들은 막대한 돈을 투자하면서 언어 처리 인공지능 개발에 힘을 쏟았고, 그 결과 최근 난관을 돌파하는 성과를 속속 올리고 있다. IBM 왓슨, 아마존 에코 등이 그런 흐름을 잘 보여준다.
하지만 한국어 기반 인공지능 서비스는 영어권과 비교하면 갈 길이 멀다. SK텔레콤의 스마트 스피커 '누구(Nugu)'는 이제 막 걸음마를 뗀 정도이고, 네이버의 번역기 '파파고'도 구글 번역기보다 성능이 떨어진다. 한국어 인공지능 분야가 왜 이처럼 세계적 수준에 못 미칠까. 전문가들은 의외의 답변을 한다. 인공지능 알고리즘이 문제가 아니라, 알고리즘이 학습할 수 있는 한국어 디지털 데이터 인프라가 취약하다는 것이다.
대표적인 사례가 한국어 말뭉치(corpus) 인프라의 후진성이다. 말뭉치란 컴퓨터가 언어를 이해할 수 있도록 신문 기사, 소설 등 한국어 텍스트에서 유형을 추출하고, 이를 컴퓨터 코드로 바꾼 것이다. 이런 말뭉치가 많고 주기적으로 업데이트될수록 인공지능을 똑똑하게 학습시킬 수 있다.
그런데 말뭉치 사업을 맡은 국립국어원은 1차 말뭉치 사업(세종 계획)을 2007년에 마무리한 이후 10년째 2차 사업에 손도 못 대고 있다. 한국어와 인공지능의 접목을 이해하는 관료가 드물고, 산업계 관심도 낮기 때문이다. 디지털 세계에선 10년은 100년에 해당하기에 그 공백은 한국어 인공지능 사업에 치명적이다.
이에 비해 영미권 기업들은 풍부한 영어 말뭉치 인프라 덕을 톡톡히 보고 있다. 벤처기업들도 언제든지 사용할 수 있는 오픈소스 형태의 영어 말뭉치가 다양한 형태로 널려 있다. 나라 안팎이 어수선하다. 이럴 때일수록 말뭉치와 같은 한국어와 인공지능이 만나는 지점에 투자를 제대로 해야 한다.
/조선일보 DB
[출처] 본 기사는 조선닷컴에서 작성된 기사 입니다
댓글목록
등록된 댓글이 없습니다.