생성형 인공지능(AI) 챗GPT가 사람과 음성으로 대화하고 이미지를 보고 질문에 답할 수 있게 진화했다.

챗GPT, 타 음성 AI 비서들과 달리 ‘대화 가능’

25일(현지시간) 오픈AI는 챗GPT가 ‘보고 듣고 말하는’ 새로운 기능을 조만간 제공한다고 밝혔다.

‘듣고 말하는 기능’은 이용자와 음성으로 질문과 답변을 주고받는 기능이다. 지금까지는 프롬프트를 통해 대화했다면 이제는 음성 대화가 가능해지는 것이다.

기존 아마존의 AI 비서인 알렉사(Alexa), 애플의 시리(Siri), 구글 어시스턴트(Google Assistant) 등과 비슷한 기능이다.

다만 이들 AI 비서가 주로 이용자의 음성 명령을 실행하는 데 초점이 맞춰져 있다면, 챗GPT는 대화가 가능하다.

이용자가 음성으로 질문을 하면 챗GPT가 이를 텍스트로 변환해 대규모 언어 모델(LLM)에 전달하고, 답변받아 다시 음성으로 변환해 말하는 방식이다.

챗GPT 음성은 5가지 형태로 제공될 예정이며, 이용자는 이 가운데 하나를 선택해 사용할 수 있다.

오픈AI는 향후 세계 최대 음원 스트리밍 서비스인 스포티파이와 협력해 목소리를 유지하면서 다른 언어로 번역이 가능하게 하는 방안도 검토하고 있다고 설명했다.

오픈AI는 이 기능을 2주 이내에 챗GPT 유료 구독자들에게 제공하고, 이후 모든 사람이 이용할 수 있도록 할 것이라고 전했다.

음성 기능은 IOS와 안드로이드 앱으로 제한된다.

이미지 인식해 이용자의 질문에 답해줘

‘보고 답하는 기능’이란 이용자가 이미지를 업로드하고 그 이미지를 토대로 질문을 하면 챗GPT가 이미지를 보고 답해주는 방식이다.

예를 들어 분홍색 선글라스 사진을 업로드하고 그것에 어울리는 옷을 제안하도록 요청하거나, 수학 문제 사진을 올리고 풀이 요청을 할 수 있다.

오픈AI가 공개한 이미지 인식 기능에서는 한 이용자가 자전거 이미지를 업로드하고 좌석 높이를 내리는 방법을 묻자 챗GPT는 일반적으로 좌석 높이를 조절하는 방식의 답을 제시했다.

그러나 이용자가 자전거 시트 고정 장치 주위에 동그라미 표시를 한 다음 도움을 요청하자, 챗GPT는 볼트 유형을 인식하고 육각 렌치가 필요하다고 알려줬다.

또 사용 설명서와 공구 상자의 사진을 보고 올바른 크기의 렌치가 있는지도 확인해 준다.

이 기능은 향후 몇 주내 유료 구독자와 기업 이용자들에게 제공될 예정이다. 이미지 처리 기능은 모든 플랫폼에서 사용할 수 있다.

오픈AI는 “우리 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것”이라며 “새로운 도구를 점진적으로 제공하는 것이 기능을 개선하고 위험을 완화함으로써 모든 사람이 미래에 더 강력한 시스템을 사용할 수 있도록 준비할 수 있다고 믿는다”라고 말했다.

“‘합성 음성’ 듣기엔 자연스러워도 범죄 악용 가능성”…전문가들의 우려

하지만 전문가들은 이번 음성인식 업데이트에 AI가 생성한 합성 음성이 범죄에 악용될 가능성을 우려하고 있다.

합성 음성이 사용자에게 더 자연스러운 경험을 제공할 수 있지만, 더 그럴듯한 딥페이크(AI를 이용해 진짜처럼 보이게 하는 기술)도 가능해질 수 있기 때문이다.

이에 연구자들은 이미 딥페이크가 사이버 보안 시스템에 침투하는 데 어떻게 사용될 수 있는지 연구하기 시작했다.

오픈AI는 이와 관련해 “챗GPT의 합성 음성은 낯선 사람에게서 수집한 것이 아니라 우리가 직접 작업한 성우를 통해 만들어졌다”라고 강조했다.

다만 오픈AI는 챗GPT 이용자의 음성 입력을 어떻게 사용할 것인지, 또 자사가 해당 데이터를 어떻게 보호할 것인지에 대한 점은 공개하지 않았다.

회사의 서비스 약관에는 소비자가 해당 법률이 허용하는 한도 내에서 자신의 입력값을 소유한다고 돼 있다.

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

이 기사에 대해 어떻게 생각하시나요?
+1
0
+1
0
+1
0
+1
0
+1
0

댓글을 남겨주세요.

Please enter your comment!
Please enter your name here