적당한 고통은 희열이다

- 댄 브라운 '다빈치 코드' 중에서

초보 iOS 개발자의 일상/개발 업무

[Swift iOS] STT & TTS 성능 비교 - Speech / Naver / Google

hongssup_ 2021. 10. 25. 18:04
반응형

STT (Speech-to-Text)

: 음성인식(Speech Recognition) 

사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리.

 

TTS (Text-to-Speech)

: 음성합성(Speech Synthesis)

사람의 목소리를 합성하여 텍스트를 음성으로 변환하는 시스템

 

STT / TTS 성능을 다음 세가지 플랫폼을 활용해 비교해보았다. 

- 애플에서 제공하는 Speech 프레임워크

- Google Cloud 

- Naver CLOVA 

 

STT

  Apple Speech Google Cloud Naver CLOVA
난이도
속도 말이 길어질수록 버퍼링이 생김 Good Good
정확도 70%
일상적인 말들은 인식을 아주 잘한다. 어려운 단어와 문장들은 음...
97%
완벽에 가까운 음성인식률로 감탄을 자아냄. 어려운 단어와 문장들도 웬만하면 다 인식을 잘 한다.
80%
일상적인 말들은 인식을 잘한다. 어려운 단어와 문장들은 띄어쓰기가 엉망이 되는 경향이 있다. 
가격 무료 0~60분 무료,
이후 15초당 $0.006
15초당 4원
사용법 Speech STT 사용법 Google STT api 사용법 Naver CSR api 사용법

TTS

  Apple Speech Google Cloud Naver CLOVA
난이도
정확도 가장 AI 기계같은 말투 자연스러움 자연스러움
목소리 Siri 목소리 한글 목소리 남 여 각 두개씩 지원 한글 목소리 수십가지 지원
가격 무료 0~100만 자 무료,
이후 문자당 $0.000016
월 90,000원
사용법 Speech TTS Google TTS api 사용법 CLOVA Voice 사용법

 

전체적으로 STT가 TTS보다 구현하기 조금 더 까다로웠다. 

 

TTS 는 다들 잘 읽는데 얼마나 사람처럼? 자연스럽게 읽느냐가 관건.

 

가성비를 따진다면 그냥 사용하기도 간편한 Swift 내장 Speech를 이용하여 STT TTS를 사용하는 것도 좋겠지만,

농업 관련된 어려운 단어와 문장들을 인식해내야하는 프로젝트이기에 유료 플랫폼을 사용하기로 했다. 

STT의 경우 구글의 성능이 월등하게 높았고,

TTS의 경우 네이버에서 지원하는 한글 목소리가 압도적으로 많았지만 사실 다양한 목소리 지원은 크게 필요하지 않기에 

성능은 비슷하고 좀더 저렴한 구글이 낫다고 생각했다.

▶ 따라서 STT TTS 기능은 구글 클라우드 플랫폼을 사용하는 것으로 결정! 👍🏻

 

 

STT TTS 비교 테스트 샘플 프로젝트여기를 참고해주세요


혹시나 제 글이 도움이 되셨다면 하트 한번 눌러주시면 감사하겠습니다 🥰

iOS 개발자분들 모두 화이팅입니다👍🏻

 

728x90
반응형