이번 업데이트를 통해서 OCI DataScience 프로젝트에서 모델을 배포할 때 Burstable 인스턴스를 사용할 수 있게되었습니다.
이번 업데이트를 통해서 OCI AI Speech 서비스의 일부 기능이 개선, 추가 되었습니다.
Feature | Oracle ASR model | Whisper Model in Oracle Speech Service |
---|---|---|
Real time transcriptions | Supported | Not supported |
Large file size | Up to 2 GB | Up to 2 GB |
Word level timestamp | Supported | Supported |
File format | AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, WAV, WEBM | AAC, AC3, AMR, AU, FLAC, M4A, MKV, MP3, MP4, OGA, OGG, WAV, WEBM |
Multilingual support | English, Spanish, French, German, Italian, Portuguese, and Hindi | Same as Oracle ASR model plus 50 other languages* |
Diarization | Supported | Supported |
OpenAI에서 개발한 자동 음성 인식(Automatic Speech Recognition, ASR) 모델로 2022년 9월에 오픈 소스로 공개했으며, 2022년 12월에는 기존 large 모델에서 더욱 개선된 large-v2 모델을 출시했습니다. Whisper는 680,000시간 분량의 다국어 및 다목적 감독 데이터를 학습했으며, ChatGPT 앱의 음성 인식 기능이 위스퍼 모델을 기반으로 만들어졌습니다. Whisper 모델은 한국어를 포함한 50개가 넘은 언어를 지원합니다. Whisper 모델의 지원 언어에 대한 OpenAI 공식문서를 참고하세요
크기 | 매개변수 | 영어 전용 모델 | 다국어 모델 |
tiny | 39 M | ✓ | ✓ |
base | 74 M | ✓ | ✓ |
small | 244 M | ✓ | ✓ |
medium | 769 M | ✓ | ✓ |
large | 1550 M | ✓ |
출처 : 나무위키 OpenAI Whisper
이 글은 개인적으로 얻은 지식과 경험을 작성한 글로 내용에 오류가 있을 수 있습니다. 또한 글 속의 의견은 개인적인 의견으로 특정 회사를 대변하지 않습니다.
Younghwan Cho RELEASE-NOTES-2024-AIML
oci-release-notes-2024 Mar-2024 AI/ML Gen AI