Speech to Text (STT)
업계 유일한 아동 음성 인식, 한-영 코드스위칭 음성인식 및 세계 최고 수준의 음성인식 정확도를 제공하는 Theta One Speech AI API입니다.
인식하고자 하는 음성이 포함된 음원 파일(.wav
형식)을 업로드하면, 인식된 내용이 출력됩니다.
사전 준비
API 사용에는 유효한 API 키와 선불 크레딧 또는 후불 결제 계약이 필요합니다. 아직 준비가 되지 않으셨다면 아래 문서들을 참고하여 준비해주시기 바랍니다.
API 호출
아래 코드 스니펫을 활용하여 STT API를 사용할 수 있습니다. YOUR_API_KEY
를 앞서 발급받은 API 키(sk-theta-
로 시작)로 바꾸고, audio.wav
를 인식하고자 하는 음성 파일의 경로로 바꾸어 음성인식을 수행할 수 있습니다.
- cURL
- Python
curl -X 'POST' \
'https://stt.thetaone-ai.com/transcribe' \
-H 'accept: application/json' \
-H 'x-api-key: YOUR_API_KEY' \
-H 'Content-Type: multipart/form-data' \
-F 'file=@audio.wav;type=audio/wav'
import requests
url = "https://stt.thetaone-ai.com/transcribe"
headers = {
"x-api-key": "YOUR_API_KEY"
}
with open("audio.wav", "rb") as audio_file:
files = {"file": ("audio.wav", audio_file, "audio/wav")}
response = requests.post(url, headers=headers, files=files)
result = response.json()
print(f"Transcirption: {result['text']}")
호출 결과는 아래와 같은 형태의 json으로 제공됩니다.
{
"text": "Welcome to Theta One AI!", // 인식된 텍스트
"text_type": "en", // 인식된 언어
"metadata": {},
"response_time_in_sec": 0.4252029037475586 // 서버에서 요청 처리에 소요된 시간
}
text_type
은 en
, ko
, codeswitched
형태로 제공됩니다.
오류 응답
API 처리에 실패할 경우, HTTP 오류 코드와 함께 오류 메시지를 포함한 json이 반환됩니다. 발생할 수 있는 오류의 종류 및 대처 방법은 아래와 같습니다.
400 Bad Request
API 요청에 문제가 있는 경우입니다. 요청 형식이 올바른지 확인해주세요.
401 Unauthorized
API 인증에 문제가 있는 경우입니다. API 키가 올바르게 입력되었는지, API 키의 상태가 유효한지 확인해주세요.
402 PAYMENT_REQUIRED
요금 청구 관련 오류입니다. 충전되어 있는 크레딧의 양이 충분한지, 결제 정보가 유효한지 확인해주세요.
429 RATE_LIMIT_EXCEEDED
할당된 분당 요청 제한(Request Per Minute Limit)을 초과한 요청을 보낼 경우 발생하는 오류입니다.
Theta One API는 과도한 요청으로 인한 서버 부하 및 의도치않은 과도한 요금 청구를 방지하기 위해 1분당 100회 이상의 요청을 제한하고 있습니다.
잠시 후에 다시 시도하거나, RPM 상향 문의를 통해 제한량을 필요에 맞게 상향하여 주시기 바랍니다.
500 INTERNAL_SERVER_ERROR
Theta One API 서버 측에서 발생하는 오류입니다. 발생할 경우, 에러 로그와 함께 발생 시간, 사용하신 API 키 등을 이메일(support@thetaone.co)으로 남겨주시면 빠르게 해결을 도와드리겠습니다.