Speech-to-Text

Prerequisites

Create a Fish Audio account

Go to fish.audio/auth/signup
Fill in your details to create an account, complete steps to verify your account.
Log in to your account and navigate to the API section

Get your API key

Once you have an account, you’ll need an API key to authenticate your requests.

Log in to your Fish Audio Dashboard
Navigate to the API Keys section
Click “Create New Key” and give it a descriptive name, set a expiration if desired
Copy your key and store it securely

Keep your API key secret! Never commit it to version control or share it publicly.

Basic Transcription

Transcribe audio files to text with automatic language detection using asr.transcribe():

from fishaudio import FishAudio

client = FishAudio()

# Transcribe audio
with open("audio.mp3", "rb") as f:
    result = client.asr.transcribe(audio=f.read())

print(f"Transcription: {result.text}")
print(f"Duration: {result.duration}ms")

The ASRResponse object contains the full transcription and segment details.

Language Specification

Specify the language for more accurate transcription:

from fishaudio import FishAudio

client = FishAudio()

# Specify language code
with open("chinese_audio.mp3", "rb") as f:
    result = client.asr.transcribe(
        audio=f.read(),
        language="zh"  # Chinese
    )

print(result.text)

Auto-detection works well for most cases, but specifying the language can improve accuracy, especially for languages with similar phonetics.

Segment Timestamps

Access word-level or phrase-level timestamps:

from fishaudio import FishAudio

client = FishAudio()

# Transcribe with segments
with open("audio.mp3", "rb") as f:
    result = client.asr.transcribe(audio=f.read())

# Access full text
print(f"Full text: {result.text}")

# Iterate through segments
for segment in result.segments:
    print(f"[{segment.start}ms - {segment.end}ms]: {segment.text}")

Next Steps

Text-to-Speech

Convert transcribed text back to speech

Voice Cloning

Use transcribed audio for voice cloning

ASR API Reference

Complete ASR API documentation

Best Practices

Production tips and optimization

ASR Types Reference - ASR response data structures
Error Handling - Exception types and handling

Getting Started

Models & Pricing

Core Features

Developer SDKs

Best Practices

Product Guides

Self-Hosting

Integrations

Tutorials

Resources

Prerequisites

Basic Transcription

Language Specification

Segment Timestamps

Next Steps

Text-to-Speech

Voice Cloning

ASR API Reference

Best Practices

Getting Started

Models & Pricing

Core Features

Developer SDKs

Best Practices

Product Guides

Self-Hosting

Integrations

Tutorials

Resources

​Prerequisites

​Basic Transcription

​Language Specification

​Segment Timestamps

​Next Steps

Text-to-Speech

Voice Cloning

ASR API Reference

Best Practices

​Related Resources

Prerequisites

Basic Transcription

Language Specification

Segment Timestamps

Next Steps

Related Resources