📖 5分で読める

【個人開発 #2】Groq APIで音声文字起こしを無料でやってみた


💡 この記事について 音声文字起こしを無料でやりたくて、AIアシスタント(スピカ)と一緒にGroq APIを設定してみた記録です。個人開発の一環なので、参考程度にどうぞ。


きっかけ:音声から文字起こしがしたい

ブログやアウトプットを増やしたいけど、書くのはハードルが高い。

「喋って文字にできたら楽なのでは?」と思って調べてみました。


音声文字起こしの選択肢

調べてみると、いくつか方法があるようです。

1. ローカルWhisper

OpenAIがオープンソースで公開している音声認識モデル。ローカルで動かせば完全無料。

ただし、自分のVPS(2GB RAM)だとメモリ的に厳しそう。tinyモデルならギリギリ動くかもしれませんが、精度が心配です。

2. OpenAI API

$0.006/分。安いけど有料。

3. Groq API

Whisperを超高速で動かせるらしい。しかも無料枠あり。

→ Groq APIを試してみることにしました。


Groq APIの無料枠(2026年2月時点)

調べてみたところ、こんな感じのようです。

項目Free Tier
ファイルサイズ最大 25MB
音声秒数/時7,200秒(2時間分)
音声秒数/日28,800秒(8時間分)
リクエスト/分20回
リクエスト/日2,000回

使えるモデル:

  • whisper-large-v3
  • whisper-large-v3-turbo(高速版)

1日8時間分の音声が無料で文字起こしできるっぽいです。個人利用なら十分すぎるかもしれません。


設定手順

実際にやってみた手順です。

1. アカウント作成

console.groq.com にアクセスして、Googleアカウントなどでサインアップ。

2. API Key発行

左メニューの「API Keys」→「Create API Key」でキーを発行。

有効期限は選べるようです。自分は90日にしました。

  • 無期限だと漏洩時にちょっと怖い
  • 短すぎると更新がめんどう
  • 90日〜1年くらいがバランス良さそう

3. 環境変数に設定

OpenClawの場合、.envファイルに追記:

GROQ_API_KEY=your_api_key_here

~/.bashrcにも追加しておくと便利かもしれません:

export GROQ_API_KEY=your_api_key_here

4. 再起動

OpenClawを再起動して環境変数を読み込み:

openclaw gateway restart

セキュリティの注意点

実際にやってみて気づいた注意点:

  • APIキーをDiscordなどに貼らない(うっかりやりそうになった)
  • 公開リポジトリにコミットしない
  • 漏洩したらGroqコンソールで無効化して再発行

当たり前のことですが、気をつけたいところです。


今後やりたいこと

Groq APIが使えるようになったので、こんなことができそうです:

  1. Discord音声メッセージの自動文字起こし

    • 音声メッセージを受信
    • Groq APIで文字起こし
    • テキストで返信
  2. ポッドキャスト風のアウトプット

    • 5分くらい喋る
    • 文字起こしして編集
    • ブログ記事にする

まずは喋る→テキスト化のワークフローを試してみようと思います。


実際に使ってみた感想

正直、めちゃくちゃ便利です。

DJIとかの高いマイクを買う余裕がないので、余ってるJabraのヘッドホンか、直接スマホに話しかけてます。それでも十分使えます。

書くより喋る方がハードルが低いので、アウトプットが増えそうな予感。気持ちいいです。


まとめ

  • Groq APIは無料枠で1日8時間分の音声文字起こしができるらしい
  • 設定は簡単(アカウント作成→キー発行→環境変数設定)
  • ローカルWhisperがメモリ的に厳しい場合の代替として良さそう

個人開発で音声入力を活用したい人には、試してみる価値があるかもしれません。


⚠️ 注意 この記事はAIアシスタント(OpenClaw/スピカ)との会話を元にした個人開発の記録です。APIの仕様や料金は変更される可能性があるため、最新情報はGroq公式を確認の上、ご自身の判断でお願いします。