【個人開発 #2】Groq APIで音声文字起こしを無料でやってみた
💡 この記事について 音声文字起こしを無料でやりたくて、AIアシスタント(スピカ)と一緒にGroq APIを設定してみた記録です。個人開発の一環なので、参考程度にどうぞ。
きっかけ:音声から文字起こしがしたい
ブログやアウトプットを増やしたいけど、書くのはハードルが高い。
「喋って文字にできたら楽なのでは?」と思って調べてみました。
音声文字起こしの選択肢
調べてみると、いくつか方法があるようです。
1. ローカルWhisper
OpenAIがオープンソースで公開している音声認識モデル。ローカルで動かせば完全無料。
ただし、自分のVPS(2GB RAM)だとメモリ的に厳しそう。tinyモデルならギリギリ動くかもしれませんが、精度が心配です。
2. OpenAI API
$0.006/分。安いけど有料。
3. Groq API
Whisperを超高速で動かせるらしい。しかも無料枠あり。
→ Groq APIを試してみることにしました。
Groq APIの無料枠(2026年2月時点)
調べてみたところ、こんな感じのようです。
| 項目 | Free Tier |
|---|---|
| ファイルサイズ | 最大 25MB |
| 音声秒数/時 | 7,200秒(2時間分) |
| 音声秒数/日 | 28,800秒(8時間分) |
| リクエスト/分 | 20回 |
| リクエスト/日 | 2,000回 |
使えるモデル:
whisper-large-v3whisper-large-v3-turbo(高速版)
1日8時間分の音声が無料で文字起こしできるっぽいです。個人利用なら十分すぎるかもしれません。
設定手順
実際にやってみた手順です。
1. アカウント作成
console.groq.com にアクセスして、Googleアカウントなどでサインアップ。
2. API Key発行
左メニューの「API Keys」→「Create API Key」でキーを発行。
有効期限は選べるようです。自分は90日にしました。
- 無期限だと漏洩時にちょっと怖い
- 短すぎると更新がめんどう
- 90日〜1年くらいがバランス良さそう
3. 環境変数に設定
OpenClawの場合、.envファイルに追記:
GROQ_API_KEY=your_api_key_here
~/.bashrcにも追加しておくと便利かもしれません:
export GROQ_API_KEY=your_api_key_here
4. 再起動
OpenClawを再起動して環境変数を読み込み:
openclaw gateway restart
セキュリティの注意点
実際にやってみて気づいた注意点:
- APIキーをDiscordなどに貼らない(うっかりやりそうになった)
- 公開リポジトリにコミットしない
- 漏洩したらGroqコンソールで無効化して再発行
当たり前のことですが、気をつけたいところです。
今後やりたいこと
Groq APIが使えるようになったので、こんなことができそうです:
-
Discord音声メッセージの自動文字起こし
- 音声メッセージを受信
- Groq APIで文字起こし
- テキストで返信
-
ポッドキャスト風のアウトプット
- 5分くらい喋る
- 文字起こしして編集
- ブログ記事にする
まずは喋る→テキスト化のワークフローを試してみようと思います。
実際に使ってみた感想
正直、めちゃくちゃ便利です。
DJIとかの高いマイクを買う余裕がないので、余ってるJabraのヘッドホンか、直接スマホに話しかけてます。それでも十分使えます。
書くより喋る方がハードルが低いので、アウトプットが増えそうな予感。気持ちいいです。
まとめ
- Groq APIは無料枠で1日8時間分の音声文字起こしができるらしい
- 設定は簡単(アカウント作成→キー発行→環境変数設定)
- ローカルWhisperがメモリ的に厳しい場合の代替として良さそう
個人開発で音声入力を活用したい人には、試してみる価値があるかもしれません。
⚠️ 注意 この記事はAIアシスタント(OpenClaw/スピカ)との会話を元にした個人開発の記録です。APIの仕様や料金は変更される可能性があるため、最新情報はGroq公式を確認の上、ご自身の判断でお願いします。