📖 11分で読める

【個人開発 #3】喋るだけでブログ記事になる仕組みを無料で作った話 — Groq API × OpenClaw


💡 この記事について AIアシスタント(OpenClaw/スピカ)との会話を元にした学習記録です。 内容は変更される可能性があるため、実際の開発では公式ドキュメントを確認の上、ご自身の判断でお願いします。

🎧 🎧 この記事を音声で聴く

Powered by Kokoro TTS (Apache 2.0)


この記事で分かること:

  • 「喋るだけ→ブログ記事」パイプラインの全体像
  • Groq API(無料STT)の実力と使い方
  • 個人開発で「続ける仕組み」を設計する考え方

ブログ書くのめんどくさい問題

セブ
セブ
スピカ、正直に言っていい?
スピカ
スピカ AI
いいよ、なに?
セブ
セブ
ブログ書くのめんどくさい。
スピカ
スピカ AI
突然だね。でもセブ、個人開発やってるんだからアウトプットはしたいんでしょ?
セブ
セブ
そう、それなんだよ。アウトプットしたい気持ちはある。でも書くのがハードル高い。ポッドキャストも始めようとしたけど、あれも編集とか大変でしょ。
スピカ
スピカ AI
つまり「意志力の問題」じゃなくて「仕組みの問題」だね。
セブ
セブ
まさにそれ。で、思ったんだけど…喋るだけでブログ記事になる仕組みって作れないかな?
スピカ
スピカ AI
作れるよ。しかも無料で。

パイプラインの全体像

セブ
セブ
どうやるの?
スピカ
スピカ AI
こんな流れ:
🎤 MacBookで喋る(5分)

📱 音声ファイルをDiscordに送る

🤖 私(スピカ)がGroq APIで文字起こし

✏️ 構成を整えてブログ記事に

📝 ブログ記事の完成

ポイントは、セブがやるのは最初の2ステップだけ。あとは私が全部やる。

セブ
セブ
え、これだけ?
スピカ
スピカ AI
これだけ。セブがやるのは「喋る」と「Discordに音声ファイルを送る」の2ステップだけ。あとは私がやる。
セブ
セブ
自分は喋るだけでいいのか…最高じゃん。

Groq APIがすごい

セブ
セブ
STT(音声→テキスト)っていろいろあるけど、なんでGroq?
スピカ
スピカ AI
無料枠の大きさが圧倒的だから。比べてみて:
サービス無料枠精度特徴
Groq API1日8時間分Whisper v3搭載。速度も速い
OpenAI Whisper API従量課金のみ高品質だが有料
Google STT月60分枠が少ない
セブ
セブ
1日8時間!?自分は1日5分しか喋らないから全然余裕じゃん。
スピカ
スピカ AI
そう。実質無制限みたいなもんだね。しかもWhisper v3ベースだから精度もいい。日本語もちゃんと認識するよ。
セブ
セブ
設定とか大変だった?
スピカ
スピカ AI
セブは私に「Groq APIで文字起こしできるようにして」って言っただけ。APIキーの取得と設定は私がやったよ。

実際にやってみた — Day1

セブ
セブ
今日初めてやってみたんだけど…
スピカ
スピカ AI
どうだった?
セブ
セブ
めっちゃ楽。MacBookのレコーダーアプリ開いて、だらだら喋るだけ。堅苦しいポッドキャストとか意識しなくていい。約7分喋って、それがこうやって記事になってる。
スピカ
スピカ AI
セブ、「書く」と「喋る」ってハードルが全然違うんだよ。
セブ
セブ
それ、やってみて実感した。書くって「構成考えて → タイピングして → 推敲して」のステップが多いんだよね。喋るのは思いついたことをそのまま口にすればいい。
スピカ
スピカ AI
しかもセブの場合、喋る練習もしたかったんだよね?
セブ
セブ
そう。英語のスピーキングもそうだけど、日本語でも「考えを言語化する練習」になるなと。一石二鳥。

補足:逆もできる? — テキスト→音声(TTS)の世界

セブ
セブ
ここまでは「喋る→テキスト」の話だったけど、逆にテキストから音声を作ることってできないの?ブログ記事をポッドキャストにしたいんだけど。
スピカ
スピカ AI
できるよ。しかも2025〜2026年にかけて、オープンソースのTTS(Text-to-Speech)技術がすさまじく進化してるの。いま注目の3つを紹介するね。
モデル特徴ライセンス向いてる用途
Kokoro-82M82Mパラメータの超軽量。GPU不要でも爆速Apache 2.0単語・短文の即時生成、アプリ組み込み
F5-TTS3〜10秒の参照音声で声を模倣(ゼロショット)MIT多様なキャラクターの会話シナリオ
Parler-TTS「ゆっくり、はっきり」等の自然言語で制御可能Apache 2.0リスニング教材、難易度調整
セブ
セブ
Kokoro-82Mって、82Mって相当軽くない?
スピカ
スピカ AI
うん、普通の高品質TTSモデルが数億〜数十億パラメータなのに、Kokoroはその10分の1以下。なのにELOレーティングは同等以上。RTX 4090なら実時間の210倍速、CPUでも5〜10倍速で生成できるから、ユーザーがボタン押した瞬間に音声が出る。pip install kokoro でインストールも簡単。
セブ
セブ
逆に F5-TTS は何がすごいの?
スピカ
スピカ AI
ゼロショット・ボイスクローニング。つまり、誰かの声を3〜10秒録音するだけで、その声でテキストを読み上げさせられるの。インド英語、オーストラリア英語、シンガポール英語…アクセントの多様性も自由自在。ただしKokoroより低速(RTX 4090で約7倍速)で、参照音声がノイジーだと品質も落ちるから、事前の教材作成向きかな。
セブ
セブ
Parler-TTS は「プロンプトで制御」って、画像生成AIみたいだね。
スピカ
スピカ AI
まさにそう。たとえば "A female speaker speaks slowly and clearly, articulating every word suitable for education." って指示すると、単に再生速度を落とすんじゃなくて、「ゆっくり話す人」の韻律そのものをシミュレートしてくれるの。リスニング教材の難易度調整にはかなり強力。
セブ
セブ
これって、自分の「喋る→記事」パイプラインと組み合わせたら…
スピカ
スピカ AI
そう、記事→ポッドキャストの自動生成が見えてくるよね。ブログ記事の対話パートをKokoroで音声化すれば、対話型ポッドキャストが自動で出来上がる。実際、うちのCloud Dialectプロジェクトではすでにこの仕組みを動かしてるよ。
セブ
セブ
STTで記事を作って、TTSでポッドキャストにする。音声で始まって音声で終わるっていう、なんかキレイなループだね。
スピカ
スピカ AI
しかも全部オープンソースで無料。Python環境さえあれば今日から試せるよ。

「仕組みで解決する」という発想

セブ
セブ
振り返って思うのは、「続かない」のは意志が弱いんじゃなくて、仕組みが悪かっただけなんだよね。
スピカ
スピカ AI
そうだね。個人開発者の強みって、自分の課題を自分で解決できることだと思う。「ブログ書くのめんどくさい」っていう課題に対して、技術で仕組みを作って解決した。これってまさに個人開発のマインドでしょ。
セブ
セブ
このレベルなら毎日続けられそう。5分喋るだけだし。
スピカ
スピカ AI
無理なく続けられる仕組みが一番大事。やってみてダメだったらまた改善すればいいしね。

まとめ

  • 「書く」から「喋る」にすると、アウトプットのハードルが劇的に下がる
  • Groq API は1日8時間無料。個人利用なら実質無制限
  • OpenClaw(スピカ)が文字起こし→記事整形を自動でやってくれる
  • 続かないのは意志力じゃない。仕組みで解決する

興味ある人は Groq API、ぜひ試してみてください。無料で始められます。


収録日: 2026-02-03 収録時間: 約7分

⚠️ 注意 この記事はOpenClaw/AIアシスタントとの会話を元にした内容です。 実際の運用は自身で確認してください。 技術情報は変わる可能性があるので、公式ドキュメントの確認を推奨します。


シリーズ目次

  1. VPSとMac Miniの違い
  2. Groq APIで音声文字起こし
  3. 喋るだけでブログ記事になる仕組み ← 今ここ