GPT-OSSが面白そうだったので、自動リサーチスクリプトを改良して試してみました。Wikipedia APIでファクトチェックも行いましたが、20B-MXFP4ではハルシネーションによるノイズが多く、研究結果の精度が実務レベルには届かず、実用は断念しました。
次に、チャッピーさんやクロードさんと相談して、ブログの過去記事をリライトするスクリプトを作ってもらいました。LM Studio経由でGPT-OSSを使い、XMLでエクスポートした記事をリライトして再びXMLに戻し、WordPressにインポートを試みたのです。GPT-OSSは優秀だと言われていたので、これくらいは問題なくこなせるだろうと思っていました。
しかし、実際にインポートして記事を確認すると、元の記事と内容が変わっていたり、ニュアンスがまったく伝わらないものになっていました。RTX4070で2000記事を丸1日かけてリライトしましたが、結局使い物にならないと判断。おそらく20B-MXFP4の限界だったのでしょう。
そこで、オンライン版の生成AIであるGemini 1.5flashに切り替えました。APIの無料枠は当初1日1500リクエストで、日本語も自然、ニュアンスも正確です。これなら全件リライトできそうだと思い、バッチ処理を開始。しかし25記事作成した時点でリトライが始まり、最新の無料枠は50リクエストに下がっていたため、25記事/日が限界であることが分かりました。
ジェミニさん、チャッピーさん、クロードさんと相談したところ、GPT-OSSは日本語リライトが思ったより弱いことが判明。AIのアドバイスではLlama3-Japanese-13Bが推奨されていましたが、個人的には微妙に感じ、自力で探した結果、サイバーエージェントのDeepSeek日本語特化モデル14BQ4がバランス良さそうだと分かりました。(参考:https://gihyo.jp/article/2025/01/deepseek-r1-japanese)
このモデルはGPUをフル活用できるため、速度も速く、リライト精度も高いです。試しに1か月分の記事をリライトさせてみましたが、非常に良い結果でした。ただし、このモデルは指示を無視して、変更点やAIの感想、どこが優れているかといったアピールを勝手に付け加えます。「余計なことは書くな!」とプロンプトを工夫しても、中華製らしく、繰り返しアピールを追記してしまいます。スクリプトで削除する手もありますが、10記事書き換えれば10パターンのアピールが付くため手に負えません。
それでも日本語の正確さはさすがで、日本企業のサイバーエージェントがファインチューニングしただけのことはあります。最終的には、記事として問題になるわけでもないので、余計なコメントはそのままにしてチャンクで長文にも対応したスクリプトに修正してもらい、現在2000記事をリライトしています。
最終的に手に負えないほど変更点、コメント、改善アピールが紛れ込んでいたので、出来上がったXMLを今度はGPT-OSSを通してクリーンな記事に書き換えることにしました。
最後のポイント(手順のまとめ)
作成した手順やスクリプトを一般向けに添付するのは難しいです。WordPressの構造やXML形式はカスタマイズによって異なるため、汎用性を確保できません。そこで、チャッピーさんなどと相談してスクリプトを作ってもらうのが良いでしょう。
流れとしては以下の通りです:
- WordPressから投稿をXMLでエクスポート。
- AIでXML内の投稿記事の構造を分析。
- リライトさせたいモデルのAPIに、リライト用プロンプトと投稿記事をリクエストしてXMLを作成するスクリプトを依頼。
- スクリプトでリライトしたXMLを書き出し、WordPressにインポート。但しwordpress標準のインポートは同じ記事があると上書きはできずサフィックスをつけて別のURLで作成してしまうため、オリジナル記事の事前削除が必要。そのため最初から上書きができるインポータを持つプラグインを使ってエクスポートしてスクリプトを作るのもあり。
初回はXML構造が正しく認識できないためエラーになることがあります。まずなります。絶対なります。そこで、エクスポートXMLとリライト後XMLを比較するスクリプトを作り、構造上の違いを出力。AIに分析させ、スクリプトを修正すればうまくインポートできるようになります。きっちりバックアップを取って試しましょう。