白黒地帯

ゲームとか色々、Twitterに書ききれないことなど。

Capture2Text vs Google OCR ゲーム画面読み取り翻訳比較

英語でゲームやってる時、Google OCRClound Vision API、以下GOCR)で画面テキストを読み取り、Google Translation APIで翻訳かけて読んだりするのですが
翻訳の精度もさることながら、画面のテキスト読み取り(OCR)の精度がかなりいいのでオススメしたいです。
誤読が全くないわけではないですが、大抵のものを安定して読んでくれる安心感があります。

ちなみに同じようにゲームの画面をキャプチャしてテキスト読み取りして翻訳する、ということをやってくれるソフトはすでにCapture2Text(以下C2T)というフリーのものがあります。
なので、今回はGOCRとC2Tを比較してみたいと思います。
といってもゆるーくですが。
2つの比較もですが、色んなゲームにテキスト読み取りがどのくらい対応できるかも見たいなっと思ったので
両方読めたものからボロボロなものまでサンプルは幅広く揃えてみました。

真ん中に元画像、左がGOCR、右がC2Tって感じに置いてます。
翻訳はどちらもGoogle翻訳なので、テキスト読み取りの部分でどのくらい差がつくか?というところですね
ちなみに左のGOCRのツールは自作です。公開してますのでよければ。
whiteblackspace.hatenablog.com


早速、StarboundよりNuruちゃんのクエスト文。

同じく、Terrene ProtectorateのCodex.

フォントがちょっと独特なので、C2Tではygに誤読されちゃってますね。

SteamWorld HeistよりPiperのセリフ。

双方正答!

同じくSteamWorld Heistより、クエスト説明文

微妙ですが、C2TのWhileはWが大文字な以外は双方正答です。

Hollow Knightより、王国前の石碑。

双方正答!

Stardew Valleyのおじいさんの手紙。

C2Tは崩壊。
ただGOCRもかなり厳しいですねこれは…!
GOCRの読み取り結果を一部抜き出してみると…
"The sane thing happened to ne, long ago. I'd lost sight of what nattered nost in li fe..."
またまたフォントの関係でmがnに誤読、あと何故か文字の間が空いてしまっているパターンありますね。
ただ、そのあたりをちょこっと人が修正してあげれば大丈夫になりそうなくらいの精度です。

Foragerの会話セリフ。

これも難易度高いですね。
読み取りの難易度が高い画像の場合、GOCRは誤読も起こるんですがたまにこうして語順がバラバラになる現象も発生します。
内部でどういう処理をしているのか…??

ネタ的な比較ですが、Twitterに貼ったものもご紹介。
Hylicsより、作中ナレーション。


この通りGOCRが圧勝。
でもこのゲームのテキストほぼほぼランダム生成なんだよなあ…読めて嬉しいかというと(?)

これもTwitterから。
こっちは英語じゃなくて日本語の読み取りですが…


elonaの持ち物欄をそのまま読ませてみました。
GOCRのこの精度は怖い。怖すぎる…!
ちなみにelonaの画面を精度良くテキスト読み取りできるとマクロに組み込むことができます。というかやりました。
作ったのはシェルター休憩で種生成→持ち物欄を開いて画面を読み取りして「ハーブの種」があれば終了、なければリセットして再試行…というマクロでしたね。

まとめ

GOCRは非常に精度高いんですが
欠点は直接ツールとして使えないという点ですね。
公式にはAPIを叩かないといけないのである程度技術力がいりますし、従量制ではありますが有料です。
有料なだけならいいんですが、有料ゆえにキーが必要で、その取得も何かとハードルが高い…

APIを叩かないといけないという技術的ハードルだけでもなんとかできないかと思ってツール作りました↓が、キーを取得しないといけないのは変わりなく…
この記事を見てGoogleOCRもっと気軽に使ってみたいな~って声があったらもう少し頑張ったりしたりするかもしれません。
whiteblackspace.hatenablog.com