
昨年から、ChatGPTを初めとするAIをちょこちょこ触っているのですが、「実務に使える内容を講義にできれば」ということで、香川県中小企業診断士協会の支援を得て2025年11月21日(金)にAI関連の自主開催セミナーをすることにしました!実務への試行と講義ネタの作成を兼ねて「AI活用の試行」と銘打って小ネタをやっていきたいと思いますので、興味のある方は時々見てみてください。
本を読んでいて「いい内容だな」と思った時、皆さんどうしてますか?私はスマホで写真に撮ってますが、これをPCへ保存したとしてもテキスト検索はできません。PCで検索できるようにするためには、以前だと「スキャナで読み取ってOCRでテキスト化」というちょっと面倒な方法が必要でしたが、、最近はAIにアップロードして手軽にテキスト化できるらしく!
実際にChatGPTに写真をアップロードして「画像からテキストを抽出して」とやってみました。が、「画像から直接テキストを抽出する試みが失敗しました。日本語OCRの設定が不完全である可能性があります。」とか言って失敗します。「どうやったら読み取れるようになりますか?」と聞いたら「環境に以下の設定を行う必要があります。」「Tesseract OCRのインストールと日本語データの設定」云々とのこと。クラウドソフトなのにローカルで設定が必要なの?と疑問に思いながらもTesseract 入れて、日本語セット入れて、環境変数設定して、と色々設定してみましたが動かず。。試行錯誤していたら「サーバー側の設定が問題を起こしているため、日本語のテキストを認識できませんでした。」と!サーバー側じゃん!OpenAI側の問題?そんなの直せる訳ない。
このレベルのこともできないと仕事で使えない、、と諦められずにXを情報収集したところ…「目視で文字起こしして」だと読めるという情報が!実際に写真をアップロードし「画像を目視して内容をテキストに書き出して」と入力したところ誤字無く読めました。
これ何なのでしょうね。「画像から抽出して」だとサーバ側で外部プログラムを起動しようとして失敗するけれども「画像からを目視して抽出して」だとChatGPTが本当に画像を目視して解釈するイメージなのでしょうか?よく分からないですが、動いたのでヨシとします(^^;