Google ドキュメントで PDF または画像からテキストを抽出する

OCR 認識を使用し、PDF ファイルと画像を編集可能にして、含まれるテキストをコピーする方法

Google ドキュメントは、オンラインアプリケーションに新機能を追加し続けています。したがって、任意のタイプとサイズのファイルをアップロードする機能とともに ( グーグルドライブ）、非常に興味深い目新しさを追加します。 OCR機能、それはあなたを可能にします PDF または画像からテキストを抽出する.
したがって、職場でも日常生活でも、スキャンした画像と保護された PDF ドキュメントからテキストをキャプチャできることがいかに役立つかは明らかです。
たとえば、理論的には、スキャナーを使用して本をコンピューターに保存し、テキストを抽出して変更したり、事前に作成されたドキュメントを取得して変更したり、リサイクルしたりできます (ただし、コピーには注意してください)。および著作権で保護されたドキュメントからの貼り付け)。
一緒に見ましょう Google ドキュメントで PDF または画像からテキストを抽出する方法; 情報を完成させるために、OCR を介してテキストを抽出できる有効な代替手段もいくつか示します。

Google ドキュメントでテキストを抽出する方法

ドキュメントで OCR 機能を有効にするには Google ドライブのページを開き、右上の歯車アイコンを押してから上へ設定; 開いたウィンドウで、項目を確認します アップロードしたファイルを Google ドキュメントエディター形式に変換する.

この時点で、テキストを含む PDF または画像を Google ドライブにアップロードし、アップロードしたファイルを右クリックしてオプションを使用します。 開く – Google ドキュメント. PDF または画像は初期形式では読み込まれませんが、 直接編集可能なテキストシート Google ドキュメントツールで。テキストファイルは、コンピューター上の PDF 形式、または Word ファイル、TXT、RTF、または Libreoffice と互換性のある形式 (ODT）。
明らかに、PDF を読み込んでテキストを抽出すると、フォント、イタリック、および太字の設定が維持されていても、段落の書式設定が失われます (多くの場合、元の PDF を構成する画像の品質に依存します)。ただし、紙の本を最初から書き直さなくても、紙の本をコンピューターに取り込むための迅速かつ簡単な方法は変わりません。

Windows 10 でテキストを抽出する方法

Google ドキュメントの OCR に完全に納得できない場合は、PDF24 ツールを代わりに使用できます。このツールは、Windows のどのバージョンでも無料で利用できます。

アプリをインストールしたら起動してみましょう、項目を押してください テキストを認識する そして、次のウィンドウで、をクリックします 追加ファイル そして、 始まり. プログラムは、PDF 内の画像からテキストのキャプチャを自動的に開始します。仕事の終わりに私たちは次に進みます ファイルを保存します、したがって、画像から抽出されたテキストを使用して新しい PDF を作成できます (はるかに読みやすく正確です)。

または、Windows では、最高の無料ツールの 1 つである FreeOCR プログラムをいつでも使用できます。

プログラムが開いたら、 PDFを開く ロードする PDF を選択し、そこに含まれるテキストを抽出できるようにし、上部の OCR を押します。プロセスの最後に、復元したテキストを新しい PDF ファイル (推奨) で保存するか、サポートされているその他のテキスト形式で保存するかを選択します。

Windows の他の代替手段を詳しく調べるには、次のガイドを読むことをお勧めします。 スキャナから画像、ファックス、PDF ファイルを変換する OCR プログラム.

MacでPDFからテキストを抽出する方法

以前に見た Mac 用のプログラムに似たものを探している場合は、14 日間無料で試用できる OCRKit を試すことができます。

この小さなツールを開いたら、画像を含む PDF を読み込んで変換を開始します。数分ですべての画像の読み取りが取得され、抽出されたすべてのテキストを含むファイルが生成され、コピー、変更の準備が整います。または共有。

オンラインで PDF からテキストを抽出する方法

会社の PC にプログラムをインストールできない場合、または権限が制限されたユーザーの PC で作業できない場合でも、onlineocr.net オンラインサービスを使用して、画像またはスキャンで構成される PDF からテキストを抽出できます。

サイトが開いたらボタンを押す ファイルを選ぶ、抽出するテキストを含むPDFファイルをロードし、選択します イタリアの それは マイクロソフトワード (docx) その横のドロップダウンメニューで、最後に変換.
PDF が読み込まれ、簡単に編集可能な Word ドキュメントに変換され、ブラウザーから任意のファイルとしてダウンロードされ、Word または LibreOffice Writer (誰でもアクセスできる無料バージョン) で編集できるようになります。

上記のサイトが機能せず、別のサイトを試してみたい場合は、スキャンまたは画像からの文字読み取り専用のセクションがある Convertio サイトにアクセスして、PDF 用の無料の OCR を取得できます。

サイトを使用するには、ボタンをクリックしてください ファイルを選択、スキャンする PDF をロードし、すべてのオプションがニーズに対応しているかどうかを確認してから、 認識するために. サイトはすぐにすべての画像を読み取り、すぐに使用できる編集可能な Word ファイルを生成します。
無料版では 10 ページしか変換できません。さらにページが必要な場合は、右上を押して登録する必要があります チェックイン 何かをする前に。

結論

これまで見てきたように、PDF や画像からテキストを抽出する方法は実にたくさんあります。Google ドキュメント (最も単純ですぐに使えるツール) から始めて、後でこの目的のための他の便利なツールやプログラムを紹介します。

引き続き PDF については、ガイドを読むことでこのタイプのファイルを変更できます。 PDFファイルの編集方法 それは トップ10のPDF編集ソフトウェア.
一方、携帯電話で PDF ファイルを編集およびコンパイルする方法を探している場合は、記事を読むことをお勧めします。 AndroidおよびiPhoneからPDFファイルを編集および入力する方法.

それはあなたの問題を解決しましたか？

Tech-JP

Google ドキュメントでテキストを抽出する方法

Windows 10 でテキストを抽出する方法

MacでPDFからテキストを抽出する方法

オンラインで PDF からテキストを抽出する方法

結論