【無料あり】PDFからテキストを抽出・コピーする7つの方法

鈴木楓
2024年07月29日 Preview 76 Preview 0
share it facebook share it Twitter

「PDFの画像ファイルを得ましたが、その中のテキストコンテンツが必要です。このテキストを再入力することなく、PDFドキュメントからテキストを抽出する方法はありますか?」

このような質問を出している人が大勢います。彼らはPDFの画像にある文字を直接コピーして貼り付けようとしましたが、できませんでした。実際に、OCRプログラムをお持ちでない場合、PDFの画像からテキストを抽出するのは非常に難しいです。この記事では、お手軽にPDFの画像からテキストを抽出・コピーする7つの方法を紹介します。

PDFの画像からテキストを抽出またはコピーする方法

通常、PDFはテキスト、画像、リンク、メディアなど、様々な要素を含めています。人はPDFビューアまたはブラウザで直接テキストをコピーすることができます。しかし、PDFの画像はただの画像であり、画像ファイルからPDF形式に作成またはスキャンされたものです。そのようなドキュメントからテキストを抽出するには、OCRは不可欠なツールです。コンバータを利用することでPDFの画像を編集可能なテキストファイルに変換できます。もしくは、テキストを抽出するツールで画像ファイルにあるテキストを認識できます。

 

オフラインでPDFの画像からテキストを抽出する(精度が高い)

ユーザーの多くは最初からオンラインでの無料解決法を試したいと思っていましたが、最終的に仕事のために専門的なソフトを選びました。時間と効率は常に小さなコストより重要です。そのため、PDFの画像からテキストを抽出する精度の高い解決法をまず紹介します。詳しい情報を確認してから、ダウンロードして無料で試すことができます。

#1 Cisdem PDF Converter OCR(WindowsとmacOSに対応)

メリット: PDFのテキストを抽出するオールインワンソフトです。精確なAI OCR技術を持っており、頻繁にPDFファイルを処理するユーザーに向いています。普段、私はこのソフトで表と手書き文字を含めた重要なドキュメント、複雑なPDFまたは画像ファイルを認識します。そのOCRの読み取り精度は99%ですので、手作業でチェック・修正する必要がありません。

Cisdem PDF Converter OCRは効率を向上させるプログラムで、PDFファイルをWord、Excel、PowerPoint、ePub、Textなど、ほぼ全ての主流形式のファイルに変換できます。そのため、価格の高いPDF編集機がなくても、PDFを他の編集可能な形式に出力し、さらにお持ちのファイル編集機でそれを編集できます。また、Word、PowerPointなどのファイルをPDFに変換したり、お手軽にPDF形式でファイルを共有またはプリントしたりすることができます。

OCR機能はPDFの画像またはスキャンしたPDFファイルを検索可能なPDFに変換できるだけでなく、それらをWord、Excel、PowerPoint、ePubなどの形式に出力することもできます。そして、複数のPDFの画像を一括変換できます。英語、アラビア語、フランス語、ドイツ語、日本語中国語、チェコ語のPDFの画像を認識する機能も素晴らしいです。

Cisdem PDF Converter OCRの主な機能

  • PDFの画像とスキャンしたPDFからテキストを抽出する
  • PDFドキュメントにあるすべての文字を抽出する
  • PDFドキュメントの特定のページからテキストを抽出する
  • 画像とPDFをOCR処理し、良い形式のPDF、Word、Excel、PowerPoint、TXTなどに変換する
  • 複数のPDFの画像を処理する
  • ネイティブPDFを15種類以上の形式のファイルに変換する
  • PDFの画像から25言語を認識する
  • 他のドキュメント(Word、PowerPointなど)からPDFファイルを作成する

WindowsとMacでPDFの画像またはスキャンしたPDFからテキストをコピーする方法

  1. WindowsまたはMacでCisdem PDF Converter OCRをダウンロードし、インストールします。
    無料ダウンロード Windows 11/10/8/7 無料ダウンロード macOS 10.13とそれ以降
  2. ソフトを起動し、「Converter」タブを選択し、1つまたは複数のPDFの画像ファイルをソフトにドラッグします。初めて利用する場合、OCRモジュールをダウンロードする必要があります。extract text from pdf cisdem01
  3. 出力のドロップダウンリストからDOCX、DOC、TXTなど、編集可能な形式を選択します。extract text from pdf cisdem02
  4. 右側にある歯車アイコンをクリックし、お好みに応じて出力の設定をします。extract text from pdf cisdem03
  5. 設定を調整したら、出力フォルダを選択して「Convert」で進みます。緑のチェックマークは成功を意味し、そして抽出したファイルまで案内します。 extract text from pdf cisdem04

#2 Adobe Acrobat(MacOSとWindowsに対応)

PDFファイルを毎日処理する場合、ユーザーはAdobe Acrobatをインストールしたかもしれません。そうすれば、PDFの画像からテキストを抽出またはコピーすることは非常に簡単になります。しかし、Adobe Acrobat Readerだけインストールした場合、Adobe ReaderはOCR機能を持っていませんので、PDFの画像にある文字を抽出またはコピーすることができません。

AcrobatでPDFの画像からテキストを抽出する方法

  1. Adobe Acrobatを利用してPDFの画像を開きます。
  2. Tools> Enhance Scansをクリックします。
  3. テキスト認識> このファイル内をクリックします。Adobe OCRを起動するためにファイルの言語を選択します。
  4. 以上のステップを完了したら、AcrobatでPDFの画像からテキストを抽出・コピーできます。
  5. (追加)PDFの画像をテキストにして保存したい場合、すべてのツール > PDFを書き出しに移動し、出力形式を選択します。

 

オンラインでPDFの画像からテキストを抽出する(無料)

専門的なソフトが強力ですが、コストを下げてダウンロードを避けるために、オンラインでの無料方法を求めている方はいるでしょう。ここでは、3つの便利なオンラインツールを紹介します。それらを利用すれば、ユーザーはお手軽にPDFの画像からテキストを抽出できるようになります。ただ、抽出の精度はソフトほど高くなく、しかも情報漏洩のリスクがあること、あらかじめ知っておいてください。

#3 Google Docs(無料)

Google DocsはGoogleに提供されているオンライン無料サービスであり、PDF、Word、Imageなどのドキュメントへの処理に用いられています。ユーザーはファイルを開き、確認、編集、エクスポートすることができます。また、スキャンしたPDFや画像ファイルに対してOCRを実行できます。しかし、OCRのエラーが発生し、エクスポートしたファイルの書式が変わることは最大の問題です。

メリット:

  1. クラウドストレージを無料提供する
  2. 内蔵されているOCRにより、自動でPDFの画像をWordに変換する
  3. アップロードしたファイルをすべてのデバイスアカウントまで同期させる

デメリット:

  1. PDFの画像に含まれている何らかの要素が認識できない
  2. 変換後のファイルの書式が乱雑なので、手作業で調整する必要がある
  3. アップロードとファイルの開きに時間が長くかかる

PDFからテキストと画像をコピーする方法

  1. Googleドライブ に移動し、新規>ファイルのアップロードをクリックし、PDFファイルをインポートします。
  2. ファイルを右クリックし、それから「アプリで開く」>「Googleドキュメント」を選択します。
  3. Google DocsはOCRを利用するので、PDFファイルが編集・コピー可能になります。マウスでドラッグしてテキストを選択し、それから右クリックし、メニューにある「コピー」をクリックします。
  4. (追加)PDFファイルからテキストを抽出して他の形式のファイルに保存したい場合、「 ファイル」> ダウンロード > Txt/Docxなどを順次クリックします。

#4 OnlineOCR(無料)

OnlineOCR(onlineocr.net)は簡単なオンラインOCRツールです。それを通してPDFまたは画像ファイルから直接テキストを抽出・コピーすることができます。認識したテキストがウェブページに表示され、迅速かつ簡単に確認できます。また、PDFをWord、Excelにエクスポートするのに対応しています。ただ、手作業でOCRのエラーを修正しなければなりません。

メリット:

  1. 40以上の認識言語をサポートする
  2. 抽出されたテキストがクリップボードに表示され、そして出力ファイルをダウンロードする前に編集できる

デメリット:

  1. PDFファイルの1ページだけからテキストを抽出する
  2. 最大ファイルサイズは15 MBである
  3. 一度に1つのファイルだけ処理する
  4. docx、xlsx、txtの3種の出力形式だけサポートする
  5. 広告が多い

PDFからテキストを無料でコピーする方法

  1. Onlineocr.netに移動します。
  2. ファイル」ボタンをクリックしてPDFファイルをアップロードします。
  3. リストからファイルの言語を選択します。
  4. 出力形式をTextまたは他の形式にします。
  5. コンバート」をクリックし、PDFファイルをテキストにOCR処理します。
  6. 認識されたテキストを抽出・コピーするか、出力ファイルをダウンロードします。

#5 Convertio(無料)

以上の2つのオンライン無料ツールと比べ、Convertioはより多くの言語と出力形式をサポートしています。その上、2言語からなるファイルをOCR処理できるのはConvertio OCRを薦める主な理由です。バイリンガルファイルをOCR処理する時の精度を大きく向上させます。ただし、無料変換できるのは10ページだけです。

メリット:

  1. 複数のPDFファイルを一括して編集・コピー可能なファイルに変換する
  2. バイリンガルPDFファイルからテキストを抽出する

デメリット:

  1. 最多10ページがアップロード可能である
  2. ファイル認識のスピードが遅い
  3. 広告とポップアップされるウィンドウで気が散る

Convertioを利用してPDFからテキストを無料でコピーする方法

  1. Convertio OCRに移動します。
  2. 1つまたは複数のPDFファイルをプログラムにアップロードします。
  3. 1または2言語を選択し、出力ファイル形式をTextにしてから、抽出したいテキストのページ番号を入力します。
  4. を認識」をクリックしてOCRを起動します。
  5. テキストファイルをダウンロードします。

 

OCRを使わずにPDFからテキストを手軽に抽出できるのか?

スキャナーまたは画像から作成されたPDFではなく、ネイティブPDFを処理すると、PDFからテキストを抽出するのは簡単になり、OCR機能を使う必要がありません。2つの方法があります。

Cisdem PDFMaster(WindowsとmacOSに対応)

「Ctrl+C」と「Ctrl+V」などのショートカットキーを使用するのはPDFからテキストを抽出する最も簡単な方法です。スピードが速く、大部分のPDFリーダーまたはブラウザでそれらを使えます。しかし、コピーと変更を防ぐために、PDFドキュメントが保護されている場合、その方法は役立たないようになります。このような問題を解決するために、強力かつ効果的なPDF編集機、Cisdem PDFMasterを薦めます。

名の通りに、ユーザーはそれを利用してPDFマスターのように様々なPDFドキュメントを処理し、手軽にPDFにある文書を編集したり、PDFを他の形式のファイルに変換したりすることができます。このソフトを使えば、保護されているPDFとスキャンしたPDFからテキストをコピーするのは簡単になります。

Cisdem PDFMasterを利用してPDFからテキストを抽出する方法

  1. ご利用のコンピュータでCisdem PDFMasterをダウンロードし、インストールします。
    無料ダウンロード Windows 11/10/8/7 無料ダウンロード macOS 10.13とそれ以降
  2. ファイルを開く」をクリックすることでCisdemでPDFを開きます。extract text from pdf cisdem01
  3. ネイティブPDFの場合、編集タブに移動し、その下にある編集アイコンをクリックします。
    保護されているPDFの場合、「編集を有効に」をクリックし、権限パスワードを入力してから「OK」をクリックします。extract text from pdf cisdem02
  4. マウスをドラッグしてコピーしたい文書を選択し、「Ctrl+C」を押します。もしくは、フローティングメニューにあるコピーアイコンをクリックします。extract text from pdf cisdem03
  5. Ctrl+V」押して選択した文書を別のファイルに貼り付けます。もしくは、ベージで右クリックし、ドロップダウンメニューから「貼り付け」を選択します。

Python

Googleの検索ボックスに「PDFからテキストを抽出」と入力したところ、たくさんの方がPythonでPDFからテキストを抽出する方法を知りたいと思っていました。PythonにはPyPDF2、PyMuPDF、PDFQuery、PDFMiner、PDFPlumberなど、複数のよく統合されたライブラリがあり、PDFから効率的にテキストを抽出するのに役立ちます。ここでは、よく使われているライブラリの1つ、PyPDF2を例にして説明します。

PyPDF2は無料のPythonオープンソースライブラリで、PDFを結合・分割することができ、さらにPDFからテキストを抽出できます。

PythonでPDFからテキストを抽出する方法

  1. Pythonをインストールします。ここをクリックしてPythonをダウンロードしてください。
  2. Pythonでpipをインストールします。ここをクリックしてpipをダウンロードし、下記のコードを実行してインストールを行います。
    pip.python get-pip.py
  3. PyPDF2をインストールします。下記のコマンドを入力すれば結構です。
    pip install PyPDF2
  4. PDFからテキストを抽出します。下記の通りにテキストを抽出できます。

    from PyPDF2 import PdfReader

    reader = PdfReader("example.pdf")

    page = reader.pages[0]

    print(page.extract_text())

  5. 抽出したいテキストの向きを指定することができます。例えば:

    # extract only text oriented up

    print(page.extract_text(0))

    # extract text oriented up and turned left

    print(page.extract_text((0, 80)))

 

まとめ

以上は様々なPDFからテキストを抽出・コピーする7つの方法でした。解決法を求めているたくさんのユーザーは専門的なOCRソフトをより信頼しています。このソフトは安全で、OCR処理がより速く、結果もより正確です。PDFファイルを処理する効率を向上させるために、拡張機能まで提供しています。

無料ダウンロード Windows 11/10/8/7 無料ダウンロード macOS 10.13とそれ以降

avatar
鈴木楓

本を読み、自分の感想を記録するのは鈴木の趣味です。そのため、Cisdemの編集者になるのは彼女に向いています。PDFの編集・変換方法についての文章を書くことに没頭しています。

コメント (0) 返信する

お名前 *

コメント *

人気記事

読めない漢字を調べる方法【読めそうで読めない漢字の入力法】 PDFをJPEGに変換する6つの方法 PDFをエクセルに貼り付ける/取り込む方法(Mac/Windows)
ホームページ > 【無料あり】PDFからテキストを抽出・コピーする7つの方法