logo

Python을 사용하여 PDF 파일에서 텍스트 추출

여러분 모두 PDF가 무엇인지 잘 알고 있어야 합니다. 실제로, 이는 가장 중요하고 널리 사용되는 디지털 미디어 중 하나입니다. PDF는 다음을 의미합니다. 휴대용 문서 형식 . 그것은 사용한다 .pdf 확대. 소프트웨어, 하드웨어 또는 운영 체제에 관계없이 문서를 안정적으로 제시하고 교환하는 데 사용됩니다.

두 개의 Python 라이브러리를 사용하여 PDF 파일에서 텍스트를 추출합니다. pypdf 그리고 PyMuPDF , 이 기사에서는.



pypdf 라이브러리를 사용하여 PDF 파일에서 텍스트를 추출합니다.

파이썬 패키지 pypdf 필요한 것보다 더 많은 일을 할 수 있지만 원하는 것(텍스트 추출)을 달성하는 데 사용할 수 있습니다. 이 패키지는 PDF 파일을 생성, 해독 및 병합하는 데에도 사용할 수 있습니다. 메모: 자세한 내용은 다음을 참조하세요. Python에서 PDF 파일 작업

설치

이 패키지를 설치하려면 터미널에 아래 명령을 입력하세요.

pip install pypdf>

예: PDF 입력: 추출-PDF-텍스트-파이썬



파이썬3






세 번째 정규형

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

산출:

추출-PDF-파이썬

위의 코드를 덩어리로 이해해 보겠습니다.

reader = PdfReader('example.pdf')>
  • 우리는 객체를 만들었습니다 PDF리더 의 수업 pypdf 기준 치수.
  • 그만큼 PDF리더 클래스는 pdf 파일 경로의 필수 위치 인수를 사용합니다.
print(len(reader.pages))>
  • 페이지 속성은 다음 목록을 제공합니다. PageObject . 따라서 여기서는 내장된 기능을 사용할 수 있습니다. 오직() PDF 파일의 페이지 수를 가져오는 Python 함수입니다.
page = reader.pages[0]>
  • 이제 다음과 같이 리더.페이지 다음의 목록입니다. PageObject , 우리는 구체적인 결과를 얻을 수 있습니다 페이지 페이지의 색인을 탭하여 PDF를 확인하세요. Python 목록 인덱싱은 0부터 시작하므로 리더.페이지[0] pdf 파일의 첫 번째 페이지를 제공합니다.
text = page.extract_text() print(text)>
  • 페이지 객체에는 기능이 있습니다 추출_텍스트() PDF 페이지에서 텍스트를 추출합니다.

PyMuPDF 라이브러리를 사용하여 PDF 파일에서 텍스트 추출.

PyMuPDF XPS, PDF, CBR 및 CBZ와 같은 파일 형식을 지원하는 Python 라이브러리입니다. 하지만 지금은 이 기사에서는 PDF(Portable Document Format) 파일에 집중하겠습니다.

설치

pip install pymupdf pip install fitz>

PDF에서 텍스트를 추출하려면 다음 단계를 따라야 합니다.

  1. 라이브러리 가져오기
  2. 문서 열기
  3. 텍스트 추출

메모: 여기서는 Sample.pdf를 사용하고 있습니다. PDF를 얻으려면 아래 링크를 사용하십시오.

샘플.pdf – 링크

1. 라이브러리 가져오기

플로피 디스크

파이썬3




import> fitz>

>

>

2. 문서개설

파이썬3


100.00개 중 15개



doc>=> fitz.>open>(>'sample.pdf'>)>

>

>

여기서는 다음과 같은 객체를 만들었습니다. 문서 , 파일 이름은 Python 문자열이어야 합니다.

3. 텍스트 추출

파이썬3




npm 클린 캐시
for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

>

>

여기서는 PDF의 페이지를 반복하고 다음을 사용했습니다. get_text() 파일에서 각 페이지를 추출하는 방법.

텍스트를 추출하는 모든 코드

파이썬3

자바 규칙 명명




import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

>

>

산출:

결론

우리는 두 개의 Python 라이브러리를 보았습니다. pypdf 그리고 PyMuPDF , PDF 파일에서 텍스트를 추출할 수 있습니다. 위의 두 라이브러리 중 선호하는 라이브러리에 대해 댓글을 달아주세요.