Engineering Whitepaper

Perfect OCR
Start with Pre.

인공지능이 읽기 힘든 이미지를 텍스트 데이터의 황금률로 바꾸는 전처리 기술.

디지털 문서화의 핵심인 **OCR(Optical Character Recognition)** 기술은 비약적으로 발전했지만, 여전히 '입력값의 품질'이라는 원초적인 한계에 부딪힙니다. 스마트폰으로 대충 찍은 영수증, 노랗게 변색된 오래된 서적, 팩스로 전송받아 노이즈가 가득한 문서는 아무리 뛰어난 엔진이라도 오타를 유발합니다. Max-PDF의 **OCR Preprocessor**는 엔진에 데이터를 전달하기 전, 이미지에서 불필요한 정보를 제거하고 글자(Foreground)와 배경(Background)을 극명하게 분리하는 공학적 필터링을 수행합니다.

01. 왜 OCR 전처리가 필요한가?

OCR 엔진은 기본적으로 명암의 차이를 분석하여 글자의 형태를 추론합니다. 하지만 원본 이미지에는 엔진의 눈을 흐리게 만드는 수많은 요소가 포함되어 있습니다.

  • 그림자 및 불균일한 조명: 문서의 한쪽이 어둡게 찍히면 엔진은 그림자를 글자로 오인하거나 글자를 배경으로 파악합니다.
  • 압축 노이즈(Artifacts): JPG 포맷의 낮은 품질로 저장된 이미지는 글자 주변에 미세한 점들을 생성하여 획을 뭉개버립니다.
  • 색상 간섭: 배경에 색상이나 무늬가 있는 경우, 흑백으로 인식하는 과정에서 글자의 윤곽선이 훼손됩니다.

전처리는 이러한 방해 요소를 사전에 차단하여 인식률을 최소 40%에서 최대 200%까지 향상시킵니다.

02. 임계값(Threshold) 조절의 기술

Max-PDF 엔진의 핵심 컨트롤러는 임계값(Threshold) 슬라이더입니다. 이는 0부터 255 사이의 회색조(Grayscale) 값 중 어디를 기준으로 흑과 백을 나눌지 결정하는 기준점입니다.

임계값에 따른 변화

  • 낮은 임계값 (예: 100 이하): 배경이 아주 깨끗해지지만, 얇은 글씨체나 흐릿한 획이 사라질 위험이 있습니다.
  • 높은 임계값 (예: 180 이상): 글자가 두껍고 선명해지지만, 종이의 질감이나 미세한 오염물질까지 검은색 점으로 나타나 노이즈가 심해질 수 있습니다.

PRO TIP: 최적의 스팟 찾기

일반적인 스캔 문서는 **150-160** 사이에서 가장 좋은 결과를 보입니다. 만약 촬영된 사진의 조명이 어둡다면 값을 **120** 쪽으로 낮추어 배경을 강제로 날리고, 글씨가 너무 흐려 인식이 안 된다면 **175** 이상으로 높여 글자의 두께를 확보하세요.

03. 이진화(Binarization)의 수학적 원리

이진화는 다채로운 색상의 이미지를 오직 0(검은색)과 1(흰색)로만 구성된 데이터로 변환하는 과정입니다. Max-PDF는 단순 이진화를 넘어 픽셀 데이터를 실시간으로 재구성합니다.

전처리 엔진의 내부 로직

사용자가 슬라이더를 움직이는 순간, 브라우저의 캔버스 엔진은 모든 픽셀의 RGB 값을 추출하여 다음 공식을 적용합니다: $Gray = 0.299R + 0.587G + 0.114B$. 이후 추출된 $Gray$ 값이 설정된 임계값보다 크면 흰색($255$), 작으면 검은색($0$)으로 즉시 치환합니다. 이 과정은 **웹 어셈블리(Wasm)** 기술을 통해 대용량 PDF에서도 지연 시간 없이 초고속으로 수행됩니다.

04. 문서 유형별 최적 시나리오

성공적인 디지털 전환을 위해 문서의 상태에 따라 다음과 같은 설정을 권장합니다.

Type A: 오피스 스캔 문서

깨끗한 배경의 PDF는 기본값(150)으로도 충분합니다. 'High Contrast' 모드를 활성화하여 글자의 경계면을 더 날카롭게 만드세요.

Type B: 모바일 촬영 사진

그림자가 포함된 사진은 임계값을 평소보다 20단위 낮게 설정하세요. 'Monochrome' 모드를 사용하여 불필요한 색상 노이즈를 제거하는 것이 핵심입니다.

05. 로컬 엔진만이 제공하는 절대 보안

OCR 전처리가 필요한 문서들은 대개 계약서, 신분증, 재무제표 등 극도의 보안을 요구하는 개인정보입니다. 많은 온라인 변환 도구들이 서버로 파일을 전송할 때 데이터 유출의 리스크가 발생합니다.

Privacy First Policy

Max-PDF의 전처리 기술은 **Zero-Server** 원칙을 고수합니다. 업로드 버튼을 눌러도 파일은 당신의 컴퓨터를 떠나지 않습니다. 모든 픽셀 계산과 이미지 렌더링은 당신의 웹 브라우저 메모리 내에서만 이루어지며, 브라우저를 닫는 순간 모든 데이터는 흔적 없이 소멸됩니다. 기업의 기밀 문서를 안심하고 처리하세요.