大量紙張文件數碼化:高效 x 多語言 x 圖表轉表格 DeepSeek-OCR Windows 小工具

Author:

Published:

- 廣告 -

AI 時代好多公司都想在業務上利用大型語言模型,例如查詢公司資料、處理程序、分析資料洞察機遇。不過要以公司資料來訓練模型,最令人頭痛的就是一大堆紙本文件。DeepSeek-AI 10 月開源的 DeepSeek-OCR 就備受注目,因為它採用嶄新手法壓縮文字,從而提升處理大量文字的效率,更能同時處理多國語言、表格、圖表、化學公式。不過由於技術要求高,一般人難以直接使用,又不想將公司的敏感文件上傳到雲端服務。幸好有位日本開發者開發了一個小工具程式,簡單安裝就能在本機使用這個模型將文件數碼化。

DeepSeek-OCR 使用嶄新的「上下文光學壓縮」(Context Optical Compression),反過來將文字以圖像方式壓縮,能將原本需 2,000-5,000 個文字 token 的頁面壓縮至 200-400 個視覺 token,壓縮率達 10x 甚至 20x,同時維持 96% 以上的 OCR 準確度。

DeepSeek-OCR 辦識出來的文字會以 Markdown 格式來保存文件原來的格式,不單同時支援近 100 種語言、還能辨識圖表轉化為 HTML 表格、化學公式轉化為 SMILES 字串,尤其是在處理多達 10 萬個 token 的文件時更顯優勢。

- 廣告 -

NEZ-DeepSeek-OCR-win-lite

雖然 DeepSeek-OCR 是開源模型,不過要使用它不單要有較好的圖像顯示卡,也要安裝 Python、Git 等程式,對一般人來說技術門檻較高。由日本開發人 Rootport 開發的 NEZ-DeepSeek-OCR-win-lite 是個簡易版 Windows GUI 用戶介面,只要簡單解壓兩個 zip 檔放在指定文件夾內就能使用。

NEZ-DeepSeek-OCR-win-lite 可以在 Windows 11 上運行,但需要一張最少有 12GB VRAM 的顯示卡,未來可能會推出較少 VRAM 甚至可單靠 CPU 運行的版本。儲存空間最少 18GB,但建議有 20GB。

安裝流程

大家可以到作者的 HuggingFace 程式庫下載兩個 zip 檔:程式檔 NEZ-DSOCR-winlite.zip 和模型檔 DeepSeek-OCR.zip。由於兩個 zip 檔加起來有 17-18GB,大家要給點耐性。

將 NEZ-DSOCR-winlite.zip 解壓到任意名稱的文件夾(例: NEZ-DeepSeek-OCR-win-lite ),再將 DeepSeek-OCR.zip 解壓到 NEZ-DeepSeek-OCR-win-lite\NEZ\ 文件夾內即完成安裝(夠簡單吧?)。

任何名稱文件夾\NEZ-DSOCR-winlite
├─NEZ-DSOCR-winlite
│      NEZ-DSOCR-winlit.exe ← 程式本體
│
├─asset
├─NEZ
│     DeepSeek-OCR ← 將模型解壓放到這個文件夾
│      settings.json.txt
│
├─NEZ.Shell 
└─server

使用時只要到 NEZ-DSOCR-win-lite\NEZ-DSOCR-winlite\NEZ-DSOCR-winlite.exe 即可。首次運行時會需要一些時間組建程序和伺服器,以後執行就會快很多。

使用方法

NEZ-DeepSeek-OCR-win-lite 用法很簡單,只要將文件的圖片拖放到「1. 画像を選択(選擇圖像)」,按照文件大小和內容選擇「Standard」、「Long text」、「Charts & Figures」,按「OCRを実行(執行 OCR)」,結果就會在右邊以 Markdown 格式顯示出來。

- 廣告 -
簡單三個步驟就能辨識圖像裡的文字。
簡單三個步驟就能辨識圖像裡的文字。
大量繁體中文都沒問題,而且會以 Markdown 格式保留原文件的格式。
大量繁體中文都沒問題,而且會以 Markdown 格式保留原文件的格式。

如果是 OCR 表格或圖表的話,都會轉換成 HTML 格式表格 (table),可以直接使用。辨識表格當然沒有問題,但辨識圖表方面,如果圖表上沒有在每個節點上標註數值,DeepSeek-OCR 就會憑圖像推斷,準繩度會打折,但項目數量會準確,修改起來還是比較方便的。

能將圖表轉換成表格,不過如果節點沒有標示數值,或者圖表比較複雜(如同時包含長條圖和折線圖),準繩度會打折扣,不過項目數仍會是正確的,修改起來也比重頭建立表格輕鬆一點。
能將圖表轉換成表格,不過如果節點沒有標示數值,或者圖表比較複雜(如同時包含長條圖和折線圖),準繩度會打折扣,不過項目數仍會是正確的,修改起來也比重頭建立表格輕鬆一點。

如果有大量文件的話,還可以將文件的圖像全放在一個文件夾內,在介面的「フォルダパス(文件夾路徑)」欄位手動輸入該文件夾的完整路徑,按「まとめてOCRを実行(一併執行 OCR)」,就能一口氣辨識所有文件圖像的內容。

- 廣告 -
Mickey Chan
Mickey Chan
愛模擬飛行、希望終有一日回到單車上的宅,眼鏡娘控。座右銘: 1.膽固醇跟美味是成正比的; 2.所有人都可以騙,但絕對不能騙自己; 3.賣掉的貨才是錢,不賣的收藏品不值一文; 4.踩單車,是為了吃更多美食! 5.正義的話語,不一定出自正義之人的口;
- 廣告 -

Related Articles

- 廣告 -

Recent Articles

- 廣告 -

最新影片

- 廣告 -