最近個 Project 諗起有野想做,係需要用到 OCR 技術,所以睇了一下關於用 NodeJS 去 Extract 圖片入面的文字出來。 ### node-tesseract-ocr https://github.com/zapolnoch/node-tesseract-ocr#readme 呢個係有大神整好左現成的 nodejs lib,已經可以直接使用。而佢背後其實係 Call 緊 Linux 個 tesseract-ocr (都係要裝)。 要先裝好左 tesseract-ocr ```sh apt-get install tesseract-ocr ``` 然後再裝呢個 npm ```sh npm install node-tesseract-ocr ``` ### 使用法方 好簡單 ```js const tesseract = require("node-tesseract-ocr") const config = { lang: "eng", // default oem: 3, psm: 3, } async function main() { try { const text = await tesseract.recognize("image.jpg", config) console.log("Result:", text) } catch (error) { console.log(error.message) } } main() ``` ### 效果 實際用起上來比起我要的效果仲係差好遠,可能因為我輸入的圖片太多唔係文字的東西,所以認得唔係咁好。 但係如果只係 Crop 淨返文字的部份,佢可以可認得出 99% 的文字內容出來。 睇來要再試試其他方向先得。