最近個 Project 諗起有野想做,係需要用到 OCR 技術,所以睇了一下關於用 NodeJS 去 Extract 圖片入面的文字出來。
### node-tesseract-ocr
https://github.com/zapolnoch/node-tesseract-ocr#readme
呢個係有大神整好左現成的 nodejs lib,已經可以直接使用。而佢背後其實係 Call 緊 Linux 個 tesseract-ocr (都係要裝)。
要先裝好左 tesseract-ocr
```sh
apt-get install tesseract-ocr
```
然後再裝呢個 npm
```sh
npm install node-tesseract-ocr
```
### 使用法方
好簡單
```js
const tesseract = require("node-tesseract-ocr")
const config = {
lang: "eng", // default
oem: 3,
psm: 3,
}
async function main() {
try {
const text = await tesseract.recognize("image.jpg", config)
console.log("Result:", text)
} catch (error) {
console.log(error.message)
}
}
main()
```
### 效果
實際用起上來比起我要的效果仲係差好遠,可能因為我輸入的圖片太多唔係文字的東西,所以認得唔係咁好。
但係如果只係 Crop 淨返文字的部份,佢可以可認得出 99% 的文字內容出來。
睇來要再試試其他方向先得。