19Site

3月 04, 2024 NodeJS
最近個 Project 諗起有野想做，係需要用到 OCR 技術，所以睇了一下關於用 NodeJS 去 Extract 圖片入面的文字出來。

### node-tesseract-ocr

https://github.com/zapolnoch/node-tesseract-ocr#readme

呢個係有大神整好左現成的 nodejs lib，已經可以直接使用。而佢背後其實係 Call 緊 Linux 個 tesseract-ocr (都係要裝)。

要先裝好左 tesseract-ocr

```sh
apt-get install tesseract-ocr
```

然後再裝呢個 npm

```sh
npm install node-tesseract-ocr
```

### 使用法方

好簡單

```js
const tesseract = require("node-tesseract-ocr")

const config = {
	lang: "eng", // default
	oem: 3,
	psm: 3,
}

async function main() {
	try {
		const text = await tesseract.recognize("image.jpg", config)
		console.log("Result:", text)
	} catch (error) {
		console.log(error.message)
	}
}

main()
```

### 效果

實際用起上來比起我要的效果仲係差好遠，可能因為我輸入的圖片太多唔係文字的東西，所以認得唔係咁好。

但係如果只係 Crop 淨返文字的部份，佢可以可認得出 99% 的文字內容出來。

睇來要再試試其他方向先得。