3月 04, 2024 NodeJS
最近個 Project 諗起有野想做,係需要用到 OCR 技術,所以睇了一下關於用 NodeJS 去 Extract 圖片入面的文字出來。

### node-tesseract-ocr

https://github.com/zapolnoch/node-tesseract-ocr#readme

呢個係有大神整好左現成的 nodejs lib,已經可以直接使用。而佢背後其實係 Call 緊 Linux 個 tesseract-ocr (都係要裝)。

要先裝好左 tesseract-ocr

```sh
apt-get install tesseract-ocr
```

然後再裝呢個 npm

```sh
npm install node-tesseract-ocr
```

### 使用法方

好簡單

```js
const tesseract = require("node-tesseract-ocr")

const config = {
	lang: "eng", // default
	oem: 3,
	psm: 3,
}

async function main() {
	try {
		const text = await tesseract.recognize("image.jpg", config)
		console.log("Result:", text)
	} catch (error) {
		console.log(error.message)
	}
}

main()
```

### 效果

實際用起上來比起我要的效果仲係差好遠,可能因為我輸入的圖片太多唔係文字的東西,所以認得唔係咁好。

但係如果只係 Crop 淨返文字的部份,佢可以可認得出 99% 的文字內容出來。

睇來要再試試其他方向先得。
過去文章
2025 (9)
4 (5)
3 (1)
2 (3)
2024 (25)
11 (3)
10 (3)
9 (1)
3 (18)
2022 (6)
10 (1)
6 (2)
5 (1)
3 (1)
1 (1)
2021 (21)
11 (7)
7 (1)
6 (2)
5 (2)
4 (6)
3 (2)
2 (1)
2020 (92)
12 (1)
11 (2)
10 (4)
9 (10)
8 (5)
7 (1)
6 (3)
5 (1)
4 (4)
3 (25)
2 (7)
1 (29)
2019 (57)
12 (25)
11 (7)
9 (25)