- Nhận dạng được nhiều ngôn ngữ (ngôn ngữ trên bộ chữ cái la-ting), đối với chữ in tiếng anh, tiếng việt yêu cầu độ chính xác cao (chữ in tối thiểu 97%, số viết tay tối thiểu 90%)
- Hỗ trợ kết xuất tài liệu số ra các định dạng phổ biến như Microsoft Office files, PDF,...
2/-Tự động bóc tách thông tin
- Có khả năng trích xuất dữ liệu có nhiều biến thể dựa trên công nghệ xử lý ngôn ngữ tự nhiên.
- Có khả năng tự động bóc tách các trường thông tin tiếng Việt trên các văn bản pháp quy, văn bản hành chính như: số văn bản, ngày văn bản, trích yếu, cơ quan ban hành, người ký, chức vụ người ký, nơi nhận.
3/- Xử lý tự động theo lịch trình đã cài đặt
Quá trình nhận dạng có thể được thực hiện hoàn toàn tự động. Với lịch trình đã lập, hệ thống nhận dạng có thể tự động làm việc 24/7 mà không cần đến sự can thiệp của người dùng.
- Hệ thống có cơ chế cho phép thiết lập độ ưu tiên xử lý theo từng luồng công việc, có thể hủy yêu cầu nhận dạng nếu cần thiết: Các yêu cầu số hóa dữ liệu quan trọng, có độ ưu tiên cao sẽ được ưu tiên xử lý trước (hệ thống được hiệu chỉnh tùy theo yêu cầu thực tế).
- Hệ thống phải có giao diện cho phép người quản trị xem hoạt động của hệ thống, trạng thái của từng yêu cầu nhận dạng, ở đó, người quản trị có thể xóa/hủy một yêu cầu nhận dạng, xem nhật ký công việc để biết được tất cả các yêu cầu nhận dạng đã thực hiện.
4/- Khả năng mở rộng
- Được thiết kế để dễ dàng mở rộng quy mô xử lý (tính theo số lượng trang tài liệu trên một đơn vị thời gian), giải pháp có thể đáp ứng các nhu cầu xử lý lớn trong thời gian ngắn bằng cách lắp thêm thiết bị phần cứng (CPU, GPU,….) mà không cần phải cấu hình lại hệ thống. Có thể dễ dàng nâng cấp hệ thống bằng cách triển khai thêm máy chủ.
5/- Quản lý tập trung
- Giải pháp có giao diện quản lý từ xa, giao diện này giữ vai trò là điểm quản trị tập trung, cho phép người quản trị đặt cấu hình các yêu cầu xử lý, các tham số nhận dạng, lịch trình thực hiện, khuôn dạng kết quả nhận dạng, cũng như tạo lập các luồng xử lý:
6/- Hoạt động ổn định
Với mục đích đảm bảo khả năng xử lý khối lượng công việc lớn và liên tục, giải pháp được xây dựng để hoạt động luôn ổn định và có độ tin cậy cao.
7/- Công cụ tích hợp mềm dẻo
- Hệ thống phải có khả năng thu nạp, tiếp nhận tài liệu (ảnh) đầu vào từ các nguồn như thư mục hay từ phần mềm quét văn bản, tài liệu; Tích hợp hệ thống khách qua API
- Hệ thống phải có khả năng làm việc với hầu hết các loại ảnh đầu vào thường gặp trong thực tế hiện nay như TIFF (đen/trắng, xám, màu), JPEG, JPEG 2000 part 1 (xám, màu), BMP (đen/trắng, xám, màu), PDF, PNG (đen/trắng, xám, màu);
- Hệ thống cần có khả năng xử lý ảnh mạnh và có khả năng tiền xử lý ảnh như chỉnh ảnh nghiêng, quay ảnh ngược, loại bỏ nhiễu trên ảnh, loại bỏ nền (background) ảnh... làm cho ảnh có chất lượng cao hơn trước khi thực hiện việc nhận dạng.
8/- Khả năng kết xuất
- Có khả năng kết xuất kết quả biên mục vào CSDL ORACLE, các định dạng CSV, XML hay các hệ thống phần mềm khác;
- Có khả năng gửi kết quả biên mục tới hệ thống trung tâm.
- Có khả năng kết xuất kết quả nhận dạng ra định dạng PDF hai lớp
Có khả năng kết xuất kết quả nhận dạng ra định dạng PDF và PDF/A hai lớp, là định dạng gồm 2 lớp: lớp trên là ảnh quét, lớp dưới là text nhận dạng được.
- Có khả năng kết xuất kết quả biên mục ra định dạng JSON, XML.
9/- Bản quyền
a/-Bản quyền giới hạn: Theo số trang văn bản, số lượng máy chủ cài đặt, số lượng người dùng và thời hạn sử dụng
b/-Bản quyền vĩnh viễn không giới hạn