Số hóa tài liệu

Số hóa tài liệu là gì

Các năm gần đây, một trong các biện pháp quản lý tài liệu lưu trữ đã được nhắc đến là số hóa tài liệu và trong xã hội đã manh nha thị trường các dịch vụ số hóa tài liệu lưu trữ. Luật lưu trữ do Quốc hội thông qua ngày 11/11/2011 đã quy định về tài liệu lưu trữ điện tử, không quy định chi tiết đến tài liệu lưu trữ số hóa. Chúng ta có thể hiểu tóm tắt tài liệu điện tử là một bản ghi được tạo ra, gửi, chuyển giao, nhận được, hoặc lưu trữ, sử dụng bằng phương tiện điện tử. Tài liệu điện tử được hình thành từ hai nguồn chính:

–           Một là, bản ghi các thông diệp dữ liệu được khởi tạo từ đầu;

–           Hai là, bản ghi các dữ liệu số từ tài liệu truyền thống.

Vậy, tài liệu số hóa có nguồn gốc từ tài liệu điện tử, nhưng không đồng nhất với tài liệu điện tử. Tài liệu số hóa trở thành tài liệu điện tử qua quá trình số hóa dữ liệu. Đây là quá trình chuyển các dạng dữ liệu truyền thống như các bản viết tay, bản in trên giấy, hình ảnh… sang chuẩn dữ liệu trên các phương tiện điện tử và được các phương tiện đó nhận biết được gọi là số hóa dữ liệu và chúng trở thành dữ liệu số.

Từ đó, về mặt lý thuyết, ta hiểu số hóa dữ liệu là quá trình chuyển các dạng dữ liệu truyền thống sang chuẩn dữ liệu trên máy tính và được máy tính nhận biết.

Để việc số hóa dữ liệu được hiệu quả và chính xác thì việc áp dụng quy trình số hóa theo chuẩn là điều cần thiết.

Quy trình số hóa dữ liệu 2D là quá trình chuyển các dạng dữ liệu truyền thống như các bản viết tay, bản in trên giấy, hình ảnh… sang chuẩn dữ liệu trên các phương tiện điện tử và được các phương tiện đó nhận biết được gọi là số hóa dữ liệu và chúng trở thành dữ liệu số.

Từ đó, về mặt lý thuyết, ta hiểu số hóa dữ liệu 2D là quá trình chuyển các dạng dữ liệu truyền thống sang chuẩn dữ liệu trên máy tính và được máy tính nhận biết. Để việc số hóa dữ liệu được hiệu quả và chính xác thì việc áp dụng quy trình số hóa theo chuẩn là điều cần thiết.

Số hóa dữ liệu giúp việc lưu trữ, truy xuất, chia sẻ, tìm kiếm thông tin một cách dễ dàng, linh hoạt trong việc chuyển đổi sang các loại dữ liệu số khác nhau, giảm chi phí tối đa cho việc quản lý, không gian lưu trữ và có khả năng chỉnh sửa và tái sử dụng dữ liệu. Do vậy việc xây dựng nên quy trình số hóa theo tiêu chuẩn quốc tế và có sự điều chỉnh để phù hợp với Việt Nam là điều cần thiết và cấp bách. Tránh sau này các dữ liệu số hóa không đồng bộ và không theo quy trình chung. Việc xây dựng tiêu chuẩn quốc gia về “Quy trình tạo lập dữ liệu số 2D” góp phần phát triển công nghiệp nội dung số Việt Nam theo Quyết định số 50/2009/QĐ-TTg về Quản lý Chương trình phát triển công nghiệp phần mềm và Chương trình phát triển công nghiệp nội dung số Việt Nam

Tất cả hình ảnh được số hóa nên được chỉ định dữ liệu đặc tả cho quá trình số hóa dữ liệu 2D và hỗ trợ các quy trình nghiệp vụ đang diễn ra. Các tổ chức, cơ quan có thể đưa ra các yêu cầu cụ thể và để tối đa hóa sự kế thừa các giá trị dữ liệu từ các hệ thống và thiết bị hiện có. Trong hoạt động hành chính, dữ liệu 2D chủ yếu tập trung vào ảnh quét hoặc ảnh chụp mà dữ liệu ảnh chủ yếu lấy từ nguồn số hóa. Việc xây dựng tiêu chuẩn về Quy trình tạo lập metadata mô tả dữ liệu 2D giúp đưa ra được quy trình tạo lập dữ liệu đặc tả, các bước cần thiết, các yêu cầu bắt buộc cho mỗi bước trong quy trình để đảm bảo cho dữ liệu đặc tả được tạo ra đúng thời điểm và đúng tiêu chuẩn kỹ thuật.

Nhu cầu thực tế và khả năng áp dụng: Cần có bộ tiêu chuẩn kỹ thuật quốc gia về quy trình tạo lập dữ liệu đặc tả trong quy trình số hóa để áp dụng tại Việt Nam.

Thực tế số hóa tài liệu

Lĩnh vực số hóa đang là điểm nóng, số lượng tài liệu cần số hóa ngày 1 nhiều. Theo sự chỉ đạo của Chính phủ, năm 2013 một số bộ ban ngành, đơn vị đứng đầu đã bắt đầu áp dụng số hóa cho kho tài liệu lưu trữ của mình. Các doanh nghiệp lớn trong lĩnh vực kiểm toán, ngân hàng, bảo hiểm cũng đã quan tâm tới việc số hóa tài liệu khi lượng hồ sơ giấy tờ đó ngày một tăng lên với số lượng lớn. Ngoài ra còn có các đơn vị đặc thù như Bộ công an, quân đội, trường học cũng đã bắt đầu vào việc tư vấn, lập dự toán cho một dự án số hóa tổng thể bao gồm cả phần mềm chuyên dụng cho đơn vị mình…

Tại Việt nam hiện tại có khá nhiều đơn vị doanh nghiệp, cơ quan nhà nước đưa ra các giải pháp quy trình số hóa của riêng họ. Do mục tiêu số hóa tài liệu khác nhau, mà có thể đặt ra các bước số hóa tài liệu khác nhau phù hợp đối với từng cơ quan, tổ chức.

Cục Văn thư và Lưu trữ Nhà nước đặt ra quy trình số hóa tài liệu lưu trữ gồm 12 bước theo Quyết định số 176/QĐ-VTLTNN ngày 21/10/2011 với yêu cầu phân loại ảnh và sao lưu ảnh. Nhưng nếu với yêu cầu phổ thông, quá trình thực hiện số hóa tài liệu lưu trữ chỉ giản đơn có 5 bước là:

Bước 1. Nhận tài liệu lưu trữ đã được lựa chọn để thực hiện số hóa. Việc lựa chọn này là cần thiết, vì không có một cơ quan, tổ chức nào lại có thể số hóa một lần cả kho lưu trữ của mình. Tiêu chuẩn để số hóa tùy thuộc vào mục tiêu của chủ sở hữu tài liệu lưu trữ. Ví dụ, số hóa để bảo hiểm tài liệu lưu trữ, thì tài liệu được chọn phải là tài liệu thuộc diện quý, hiếm theo quy định của pháp luật.

Bước 2. Chuẩn bị tài liệu. Công việc bao gồm:

– Lấy ra các bìa cứng, ghim kẹp; làm phẳng các trang tài liệu; Phân loại TL, tách riêng những TL rách, hư hỏng, nếu việc số hóa áp dụng cho các hồ sơ lưu trữ và dùng kỹ thuật scan từng tờ tài liệu. Nếu việc số hóa các tư liệu lưu trữ dạng đóng quyển, thì có thể áp dụng công nghệ mới tiến bộ hơn như Bookscan cho việc số hóa tài liệu lưu trữ.

Bước 3. Scan và thiết lập hệ thống ảnh; đặt tên file; đặt định dạng; đóng, ghim lại theo tổ chức tài liệu ban đầu; tạo siêu siêu dữ liệu (metadata). Đây là bước quyết định nhất để chuyển đổi tài liệu truyền thống sang tài liệu số hóa. Danh mục tài liệu số hóa được lập và nhúng (gắn) và tài liệu thông qua một phần mềm ứng dụng và tạo ra metadata. Đồng thời, tài liệu được đặt định dạng theo sự lựa chọn được định trước.

Bước 4. Kiểm tra chất lượng tài liệu đã được số hóa và làm lại những ảnh không đạt yêu cầu.

Bước 5. Nghiệm thu, bàn giao tài liệu lưu trữ.

Công việc bao gồm bàn giao tài liệu số hóa và bàn giao tài liệu gốc. Nếu tài liệu số hóa là tài liệu lưu trữ của một Lưu trữ lich sử thì với những văn bản không đóng quyển trong một hồ sơ, việc bàn giao phải được kiểm tra chặt chẽ từng trang tài liệu để bảo đảm đầy đủ như tài liệu ban đầu đã nhận ở bước 1.

Tại các đơn vị khác nhau quy trình số hóa thường gắn liền với thiết bị số hóa mà họ cung cấp, ví dụ tại ĐHQGHN và 1 số doanh nghiệp khác quy trình hiện đang được sử dụng cho quy trình số hóa:

Hình 1. Quy trình sử dụng trong thư viện ĐHQGHN và 1 số doanh nghiệp tư nhân

Hoặc bên 1 số trường đại học, thư viện khác

Hình 2. Quy trình số hóa tài 1 số thư viện tài Việt nam

Hiện nay lĩnh vực số hóa trong các bộ ban ngành cũng đang là điểm nóng, theo sự chỉ đạo của chính phủ Bộ Tài nguyên và Môi trường đã ban hành thông tư số 26/2014/TT-BTNMT về Quy trình và định mức kinh tế kỹ thuật xây dựng cơ sở dữ liệu tài nguyên môi trường. Dưới đây là sơ đồ quy trình xây dựng cơ sở dữ liệu tài nguyên môi trường:

Hình 3 – Quy trình số hóa tài liệu của Bộ Tài nguyên và Môi trường

Việc xây dựng cơ sở dữ liệu tài nguyên môi trường là dựa trên thông tin, dữ liệu từ các kết quả điều tra cơ bản của các lĩnh vực tài nguyên và môi trường đã được kiểm tra, nghiệm thu và được lưu trữ tại cơ quan chuyên môn theo một hay nhiều khuôn dạng khác nhau.

Các nội dung khảo sát, thu thập thông tin dữ liệu được thực hiện theo các qui định hiện hành.

1. Quy trình chi tiết xây dựng CSDL tài nguyên môi trường

1.1   Rà soát, phân tích nội dung thông tin dữ liệu

1.1.1  Rà soát, phân loại các thông tin dữ liệu

– Mục đích

Rà soát, phân loại và đánh giá chi tiết các thông tin dữ liệu phục vụ xây dựng cơ sở dữ liệu phù hợp với yêu cầu.

– Các bước thực hiện

+ Rà soát, đánh giá và phân loại chi tiết dữ liệu đã được chuẩn hóa và chưa được chuẩn hóa.

+ Chuẩn bị dữ liệu mẫu.

– Sản phẩm

+ Báo cáo rà soát, phân loại và đánh giá các thông tin dữ liệu

+ Bộ dữ liệu mẫu

1.1.2   Phân tích nội dung thông tin dữ liệu

– Mục đích

Phân tích, xác định chi tiết các thông tin dữ liệu phục vụ thiết kế và lập dự toán xây dựng cơ sở dữ liệu.

– Các bước thực hiện

+ Xác định danh mục CSDL

+ Xác định chi tiết các thông tin cho từng ĐTQL

+ Xác định chi tiết các quan hệ giữa các ĐTQL

+ Xác định chi tiết các tài liệu quét và các tài liệu dạng giấy cần nhập vào CSDL từ bàn phím

+ Xác định khung danh mục dữ liệu, dữ liệu đặc tả sử dụng trong cơ sở dữ liệu.

+ Xác định các yếu tố ảnh hưởng đến việc xây dựng CSDL.

+ Qui đổi đối tượng quản lý

– Sản phẩm

+ Danh mục đối tượng quản lý và các thông tin chi tiết

+ Danh mục chi tiết các tài liệu quét và giấy cần nhập vào CSDL

+ Báo cáo qui định khung danh mục dữ liệu, dữ liệu đặc tả

+ Báo cáo qui đổi đối tượng quản lý.

1.2  Thiết kế mô hình cơ sở dữ liệu

Trường hợp nhiệm vụ, dự án có cả hai nội dung xây dựng CSDL và xây dựng ứng dụng phần mềm thì các bước “Thiết kế mô hình cơ sở dữ liệu” và “nhập dữ liệu mẫu để kiểm tra mô hình cơ sở dữ liệu” chỉ thực hiện một lần ở bước này.

– Mục đích

+ Thiết kế mô hình danh mục dữ liệu, dữ liệu đặc tả theo  (chuẩn dữ liệu, khung dữ liệu) dựa trên kết quả rà soát, phân tích.

+ Thiết kế mô hình cơ sở dữ liệu dựa trên kết quả rà soát, phân tích.

– Các bước thực hiện

+ Thiết kế mô hình danh mục dữ liệu, dữ liệu đặc tả.

+ Thiết kế mô hình cơ sở dữ liệu:

    – Thiết kế mô hình cơ sở dữ liệu

    – Nhập dữ liệu mẫu để kiểm tra mô hình cơ sở dữ liệu.

–  Sản phẩm

+ Mô hình cơ sở dữ liệu, mô hình danh mục dữ liệu, dữ liệu đặc tả dưới dạng XML

+ Báo cáo thuyết minh mô hình danh mục dữ liệu, dữ liệu đặc tả

+ Báo cáo thuyết minh mô hình CSDL

+ Báo cáo kết quả kiểm tra mô hình CSDL trên dữ liệu mẫu

1.3 Tạo lập dữ liệu cho danh mục dữ liệu, dữ liệu đặc tả

– Mục đích

Tạo lập nội dung dữ liệu cho danh mục dữ liệu, dữ liệu đặc tả dựa trên kết quả rà soát, phân tích và thiết kế

– Các bước thực hiện

+ Tạo lập nội dung cho danh mục dữ liệu

+ Tạo lập nội dung cho dữ liệu đặc tả

– Sản phẩm

+ CSDL danh mục dữ liệu, dữ liệu đặc tả đã nhập đủ nội dung

+ Báo cáo kết quả thực hiện

1.4  Tạo lập dữ liệu cho CSDL

1.4.1  Chuyển đổi dữ liệu

– Mục đích

Chuyển đổi dữ liệu dạng số (không gian và phi không gian) đã được chuẩn hóa vào CSDL.

– Các bước thực hiện

+ Đối với dữ liệu không gian dạng số chưa được chuẩn hóa thì việc chuẩn hóa dữ liệu được thực hiện theo các qui định của từng chuyên ngành trước khi thực hiện chuyển đổi vào CSDL (biên tập bản đồ, chuyển đổi tọa độ…).

– Đối với dữ liệu phi không gian dạng số chưa được chuẩn hóa:

+ Chuẩn hóa phông chữ theo tiêu chuẩn TCVN 6909

+ Chuẩn hóa dữ liệu phi không gian theo thiết kế mô hình cơ sở dữ liệu

– Chuyển đổi dữ liệu dạng số đã chuẩn hóa vào cơ sở dữ liệu.

– Sản phẩm

+ Dữ liệu dạng số trước khi chuyển đổi.

+ Dữ liệu phi không gian trước khi chuyển hóa

+ Cơ sở dữ liệu đã được chuyển đổi

+ Báo cáo kết quả thực hiện chuyển đổi dữ liệu

1.4.2  Quét (chụp) tài liệu

– Mục đích

Quét (chụp) các tài liệu để phục vụ đính kèm vào các trường thông tin cho các lớp, bảng dữ liệu của ĐTQL.

–  Các bước thực hiện

+ Quét (chụp) các tài liệu

+ Xử lý và đính kèm tài liệu quét.

– Sản phẩm

Danh mục các tài liệu quét và đã được đính kèm vào các lớp, bảng dữ liệu của các ĐTQL

1.4.3  Nhập, đối soát dữ liệu

– Mục đích

Nhập, đối soát các dữ liệu từ dạng giấy vào cơ sở dữ liệu đã được thiết kế. Dữ liệu sau khi nhập vào cơ sở dữ liệu phải được đối chiếu, kiểm soát để đảm bảo tính chính xác dữ liệu

– Các bước thực hiện

+ Đối với các dữ liệu không gian dạng giấy: Số hóa theo qui định chuyên ngành sau đó thực hiện bước “Chuyển đổi dữ liệu”.

+ Đối với nhập dữ liệu dạng giấy (phi không gian):

  • Nhập dữ liệu có cấu trúc cho đối tượng phi không gian
  • Nhập dữ liệu có cấu trúc cho đối tượng không gian
  • Nhập dữ liệu phi cấu trúc cho đối tượng phi không gian
  • Nhập dữ liệu phi cấu trúc cho đối tượng không gian

+ Đối soát dữ liệu:

  • Dữ liệu có cấu trúc đã nhập cho đối tượng phi không gian
  • Dữ liệu có cấu trúc đã nhập cho đối tượng không gian
  • Dữ liệu phi cấu trúc đã nhập cho đối tượng phi không gian
  • Dữ liệu phi cấu trúc đã nhập cho đối tượng không gian

– Sản phẩm

+ Dữ liệu dạng giấy dùng để nhập dữ liệu

+ Báo cáo đối soát dữ liệu và các vấn đề phát sinh trong quá trình nhập dữ liệu

+ Cơ sở dữ liệu đã được nhập đầy đủ nội dung

+ Danh mục dữ liệu để cung cấp, khai thác, sử dụng phục vụ yêu cầu quản lý nhà nước.

1.5  Biên tập dữ liệu

– Mục đích

Biên tập CSDL theo qui định

– Các bước thực hiện

+ Đối với dữ liệu không gian

  • Tuyên bố đối tượng
  • Sửa lỗi tương quan của dữ liệu không gian

+ Đối với dữ liệu phi không gian: Hiệu đính nội dung

+ Trình bày hiển thị dữ liệu không gian

– Sản phẩm

+ CSDL đã được biên tập

+ Tệp trình bày hiển thị dữ liệu không gian

  1. Kiểm tra sản phẩm

– Mục đích

Kiểm tra CSDL đã được tạo lập đảm bảo tính đầy đủ, chính xác, phù hợp với nội dung đã được phê duyệt.

– các bước thực hiện

+ Kiểm tra mô hình CSDL

+ Kiểm tra nội dung CSDL

  • Kiểm tra dữ liệu không gian
  • Kiểm tra dữ liệu phi không gian

+ Kiểm tra danh mục dữ liệu, dữ liệu đặc tả

– Sản phẩm

+ Báo cáo kết quả kiểm tra sản phẩm

+ Báo cáo kết quả sửa chữa

+ Báo cáo kiểm tra, nghiệm thu chất lượng, khối lượng

1.7   Phục vụ nghiệm thu và giao nộp sản phẩm

– Mục đích

Phục vụ nghiệm thu và bàn giao các sản phẩm đã kiểm tra.

– Các bước thực hiện

+ Lập báo cáo tổng kết nhiệm vụ và phục vụ nghiệm thu sản phẩm đã kiểm tra.

+ Đóng gói các sản phẩm dạng giấy và dạng số

+ Giao nộp sản phẩm về đơn vị sử dụng và đơn vị chuyên trách công nghệ thông tin theo phân cấp/qui định quản lý phục vụ quản lý, lưu trữ và đưa vào hệ thống thông tin ngành tài nguyên và môi trương.

– Sản phẩm

+ Báo cáo tổng kết nhiệm vụ và hồ sơ nghiệm thu kèm theo

+ Biên bản bàn giao đã được xác nhận

+ Các sản phẩm dạng giấy và số.

Dữ liệu đặc tả được sử dụng để mô tả các đối tượng, các thông tin cần thiết để     lưu trữ.

Tất cả hình ảnh được số hóa nên được chỉ định dữ liệu đặc tả cho quá trình số hóa tài liệu và hỗ trợ các quy trình nghiệp vụ đang diễn ra. Các tổ chức, cơ quan có thể đưa ra các yêu cầu cụ thể và để tối đa hóa sự kế thừa các giá trị dữ liệu từ các hệ thống và thiết bị hiện có. Quy trình quản lý dữ liệu đặc tả nên tối đa hóa tự động chụp dữ liệu đặc tả, giảm thiểu việc xử lý thủ công. Bất kỳ việc sử dụng, áp dụng dữ liệu đặc tả nên được thực hiện có sự tham khảo tiêu chuẩn ISO 23081-1: 2006.       Dữ liệu đặc tả kết hợp với hình ảnh là một thành phần thiết yếu trong việc quản lý và truy vấn các hình ảnh.

Dữ liệu đặc tả có thể được nhúng với các nguồn tài nguyên tại thông tin tiêu đề, hoặc có thể được quản lý trong một hệ thống riêng biệt,hoặc cả hai,nhưng trong cả hai trường hợp đó phải có một mối quan hệ trực tiếp hoặc liên hệ giữa chúng; tức là khi dữ liệu đặc tả nằm trong một hệ thống riêng biệt,nó cần phải có liên kết trực tiếp đến các hồ sơ. Dữ liệu đặc tả cũng có thể được đóng gói trong các định dạng hình ảnh.

Trong quy trình số hóa bao gồm các giai đoạn mà dữ liệu đặc tả phải được áp dụng. Các giai đoạn này là:

– chụp ảnh (quét);

– hình ảnh chụp lại (tái quét);

– đảm bảo chất lượng;

– truyền tải dữ liệu.

Hình dưới đây mô tả quy trình số hóa văn bản, trong đó các quá trình bắt buộc áp dụng dữ liệu đặc tả được đánh dấu bằng nét đậm.

(Trích dẫn: Về bộ khung sườn của quy trình số hóa dữ liệu – Bộ Thông Tin và Truyền Thông )

Bình luận bài viết