Ứng dụng công nghệ thông tin để quản lý dữ liệu sinh vật biến đổi gen

Khoảng thời gian cuối thế kỷ 21 nền khoa học kỹ thuật thế giới đã phát triển vượt bậc, đặc biệt là hai lĩnh vực công nghệ thông tin và công nghệ sinh học. Công nghệ thông tin đã thúc đẩy sự phát triển của hầu hết các lĩnh vực khoa học kỹ thuật, kể cả công nghệ sinh học và phát sinh chuyên ngành mới có tên gọi là tin sinh học. Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê và khoa học máy tính để giải quyết các vấn đề sinh học [1] (Bách khoa toàn thư mở Wikipedia). Những lĩnh vực nghiên cứu chính của nó bao gồm bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein structural alignment), dự đoán cấu trúc protein (protein structure prediction), dự đoán biểu hiện gene (gene expression) và tương tác protein - protein (protein-protein interactions), và mô hình hóa quá trình tiến hoá. Những mối quan tâm chính trong các dự án tin sinh học và sinh học tính toán là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các dữ liệu gen thu nhận được từ các kĩ thuật sinh học.

9 trang | Chia sẻ: lylyngoc | Lượt xem: 1914 | Lượt tải: 1

Bạn đang xem nội dung tài liệu Ứng dụng công nghệ thông tin để quản lý dữ liệu sinh vật biến đổi gen, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Ứng dụng công nghệ thông tin để quản lý dữ liệu sinh vật biến đổi gen Nguyễn Duy Bìnha, Đặng Trọng Lươngb, Hoàng Dương Tùngc a TS., Viện Khí tượng và Thủy văn, Bộ Môi trường và Tài nguyên. b TS., Viện Di truyền Nông nghiệp, Bộ Nông nghiệp và Phát triển Nông thôn. c TS., Trung tâm Quan trắc và Dữ liệu Môi trường, Bộ Môi trường và Tài nguyên. An application of informatic technology in management of genetic modified data Abstract In the year 2000, U.S. scientists announced that they had launched what they said was a scientific revolution, that they had opened the book on human life. Three years latter, in April 2003, they delivered a list – chemical by chemical – what the DNA in human genes is made of. And since then, the amount of genomic data revealed by scientists around the world had became such enourmous that without database technology it is impossible to be handled efficiently. The present study is among the first in Vietnam to store and manage GMO data in a database management system (DBMS) with the potentially Web powered access for the Vietnamese scientific community. The system was designed and implemented at the Hanoi Institute of Genomatic Research with the available advanced computer science technologies such as .NET and Web powered database. Our GMO database is opened to be enlarge and its management software is robust and comprises of friendly user interfaces. The paper presents the methods and technologies used to develop the system as well as the primary results of the study. Mở đầu Khoảng thời gian cuối thế kỷ 21 nền khoa học kỹ thuật thế giới đã phát triển vượt bậc, đặc biệt là hai lĩnh vực công nghệ thông tin và công nghệ sinh học. Công nghệ thông tin đã thúc đẩy sự phát triển của hầu hết các lĩnh vực khoa học kỹ thuật, kể cả công nghệ sinh học và phát sinh chuyên ngành mới có tên gọi là tin sinh học. Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê và khoa học máy tính để giải quyết các vấn đề sinh học [1] (Bách khoa toàn thư mở Wikipedia). Những lĩnh vực nghiên cứu chính của nó bao gồm bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein structural alignment), dự đoán cấu trúc protein (protein structure prediction), dự đoán biểu hiện gene (gene expression) và tương tác protein - protein (protein-protein interactions), và mô hình hóa quá trình tiến hoá. Những mối quan tâm chính trong các dự án tin sinh học và sinh học tính toán là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các dữ liệu gen thu nhận được từ các kĩ thuật sinh học. Khối lượng dữ liệu gen thu nhận được từ các nghiên cứu sinh học gen trên toàn thế giới đã trở nên vô cùng to lớn và đặc biệt tốc độ tăng trưởng dữ liệu trong hai năm qua đã vượt quá mọi dự đoán trước đây. Từ những năm 90, Hoa kỳ, Nhật bản và Châu Âu đã phát triển các công cụ truy cập và phân tích dữ liệu gen trên cơ sở ứng dụng các tiến bộ về công nghệ tin học như GenBank của Trung tâm Quốc gia về Công nghệ Tin Sinh học (the National Center for Biotechnology Information, NCBI), Hoa kỳ, EMBL của Viện Công nghệ Tin Sinh học Châu Âu (the European Bioinformatics Institute, EBI), và DDBJ của Tổ chức Ngân hàng Dữ liệu Gen Nhật bản (the DNA Data Bank of Japan, DDBJ). Các CSDL này cho phép cập nhập tự do bất cứ dãy dữ liệu gen nào khi vừa mới phân tích xong. Hiện nay GenBank chứa đựng hơn 30 triệu dữ liệu chuỗi gen được phân tích từ hơn 130 ngàn loài giống sinh vật, bao gồm hơn 36 tỉ nucleotit. Ba tổ chức này đã liên tục trao đổi dữ liệu gen theo quy định của Tổ chức Hợp tác Dữ liệu Chuỗi Nucleotit Quốc tế (the International Nucleotide Sequence Database Collaboration, INSDC) và về cơ bản đều bảo trì cùng một CSDL chuỗi gen trong khi việc cập nhập dữ liệu gen vẫn liên tục diễn ra hàng ngày từ các nhà nghiên cứu gen trên toàn thế giới. Hình 1 diễn tả sự phát triển nhanh chóng về khối lượng dữ liệu của ba CSDL gen ở trên. Ngoài ba CSDL chính đã nêu trên còn có nhiều Website khác cung cấp khả năng truy cập dữ liệu gen như của Viện Whitehead Cam (the Whitehead Institute, TIGR) ở Cambridge, Massachusetts; và WormBase của Phòng Thí nghiệm Jackson (the Jackson Laboratory) ở Bar Harbor, Maine. Thêm vào đó, có nhiều hệ thống máy tính tư nhân vẫn thường xuyên tải về tất cả các thông tin mới về gen vừa được cập nhập vào các site chính (US CGDBTG, 2003). Hình 1. Sự tăng trưởng đột biến về khối lượng dữ liệu gen trong thời gian gần đây ở ba CSDL gen GenBank, EMBL vaf DDBJ. (Nguồn: NCBI Website) Các nghiên cứu về CSDL gen ở Việt nam hầu như mới bắt đầu trong thời gian gần đây, trong đó CSDL protein của Trường Đại học Khoa học Tự nhiên TP. Hồ Chí Minh (Cao Thị Ngọc Phượng, 2003) cho phép truy cập các thông tin nghiên cứu trong nước và nước ngoài. Rõ ràng là vấn đề tạo các công cụ tin học cần thiết cho các cán bộ trong nước chuyên về sinh học cũng như về các khoa học kỹ thuật liên quan truy cập và xử lý dữ liệu gen, đang trở nên rất bức thiết nhằm từng bước góp phần thu nhỏ khoảng cách trình độ nghiên cứu sinh học của Việt nam với thế giới. Bài báo này giới thiệu kết quả bước đầu nhằm xây dựng cơ sở dữ liệu và phần mềm quản lý dữ liệu sinh vật biến đổi gen. CSDL Gen này có khả năng chia sẽ thông tin và quản trị dữ liệu sinh vật biến đổi gen nhằm đáp ứng yêu cầu truy nhập dữ liệu thông qua Internet. Bài báo sẽ bắt đầu với phần phương pháp và thiết kế hệ thống CSDL và phần mềm quản lý trên cơ sở những yêu cầu chung, sau đó sẽ là phần trình bày kết quả đã đạt được và kết thúc với phần kết luận và các nội dung nghiên cứu trong tương lai. Phương pháp xây dựng hệ thống thông tin dữ liệu gen Trình tự nghiên cứu thành lập hệ thống thông tin dữ liệu sinh vật biến đổi gen trong dề tài nghiên cứu này bao gồm đề ra các yêu cầu cơ bản cho hệ thống, xác dịnh những công nghệ và công cụ sẽ được sử dụng và thiết kế, lập trình xây dựng CSDL và phần mềm quản lý. Tất cả những vấn đề này được trình bày trong phần tiếp theo. Yêu cầu hệ thống CSDL sinh vật biến đổi gen (HTCSDL Gen) Trước hết HTCSDL Gen cần đáp ứng được yêu cầu phân loại, nhập liệu, cập nhập, xử lý thống kê, in ấn, và quản trị dữ liệu sinh vật biến đổi gen. Ngoài ra HTCSDL Gen cần đáp ứng được các yêu cầu: (a) Có khả năng đáp ứng số lượng lớn người sử dụng truy cập đồng thời vào HTSCDL, tất cả có thể truy cập cùng một thời điểm thông qua Website; (b) Tích trữ số lượng lớn dữ liệu, kể cả dữ liệu về gen, sản phẩm sinh vật biến đổi gen và tài liệu tham khảo (online book); (c) Thời gian phản hồi và tốc độ truy cập nhanh; và (d) Yêu cầu về bảo mật và an toàn cho hệ thống. Hệ thống Tin Sinh học Gen WEBSITE Giao diện với Người Truy cập Web và Liên kết Biểu thị Thông tin HT SCDL GEN Cơ sở dữ liệu Cây trồng, Vật nuôi, Vi sinh vật, Tài liệu, v.v. Giao diện với Người Quản trị Xuất Nhập Tìm kiếm Báo cáo Hình 2 Cấu trúc tổng thể của Hệ Tin Sinh học Gen Chúng ta cũng cần xác định ở đây những yêu cầu quan trọng hàng đầu để kiểm tra quá trình thiết kế và xây dựng CSDL gen: (a) Cung cấp một CSDL Gen có khả năng chia sẽ thông tin cả trong mạng nội bộ của Viện Di truyền Nông nghiệp và mạng bên ngoài; (b) Tích trữ một cách có hệ thống các dự liệu sinh vật biến đổi gen theo yều cầu của Viện Di truyền Nông nghiệp; (c) CSDL được cài đặt tại máy chủ của Viện DTNN; phần mềm quản trị có khả năng cài đặt được cả ở các địa điểm khác theo yêu cầu; (d) Có khả năng đáp ứng được các yêu cầu về nâng cấp và mở rộng do công nghệ thông tin về CSDL và Web đang phát triển vượt bậc và thay đổi nhanh chóng; (e) Bảo đảm được độ tin cậy và an toàn của thông tin tích trữ; (f) Có khả năng hiển thị tiếng Việt nhằm đáp ứng yêu cầu của người sử dụng Việt nam; (g) Không đòi hỏi yêu cầu cao về phần cứng và phần mềm; và (h) Bảo đảm được các yêu cầu về bền vững của hệ thống (ví dụ sử dụng cấu trúc dữ liệu mở, các công nghệ thông tin phổ biến về tiêu chuẩn phần mềm, không quá phức tạp, thân thiện với người sử dụng, tài liệu hướng dẫn và cài đặt rõ ràng, dễ hiểu, v.v.). Cấu trúc tổng thể Để đạt được các mục tiêu và yêu cầu trên, hệ thống tin học trong nghiên cứu này bao gồm một cơ sở dự liệu sinh vật biến đổi gen và sản phẩm của chúng (CSDL Gen) và một Website hiển thị thông tin, giao tiếp với người truy cập và liên kết với các website khác như được trình bày ở Hình 2. Cụ thể trong đó: (a) Hệ thống CSDL Gen nhằm tích trữ dữ liệu gen và các dữ liệu liên quan kể cả tài liệu tham khảo như các bài báo, sách điện tử, v.v. và Phần mềm quản lý CSDL Gen. Phần mềm quản lý này bao gồm các module giao diện với người quản trị như nhập xuất, tìm kiếm, bảo trì, xử lý thống kê và hiển thị dữ liệu; (b) Website liên kết CSDL với internet để cung cấp thông tin cho người sử dụng mà đối tượng chính là người Việt nam đồng thời liên kết với các Websites khác về Gen trên thế giói. Biện pháp công nghệ thông tin Nhằm đáp ứng các yêu cầu của Hệ thống CSDL Gen và phần mềm quản lý, nhất là yêu cầu về khả năng mở rộng CSDL trong tương lai, các công nghệ tin học sau đây đã được ứng dụng trong việc thiết kế và xây dựng CSDL Gen và phần mềm quản lý: Microsoft SQL Server 2000 (Microsoft Corporation, Santa Barbara, CA, Mỹ) dùng để thiết kế và xây dựng CSDL kể cả module bảo mật và quản trị người sử dụng; Microsoft Visual Studio .NET 2003 là môi trường lập trình cơ bản; Microsoft NET Framework ver. 1.1 là thư viện và công cụ hỗ trợ lập trình; System.Windows.Forms dùng để tạo lập các bảng giao diện; DeveXpress.NET ver. 3.0 (Developer Express Inc., Las Vegas, Mỹ) là công cụ hỗ trợ lập trình cho Visual Studio .NET trong việc thiết kế giao diện thân thiện với người sử dụng và biểu thị kết quả; VBeXpress.NET version 3.0 (Data Cast System, Inc., Dublin, Ireland) cũng là công cụ hỗ trợ để xây dựng các chương trình trên nền Net Framewrok đặc biệt rất tiện lợi khi thành lập các CSDL Stored Procedures. Kết quả và thảo luận Cơ sở dữ liệu sinh vật biến đổi gen Phần mềm cơ sở cho CSDL Hiện nay kỹ thuật công nghệ về CSDL chủ yếu bao gồm hai loại: cấu trúc client–server (như SQL Server, Oracle, Apche) và cấu trúc file-server (như Jet 4.0 - Access 2003). Cấu trúc Jet 4.0 có sẵn trên hầu hết máy tính cá nhân nhưng có nhiều hạn chế. Cấu trúc client–server như Oracle thì có ưu điểm vượt trội nhưng giá thành phần mềm quá đắt nên chỉ thích hợp với các công ty lớn như các công ty đa quốc gia. Các server nguồn mở (như Apche) đang trong quá trình phát triển và tuy đã được ứng dụng rộng rãi trên thế giới và cả ở Việt nam nhưng vẫn còn vấn đề về bảo mật dữ liệu. Sau khi phân tích và xem xét các yếu tố liên quan, chủ yếu dựa trên cơ sở kinh phí và khả năng của nhóm, hệ thống CSDL gen trong khuôn khổ nghiên cứu này đã sử dụng cấu trúc client–server (MS SQL Server) nhằm đạt được các các tiêu chuẩn chính về số lượng người truy cập đồng thời, khối lượng dữ liệu tích trữ, hiệu suất, ghi nhận cập nhập và sử dụng, an toàn dữ liệu, bảo mật, quản trị, bền vững hệ thống, giá thành và khả năng nâng cấp và chuyển đổi dữ liệu. Thiết kế CSDL Nguyên tắc hàng đầu phải tuân thủ trong quá trình thiết kế CSDL Gen là phải bảo đảm cho sự mở rộng của cả CSDL và cả giao diện quản lý khi có yêu cầu. Vấn đề thiết kế hợp lý các bảng dự liệu về cơ bản sẽ thỏa mãn được nguyên lý này. Giải pháp tiếp theo là thành lập các chương trình SQL thành phần trong CSDL (stored procedures) bằng ngôn ngữ SQL. Các chương trình con này có thể tiếp tục được bổ sung trong bất cứ thời điểm nào. Cơ cấu dữ liệu của hệ thống CSDL Gen được trình bày như ở Hình 3 và thành phần của các bảng dự liệu cũng như các quan hệ dữ liệu theo dạng SQL Server 2000 được thể hiện như ở Hình 4. Quản trị SCDL Gen Các phương thức quản trị Hệ thống CSDL Gen bao gồm: (a)Sao chép bảo trì định kỳ và tái lập toàn bộ CSDL khi cần thiết; (b) Công cụ để sao chép CSDL sang các hệ máy tính khác theo yêu cầu của người điều hành; (c) Cập nhập dữ liệu từ các nguồn khác nhau; (d) Thay đổi tình trạng của các tập dữ liệu; (e) Thay đổi mức độ sử dụng và thay đổi mật khẩu hiện hành; và (f) Bổ sung người sử dụng, xóa quyền sử dụng và mức độ sử dụng. Các công cụ để thực hiện các quá trình nêu trên đều đã được hoàn thiện với MS SQL Server 2000. Phương pháp thành lập các module SQL Việc thành lập các module SQL hiệu suất cao trước hết phải hình thành được các dòng lệnh SELECT chất lượng. Lệnh SELECT cho phép ta sử dụng lệnh WHERE để giảm bớt lượng dữ liệu phải truy cập. Dòng lệnh UPDATE và DELETE cũng có thể kết hợp với lệnh SELECT để có thể giảm bớt hơn nữa lượng dữ liệu mà chương trình phải xem xét. Trong CSDL dạng tích trữ dữ liệu như CSDL GMO thì vấn đề truy cập tìm kiếm đồng thời của nhiều người sử dụng là điều đặc biệt quan trọng. Do vậy mức độ chính xác của các dòng lệnh SQL và sự kết hợp hài hòa của các chỉ số danh mục có tầm quan trọng sống còn. Người lập trình module tìm kiếm phải giảm thiểu đến mức tối thiểu các tìm kiếm phức tạp vì trong tương lai số lượng sữ liệu có thể sẽ rất lớn và các tìm kiếm phức hợp sẽ gây khó khăn cho module tìm kiếm. . Tình trạng . Đặc tính (Chịu bệnh, Ảnh, v.v.) Dữ liệu Gen Mã Gen Vector Đặc tính Giới Hệ thống TT GMO CƠ SỞ DỰ LIỆU (GMO) Dữ liệu Sinh học Các Dòng Loài Bài báo Tài liệu Tham khảo Sách điện tử Tài liệu khác Loài Cây trồng Vật nuôi Vi sinh vật Hình 3 Cấu trúc tổng thể của CSDL Gen và các Thành phần Dữ liệu Hình 4 Cấu trúc các bảng dự liệu. Hiệu suất tìm kiếm cũng sẽ rất kém khi module truy vấn phải kết hợp một số lượng lớn các bảng dữ liệu. Các nguyên tắc tiêu chuẩn (Powel, 2005) nhằm cải thiện hiệu suất module truy vấn sau đây đã được áp dụng: (a) Thiết kế CSDL trên cơ sở dòng lệnh SQL— Chất lượng các dòng lệnh SQL phụ thuộc rất nhiều vào chất lượng của kết quả giai đoạn thiết kế CSDL, nhất là cấu trúc của CSDL; (b) Nguyên tắc đơn giản hóa dòng lệnh—Bất kỳ chương trình con nào cũng có thể phân rã thành các chương trình đơn giản hơn (và nếu độc lập được thì càng tốt). Chương trình SQL đơn giản sẽ giúp cho người lập trình dễ dàng hiểu rõ ý nghĩa và vai trò của mỗi dòng lệnh SQL. (c) Cấu trúc hợp lý các bảng dữ liệu tạo điều kiện thuận lợi cho việc lập trình SQL; (d) Chia nhỏ dòng lệnh SQL—Việc phân rã có thể thực hiện được với các dòng lệnh SQL như các tìm kiếm và quản lý dữ liệu (INSERT, UPDATE, và DELETE). Không nên chia nhỏ các dòng lệnh không thuộc loại quản lý CSDL. Việc lập trình SQL và hiệu suất tìm kiếm phụ thuộc hoàn toàn vào cấu trúc CSDL. Các mã nguồn SQL luôn được thành lập trên cơ sở các bảng dữ liệu và các quan hệ giữa các bảng. CSDL GMO hiện nay đã xây dựng được tất cả là 90 chương trình SQL (stored procedures) nhằm quản lý các dữ liệu và thực hiện các tìm kiếm. Phần mềm quản lý SCDL Phần mềm quản trị CSDL Gen đã được thiết kế theo tiêu chuẩn thân thiện và dễ sử dụng. Phần mềm này cho phép thực hiện các công đoạn quản lý dữ liệu bằng các giao diện với người sử dụng như sau: (a) Nhập dự liệu vào CSDL; (b) Xem xét và kiểm tra dữ liệu qua bảng biểu, đồ thị và báo cáo; (c ) Sữa đổi và chỉnh lý dữ liệu; (d) Biên tập nội dung dữ liệu; và (e) Truy cập chức năng quản trị dữ liệu (quyền sử dụng, nhập dữ liệu, v.v.). Như vậy các giao diện của Phần mềm quản lý chỉ được thiết kế và xây dựng dành cho những người quản trị và cập nhập CSDL Gen mặc dù người quản trị cũng có thể sử dụng các công cụ có sẵn của SQL Server để thực hiện các công việc này. Các giao diện đã được cài đặt cả trong máy chủ của Hệ thống CSDL và cả trong các máy nối mạng với máy chủ theo yêu cầu của người điều hành, bao gồm 5 giao diện chính: (a) Giao diện điều khiển chung: Giao diện điều khiển chính cung cấp các đường dẫn đi vào các chức năng nhập xuất dữ liệu, thể hiện, xử lý và quản lý dữ liệu. Hệ thống các thanh menu cũng giúp người sử dụng cập nhập được các thông số điều khiển hệ thống; (b) Giao diện biểu thị và xuất dữ liệu: Giao diện này cho phép người sử dụng xem xét, sữa đổi và xuất dữ liệu ra file ở dạng Microsoft Excel. Tất cả dữ liệu trong CSDL đều có thể được thể hiện trên màn hình máy tính và có thể được chỉnh sửa tùy theo quyết định của người quản trị dữ liệu. Các thành phần hiện nay của CSDL bao gồm dữ liệu về giới, về loài, tình trạng, phương pháp biến nạp, nơi phê chuẩn, kiểu phê chuẩn, phương pháp xác định GMO, phương pháp tách chiết ADN và cặp mồi.; (c) Giao diện cập nhập dữ liệu mới: Giao diện này khi mở ra sẽ thể hiện qua bốn Tab: thông tin chung về dòng, đặc điểm của dòng, những phê chuẩn biến đổi gen và phương pháp xác định GMO liên quan đến dòng biến đổi gen; (d) Giao diện tìm kiếm: Phần mềm được thiết kế để người sử dụng có thể tìm kiếm thông qua các thông số khác như tên dòng, tình trạng, đặc điểm của dòng, nơi phê chuẩn cũng như kiểu phê chuẩn; và (e) Công cụ báo cáo: Công cụ báo cáo có chức năng trình bày trên màn hình các bảng dự liệu và sau đó có thể chuyển bảng đó sang máy in theo yêu cầu của người sử dụng. Nội dung mã nguồn của phần mềm quản trị CSDL GMO được trình bày trong bài báo này dưới dạng các bảng tóm tắt thành phần. Hình 6 và hình 7 là ví dụ các bảng tổng kết các sub và hàm của hai thành phần chính trong phần mềm quản lý CSDL sinh vật biến đổi gen. Các sub và hàm riêng (chỉ có tác dụng trong khuôn khổ bảng giao diện hay chương trình thành phần) có kí hiệu [-] ở đầu dòng. Còn các sub và hàm có hiệu lực trong cả phần mềm được bắt đầu bằng kí hiệu [+]. Sơ đồ này nên được nghiên cứu cùng với mã nguồn để có thể hiểu được chi tiết phần mềm. Module Main() kiểm soát công đoạn khởi động hệ thống, chương trình và biểu thị các giao diện của phần mềm quản lý. Modules vhv.Entities và vhv.Common trong Hình 6 là các module có chức năng riêng biệt. Hình 5 Giao diện cập nhập dữ liệu Module Common tập hợp các biến số, hàm số và sub chung của phần mềm. Mo