Ứng dụng công nghệ thông tin để quản lý dữ liệu sinh vật biến đổi gen

Khoảng thời gian cuối thế kỷ 21 nền khoa học kỹ thuật thế giới đã phát triển vượt bậc, đặc biệt là hai lĩnh vực công nghệ thông tin và công nghệ sinh học. Công nghệ thông tin đã thúc đẩy sự phát triển của hầu hết các lĩnh vực khoa học kỹ thuật, kể cả công nghệ sinh học và phát sinh chuyên ngành mới có tên gọi là tin sinh học. Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê và khoa học máy tính để giải quyết các vấn đề sinh học [1] (Bách khoa toàn thư mở Wikipedia). Những lĩnh vực nghiên cứu chính của nó bao gồm bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein structural alignment), dự đoán cấu trúc protein (protein structure prediction), dự đoán biểu hiện gene (gene expression) và tương tác protein - protein (protein-protein interactions), và mô hình hóa quá trình tiến hoá. Những mối quan tâm chính trong các dự án tin sinh học và sinh học tính toán là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các dữ liệu gen thu nhận được từ các kĩ thuật sinh học.

doc9 trang | Chia sẻ: lylyngoc | Lượt xem: 2032 | Lượt tải: 1download
Bạn đang xem nội dung tài liệu Ứng dụng công nghệ thông tin để quản lý dữ liệu sinh vật biến đổi gen, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Ứng dụng công nghệ thông tin để quản lý dữ liệu sinh vật biến đổi gen Nguyễn Duy Bìnha, Đặng Trọng Lươngb, Hoàng Dương Tùngc a TS., Viện Khí tượng và Thủy văn, Bộ Môi trường và Tài nguyên. b TS., Viện Di truyền Nông nghiệp, Bộ Nông nghiệp và Phát triển Nông thôn. c TS., Trung tâm Quan trắc và Dữ liệu Môi trường, Bộ Môi trường và Tài nguyên. An application of informatic technology in management of genetic modified data Abstract In the year 2000, U.S. scientists announced that they had launched what they said was a scientific revolution, that they had opened the book on human life. Three years latter, in April 2003, they delivered a list – chemical by chemical – what the DNA in human genes is made of. And since then, the amount of genomic data revealed by scientists around the world had became such enourmous that without database technology it is impossible to be handled efficiently. The present study is among the first in Vietnam to store and manage GMO data in a database management system (DBMS) with the potentially Web powered access for the Vietnamese scientific community. The system was designed and implemented at the Hanoi Institute of Genomatic Research with the available advanced computer science technologies such as .NET and Web powered database. Our GMO database is opened to be enlarge and its management software is robust and comprises of friendly user interfaces. The paper presents the methods and technologies used to develop the system as well as the primary results of the study. Mở đầu Khoảng thời gian cuối thế kỷ 21 nền khoa học kỹ thuật thế giới đã phát triển vượt bậc, đặc biệt là hai lĩnh vực công nghệ thông tin và công nghệ sinh học. Công nghệ thông tin đã thúc đẩy sự phát triển của hầu hết các lĩnh vực khoa học kỹ thuật, kể cả công nghệ sinh học và phát sinh chuyên ngành mới có tên gọi là tin sinh học. Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê và khoa học máy tính để giải quyết các vấn đề sinh học [1] (Bách khoa toàn thư mở Wikipedia). Những lĩnh vực nghiên cứu chính của nó bao gồm bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein structural alignment), dự đoán cấu trúc protein (protein structure prediction), dự đoán biểu hiện gene (gene expression) và tương tác protein - protein (protein-protein interactions), và mô hình hóa quá trình tiến hoá. Những mối quan tâm chính trong các dự án tin sinh học và sinh học tính toán là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các dữ liệu gen thu nhận được từ các kĩ thuật sinh học. Khối lượng dữ liệu gen thu nhận được từ các nghiên cứu sinh học gen trên toàn thế giới đã trở nên vô cùng to lớn và đặc biệt tốc độ tăng trưởng dữ liệu trong hai năm qua đã vượt quá mọi dự đoán trước đây. Từ những năm 90, Hoa kỳ, Nhật bản và Châu Âu đã phát triển các công cụ truy cập và phân tích dữ liệu gen trên cơ sở ứng dụng các tiến bộ về công nghệ tin học như GenBank của Trung tâm Quốc gia về Công nghệ Tin Sinh học (the National Center for Biotechnology Information, NCBI), Hoa kỳ, EMBL của Viện Công nghệ Tin Sinh học Châu Âu (the European Bioinformatics Institute, EBI), và DDBJ của Tổ chức Ngân hàng Dữ liệu Gen Nhật bản (the DNA Data Bank of Japan, DDBJ). Các CSDL này cho phép cập nhập tự do bất cứ dãy dữ liệu gen nào khi vừa mới phân tích xong. Hiện nay GenBank chứa đựng hơn 30 triệu dữ liệu chuỗi gen được phân tích từ hơn 130 ngàn loài giống sinh vật, bao gồm hơn 36 tỉ nucleotit. Ba tổ chức này đã liên tục trao đổi dữ liệu gen theo quy định của Tổ chức Hợp tác Dữ liệu Chuỗi Nucleotit Quốc tế (the International Nucleotide Sequence Database Collaboration, INSDC) và về cơ bản đều bảo trì cùng một CSDL chuỗi gen trong khi việc cập nhập dữ liệu gen vẫn liên tục diễn ra hàng ngày từ các nhà nghiên cứu gen trên toàn thế giới. Hình 1 diễn tả sự phát triển nhanh chóng về khối lượng dữ liệu của ba CSDL gen ở trên. Ngoài ba CSDL chính đã nêu trên còn có nhiều Website khác cung cấp khả năng truy cập dữ liệu gen như của Viện Whitehead Cam (the Whitehead Institute, TIGR) ở Cambridge, Massachusetts; và WormBase của Phòng Thí nghiệm Jackson (the Jackson Laboratory) ở Bar Harbor, Maine. Thêm vào đó, có nhiều hệ thống máy tính tư nhân vẫn thường xuyên tải về tất cả các thông tin mới về gen vừa được cập nhập vào các site chính (US CGDBTG, 2003). Hình 1. Sự tăng trưởng đột biến về khối lượng dữ liệu gen trong thời gian gần đây ở ba CSDL gen GenBank, EMBL vaf DDBJ. (Nguồn: NCBI Website) Các nghiên cứu về CSDL gen ở Việt nam hầu như mới bắt đầu trong thời gian gần đây, trong đó CSDL protein của Trường Đại học Khoa học Tự nhiên TP. Hồ Chí Minh (Cao Thị Ngọc Phượng, 2003) cho phép truy cập các thông tin nghiên cứu trong nước và nước ngoài. Rõ ràng là vấn đề tạo các công cụ tin học cần thiết cho các cán bộ trong nước chuyên về sinh học cũng như về các khoa học kỹ thuật liên quan truy cập và xử lý dữ liệu gen, đang trở nên rất bức thiết nhằm từng bước góp phần thu nhỏ khoảng cách trình độ nghiên cứu sinh học của Việt nam với thế giới. Bài báo này giới thiệu kết quả bước đầu nhằm xây dựng cơ sở dữ liệu và phần mềm quản lý dữ liệu sinh vật biến đổi gen. CSDL Gen này có khả năng chia sẽ thông tin và quản trị dữ liệu sinh vật biến đổi gen nhằm đáp ứng yêu cầu truy nhập dữ liệu thông qua Internet. Bài báo sẽ bắt đầu với phần phương pháp và thiết kế hệ thống CSDL và phần mềm quản lý trên cơ sở những yêu cầu chung, sau đó sẽ là phần trình bày kết quả đã đạt được và kết thúc với phần kết luận và các nội dung nghiên cứu trong tương lai. Phương pháp xây dựng hệ thống thông tin dữ liệu gen Trình tự nghiên cứu thành lập hệ thống thông tin dữ liệu sinh vật biến đổi gen trong dề tài nghiên cứu này bao gồm đề ra các yêu cầu cơ bản cho hệ thống, xác dịnh những công nghệ và công cụ sẽ được sử dụng và thiết kế, lập trình xây dựng CSDL và phần mềm quản lý. Tất cả những vấn đề này được trình bày trong phần tiếp theo. Yêu cầu hệ thống CSDL sinh vật biến đổi gen (HTCSDL Gen) Trước hết HTCSDL Gen cần đáp ứng được yêu cầu phân loại, nhập liệu, cập nhập, xử lý thống kê, in ấn, và quản trị dữ liệu sinh vật biến đổi gen. Ngoài ra HTCSDL Gen cần đáp ứng được các yêu cầu: (a) Có khả năng đáp ứng số lượng lớn người sử dụng truy cập đồng thời vào HTSCDL, tất cả có thể truy cập cùng một thời điểm thông qua Website; (b) Tích trữ số lượng lớn dữ liệu, kể cả dữ liệu về gen, sản phẩm sinh vật biến đổi gen và tài liệu tham khảo (online book); (c) Thời gian phản hồi và tốc độ truy cập nhanh; và (d) Yêu cầu về bảo mật và an toàn cho hệ thống. Hệ thống Tin Sinh học Gen WEBSITE Giao diện với Người Truy cập Web và Liên kết Biểu thị Thông tin HT SCDL GEN Cơ sở dữ liệu Cây trồng, Vật nuôi, Vi sinh vật, Tài liệu, v.v. Giao diện với Người Quản trị Xuất Nhập Tìm kiếm Báo cáo Hình 2 Cấu trúc tổng thể của Hệ Tin Sinh học Gen Chúng ta cũng cần xác định ở đây những yêu cầu quan trọng hàng đầu để kiểm tra quá trình thiết kế và xây dựng CSDL gen: (a) Cung cấp một CSDL Gen có khả năng chia sẽ thông tin cả trong mạng nội bộ của Viện Di truyền Nông nghiệp và mạng bên ngoài; (b) Tích trữ một cách có hệ thống các dự liệu sinh vật biến đổi gen theo yều cầu của Viện Di truyền Nông nghiệp; (c) CSDL được cài đặt tại máy chủ của Viện DTNN; phần mềm quản trị có khả năng cài đặt được cả ở các địa điểm khác theo yêu cầu; (d) Có khả năng đáp ứng được các yêu cầu về nâng cấp và mở rộng do công nghệ thông tin về CSDL và Web đang phát triển vượt bậc và thay đổi nhanh chóng; (e) Bảo đảm được độ tin cậy và an toàn của thông tin tích trữ; (f) Có khả năng hiển thị tiếng Việt nhằm đáp ứng yêu cầu của người sử dụng Việt nam; (g) Không đòi hỏi yêu cầu cao về phần cứng và phần mềm; và (h) Bảo đảm được các yêu cầu về bền vững của hệ thống (ví dụ sử dụng cấu trúc dữ liệu mở, các công nghệ thông tin phổ biến về tiêu chuẩn phần mềm, không quá phức tạp, thân thiện với người sử dụng, tài liệu hướng dẫn và cài đặt rõ ràng, dễ hiểu, v.v.). Cấu trúc tổng thể Để đạt được các mục tiêu và yêu cầu trên, hệ thống tin học trong nghiên cứu này bao gồm một cơ sở dự liệu sinh vật biến đổi gen và sản phẩm của chúng (CSDL Gen) và một Website hiển thị thông tin, giao tiếp với người truy cập và liên kết với các website khác như được trình bày ở Hình 2. Cụ thể trong đó: (a) Hệ thống CSDL Gen nhằm tích trữ dữ liệu gen và các dữ liệu liên quan kể cả tài liệu tham khảo như các bài báo, sách điện tử, v.v. và Phần mềm quản lý CSDL Gen. Phần mềm quản lý này bao gồm các module giao diện với người quản trị như nhập xuất, tìm kiếm, bảo trì, xử lý thống kê và hiển thị dữ liệu; (b) Website liên kết CSDL với internet để cung cấp thông tin cho người sử dụng mà đối tượng chính là người Việt nam đồng thời liên kết với các Websites khác về Gen trên thế giói. Biện pháp công nghệ thông tin Nhằm đáp ứng các yêu cầu của Hệ thống CSDL Gen và phần mềm quản lý, nhất là yêu cầu về khả năng mở rộng CSDL trong tương lai, các công nghệ tin học sau đây đã được ứng dụng trong việc thiết kế và xây dựng CSDL Gen và phần mềm quản lý: Microsoft SQL Server 2000 (Microsoft Corporation, Santa Barbara, CA, Mỹ) dùng để thiết kế và xây dựng CSDL kể cả module bảo mật và quản trị người sử dụng; Microsoft Visual Studio .NET 2003 là môi trường lập trình cơ bản; Microsoft NET Framework ver. 1.1 là thư viện và công cụ hỗ trợ lập trình; System.Windows.Forms dùng để tạo lập các bảng giao diện; DeveXpress.NET ver. 3.0 (Developer Express Inc., Las Vegas, Mỹ) là công cụ hỗ trợ lập trình cho Visual Studio .NET trong việc thiết kế giao diện thân thiện với người sử dụng và biểu thị kết quả; VBeXpress.NET version 3.0 (Data Cast System, Inc., Dublin, Ireland) cũng là công cụ hỗ trợ để xây dựng các chương trình trên nền Net Framewrok đặc biệt rất tiện lợi khi thành lập các CSDL Stored Procedures. Kết quả và thảo luận Cơ sở dữ liệu sinh vật biến đổi gen Phần mềm cơ sở cho CSDL Hiện nay kỹ thuật công nghệ về CSDL chủ yếu bao gồm hai loại: cấu trúc client–server (như SQL Server, Oracle, Apche) và cấu trúc file-server (như Jet 4.0 - Access 2003). Cấu trúc Jet 4.0 có sẵn trên hầu hết máy tính cá nhân nhưng có nhiều hạn chế. Cấu trúc client–server như Oracle thì có ưu điểm vượt trội nhưng giá thành phần mềm quá đắt nên chỉ thích hợp với các công ty lớn như các công ty đa quốc gia. Các server nguồn mở (như Apche) đang trong quá trình phát triển và tuy đã được ứng dụng rộng rãi trên thế giới và cả ở Việt nam nhưng vẫn còn vấn đề về bảo mật dữ liệu. Sau khi phân tích và xem xét các yếu tố liên quan, chủ yếu dựa trên cơ sở kinh phí và khả năng của nhóm, hệ thống CSDL gen trong khuôn khổ nghiên cứu này đã sử dụng cấu trúc client–server (MS SQL Server) nhằm đạt được các các tiêu chuẩn chính về số lượng người truy cập đồng thời, khối lượng dữ liệu tích trữ, hiệu suất, ghi nhận cập nhập và sử dụng, an toàn dữ liệu, bảo mật, quản trị, bền vững hệ thống, giá thành và khả năng nâng cấp và chuyển đổi dữ liệu. Thiết kế CSDL Nguyên tắc hàng đầu phải tuân thủ trong quá trình thiết kế CSDL Gen là phải bảo đảm cho sự mở rộng của cả CSDL và cả giao diện quản lý khi có yêu cầu. Vấn đề thiết kế hợp lý các bảng dự liệu về cơ bản sẽ thỏa mãn được nguyên lý này. Giải pháp tiếp theo là thành lập các chương trình SQL thành phần trong CSDL (stored procedures) bằng ngôn ngữ SQL. Các chương trình con này có thể tiếp tục được bổ sung trong bất cứ thời điểm nào. Cơ cấu dữ liệu của hệ thống CSDL Gen được trình bày như ở Hình 3 và thành phần của các bảng dự liệu cũng như các quan hệ dữ liệu theo dạng SQL Server 2000 được thể hiện như ở Hình 4. Quản trị SCDL Gen Các phương thức quản trị Hệ thống CSDL Gen bao gồm: (a)Sao chép bảo trì định kỳ và tái lập toàn bộ CSDL khi cần thiết; (b) Công cụ để sao chép CSDL sang các hệ máy tính khác theo yêu cầu của người điều hành; (c) Cập nhập dữ liệu từ các nguồn khác nhau; (d) Thay đổi tình trạng của các tập dữ liệu; (e) Thay đổi mức độ sử dụng và thay đổi mật khẩu hiện hành; và (f) Bổ sung người sử dụng, xóa quyền sử dụng và mức độ sử dụng. Các công cụ để thực hiện các quá trình nêu trên đều đã được hoàn thiện với MS SQL Server 2000. Phương pháp thành lập các module SQL Việc thành lập các module SQL hiệu suất cao trước hết phải hình thành được các dòng lệnh SELECT chất lượng. Lệnh SELECT cho phép ta sử dụng lệnh WHERE để giảm bớt lượng dữ liệu phải truy cập. Dòng lệnh UPDATE và DELETE cũng có thể kết hợp với lệnh SELECT để có thể giảm bớt hơn nữa lượng dữ liệu mà chương trình phải xem xét. Trong CSDL dạng tích trữ dữ liệu như CSDL GMO thì vấn đề truy cập tìm kiếm đồng thời của nhiều người sử dụng là điều đặc biệt quan trọng. Do vậy mức độ chính xác của các dòng lệnh SQL và sự kết hợp hài hòa của các chỉ số danh mục có tầm quan trọng sống còn. Người lập trình module tìm kiếm phải giảm thiểu đến mức tối thiểu các tìm kiếm phức tạp vì trong tương lai số lượng sữ liệu có thể sẽ rất lớn và các tìm kiếm phức hợp sẽ gây khó khăn cho module tìm kiếm. . Tình trạng . Đặc tính (Chịu bệnh, Ảnh, v.v.) Dữ liệu Gen Mã Gen Vector Đặc tính Giới Hệ thống TT GMO CƠ SỞ DỰ LIỆU (GMO) Dữ liệu Sinh học Các Dòng Loài Bài báo Tài liệu Tham khảo Sách điện tử Tài liệu khác Loài Cây trồng Vật nuôi Vi sinh vật Hình 3 Cấu trúc tổng thể của CSDL Gen và các Thành phần Dữ liệu Hình 4 Cấu trúc các bảng dự liệu. Hiệu suất tìm kiếm cũng sẽ rất kém khi module truy vấn phải kết hợp một số lượng lớn các bảng dữ liệu. Các nguyên tắc tiêu chuẩn (Powel, 2005) nhằm cải thiện hiệu suất module truy vấn sau đây đã được áp dụng: (a) Thiết kế CSDL trên cơ sở dòng lệnh SQL— Chất lượng các dòng lệnh SQL phụ thuộc rất nhiều vào chất lượng của kết quả giai đoạn thiết kế CSDL, nhất là cấu trúc của CSDL; (b) Nguyên tắc đơn giản hóa dòng lệnh—Bất kỳ chương trình con nào cũng có thể phân rã thành các chương trình đơn giản hơn (và nếu độc lập được thì càng tốt). Chương trình SQL đơn giản sẽ giúp cho người lập trình dễ dàng hiểu rõ ý nghĩa và vai trò của mỗi dòng lệnh SQL. (c) Cấu trúc hợp lý các bảng dữ liệu tạo điều kiện thuận lợi cho việc lập trình SQL; (d) Chia nhỏ dòng lệnh SQL—Việc phân rã có thể thực hiện được với các dòng lệnh SQL như các tìm kiếm và quản lý dữ liệu (INSERT, UPDATE, và DELETE). Không nên chia nhỏ các dòng lệnh không thuộc loại quản lý CSDL. Việc lập trình SQL và hiệu suất tìm kiếm phụ thuộc hoàn toàn vào cấu trúc CSDL. Các mã nguồn SQL luôn được thành lập trên cơ sở các bảng dữ liệu và các quan hệ giữa các bảng. CSDL GMO hiện nay đã xây dựng được tất cả là 90 chương trình SQL (stored procedures) nhằm quản lý các dữ liệu và thực hiện các tìm kiếm. Phần mềm quản lý SCDL Phần mềm quản trị CSDL Gen đã được thiết kế theo tiêu chuẩn thân thiện và dễ sử dụng. Phần mềm này cho phép thực hiện các công đoạn quản lý dữ liệu bằng các giao diện với người sử dụng như sau: (a) Nhập dự liệu vào CSDL; (b) Xem xét và kiểm tra dữ liệu qua bảng biểu, đồ thị và báo cáo; (c ) Sữa đổi và chỉnh lý dữ liệu; (d) Biên tập nội dung dữ liệu; và (e) Truy cập chức năng quản trị dữ liệu (quyền sử dụng, nhập dữ liệu, v.v.). Như vậy các giao diện của Phần mềm quản lý chỉ được thiết kế và xây dựng dành cho những người quản trị và cập nhập CSDL Gen mặc dù người quản trị cũng có thể sử dụng các công cụ có sẵn của SQL Server để thực hiện các công việc này. Các giao diện đã được cài đặt cả trong máy chủ của Hệ thống CSDL và cả trong các máy nối mạng với máy chủ theo yêu cầu của người điều hành, bao gồm 5 giao diện chính: (a) Giao diện điều khiển chung: Giao diện điều khiển chính cung cấp các đường dẫn đi vào các chức năng nhập xuất dữ liệu, thể hiện, xử lý và quản lý dữ liệu. Hệ thống các thanh menu cũng giúp người sử dụng cập nhập được các thông số điều khiển hệ thống; (b) Giao diện biểu thị và xuất dữ liệu: Giao diện này cho phép người sử dụng xem xét, sữa đổi và xuất dữ liệu ra file ở dạng Microsoft Excel. Tất cả dữ liệu trong CSDL đều có thể được thể hiện trên màn hình máy tính và có thể được chỉnh sửa tùy theo quyết định của người quản trị dữ liệu. Các thành phần hiện nay của CSDL bao gồm dữ liệu về giới, về loài, tình trạng, phương pháp biến nạp, nơi phê chuẩn, kiểu phê chuẩn, phương pháp xác định GMO, phương pháp tách chiết ADN và cặp mồi.; (c) Giao diện cập nhập dữ liệu mới: Giao diện này khi mở ra sẽ thể hiện qua bốn Tab: thông tin chung về dòng, đặc điểm của dòng, những phê chuẩn biến đổi gen và phương pháp xác định GMO liên quan đến dòng biến đổi gen; (d) Giao diện tìm kiếm: Phần mềm được thiết kế để người sử dụng có thể tìm kiếm thông qua các thông số khác như tên dòng, tình trạng, đặc điểm của dòng, nơi phê chuẩn cũng như kiểu phê chuẩn; và (e) Công cụ báo cáo: Công cụ báo cáo có chức năng trình bày trên màn hình các bảng dự liệu và sau đó có thể chuyển bảng đó sang máy in theo yêu cầu của người sử dụng. Nội dung mã nguồn của phần mềm quản trị CSDL GMO được trình bày trong bài báo này dưới dạng các bảng tóm tắt thành phần. Hình 6 và hình 7 là ví dụ các bảng tổng kết các sub và hàm của hai thành phần chính trong phần mềm quản lý CSDL sinh vật biến đổi gen. Các sub và hàm riêng (chỉ có tác dụng trong khuôn khổ bảng giao diện hay chương trình thành phần) có kí hiệu [-] ở đầu dòng. Còn các sub và hàm có hiệu lực trong cả phần mềm được bắt đầu bằng kí hiệu [+]. Sơ đồ này nên được nghiên cứu cùng với mã nguồn để có thể hiểu được chi tiết phần mềm. Module Main() kiểm soát công đoạn khởi động hệ thống, chương trình và biểu thị các giao diện của phần mềm quản lý. Modules vhv.Entities và vhv.Common trong Hình 6 là các module có chức năng riêng biệt. Hình 5 Giao diện cập nhập dữ liệu Module Common tập hợp các biến số, hàm số và sub chung của phần mềm. Mo
Tài liệu liên quan