Câu nói được sử dụng làm tiêu đề trích từ câu nói của nhà Sinh lý học và Y học Horace Freeland Judson - người đoạt giải Nobel năm 1962 cho thấy tầm quan trọng của thông tin do DNA cung cấp không chỉ ở lĩnh vực y học mà còn cả trong IT. (Tạm dịch: “Như bạn biết đấy, DNA như vàng của đức vua Midas. Bất kể ai động vào nó cũng phát điên lên”)
Đại dịch covid bùng phát đầu năm 2020 vừa qua đã mang đến sự thay đổi lớn ở nhiều khía cạnh trong đời sống và làm thay đổi cả hướng nghiên cứu của các nhà khoa học. Một trong những hướng nghiên cứu mới đang được quan tâm ở lĩnh vực sinh-tin học là Genomics. Vậy nghiên cứu về gen có ứng dụng gì với IT, chúng ta cùng tìm hiểu qua bài viết này nhé.
[caption id="attachment_4017" align="aligncenter" width="621"] Virtruvian man and DNA - Nguồn Internet[/caption]Để hiểu rõ hơn, chúng ta cùng đi qua các thông tin cơ bản về bộ gen. Theo kiến thức phổ thông thì các bạn có thể định nghĩa bộ gen hay genome là tập hợp chứa toàn bộ thông tin di truyền của một cá thể sinh vật được mã hóa trong DNA (ở một số loài là RNA). Bộ gen người là hai chuỗi DNA song song xoắn vào nhau, tổng cộng chứa khoảng 3.000.000.000 cặp base DNA. Đây được gọi là vật chất di truyền ở cấp độ phân tử. Các bạn có thắc mắc với lượng thông tin di truyền lớn như vậy thì cơ thể chúng ta sẽ chứa chúng ở đâu không? Nói không ngoa thì cơ thể người chính là kiệt tác của sự sống bởi DNA đã tự tạo cho mình cơ chế mã hóa vật chất di truyền để có thể chứa gọn chúng dù bạn có bé nhỏ vài ba chục kilogram hay thậm chí đứa trẻ sơ sinh. Người ta ứng dụng DNA vào trong xét nghiệm và chẩn đoán bệnh. Y học hiện đại ngày nay còn dùng thông tin từ DNA để dự đoán khả năng mắc các bệnh nguy hiểm như ung thư hay gần đây là kiểm tra bệnh nhân mắc covid.
Ứng dụng tin học vào sinh học, các nhà nghiên cứu đã sử dụng công nghệ giải trình tự gen và áp dụng AI vào chẩn đoán. Công nghệ Realtime PCR là một ví dụ minh họa. Đây là công nghệ tổng hợp chuỗi định lượng giúp xác định nhanh mẫu bệnh phẩm có dương tính với virus SAR-CoV-2 không. Ngoài ra, ở cấp độ tế bào, họ tìm ra các gen đột biến- nguyên nhân hàng đầu dẫn đến ung thư. Tiên tiến hơn, các nhà khoa học đã sử dụng AI để đào tạo ra thế hệ máy tính có khả năng dự đoán được tế bào ung thư dựa vào gen của những bệnh nhân trước đó và các thuật toán thống kê và xác suất. Nhiều ứng dụng hay và chuyên sâu mà trong chúng tôi không đủ thời gian để bao quát hết. Các nhà khoa học vẫn còn đang trong quá trình nghiên cứu, đây cũng là một lĩnh vực đáng cân nhắc cho các bạn sinh viên hướng theo.
[caption id="attachment_4019" align="aligncenter" width="1264"] The DNA Genome and Machine learning - Nguồn: Merlinnz Blog[/caption]
Ở khía cạnh công nghê thông tin chúng ta thấy được rằng việc giải mã gen động vật mà cụ thể là gen người có đóng góp vô cùng to lớn. Tuy nhiên chúng ta đang đứng trước hạn chế là làm sao để có đủ không gian lưu trữ một khối lượng thông tin lớn như thế? Hiện đang có các nghiên cứu về không gian lưu trữ cho Genomics data. Phần lớn các nhà nghiên cứu đều đồng ý sử dụng công nghệ đám mây Cloud để lưu trữ. Tuy nhiên, đây vẫn còn là vấn đề cần được xem xét nghiên cứu thêm.
Một ứng dụng không thể không nhắc đến của DNA là kiểm tra huyết thống. Việc kiểm tra huyết thống sẽ dựa trên việc so khớp mẫu DNA của bố mẹ với con. Về nguyên tắc so khớp, tương tự như quá trình quét, dò tìm virus trong máy tính, các nhà khoa học nghiên cứu về genomics data áp dụng các thuyết toán tìm kiếm để kiểm tra các đoạn mã di truyền. Các thuật toán so khớp chuỗi thường gặp như Bruteforce, KMP, Rabin Karp đã từng được thử nghiệm. Tuy nhiên với lượng dữ liệu khổng lồ như thế khó tránh sẽ xảy ra sai sót nếu chỉ đọc dữ liệu qua một lần duy nhất nên để tăng độ tin cậy, các nhà nghiên cứu đã cho đọc đi đọc lại các chuỗi tần suất trung bình là 10 lần/đoạn. Quá trình đọc và ghi dữ liệu như thế được gọi là “dóng hàng gen” và sẽ làm cho dữ liệu đã lớn nay càng khổng lồ hơn.Làm một phép toán so sánh ở đây, chúng ta có thời gian chạy của thuật toán Bruteforce là 1013 giây tương đương 300 000 năm, các thuật toán tối ưu hơn như KMP cũng mất đến 3000 năm. Chẳng nhẽ chúng ta lại mất đến mấy nghìn năm chỉ để dóng hàng gen. Đến lúc kiểm tra huyết thống xong thì chắc chỉ có gọi cháu chắt của học đến nhận kết quả! Thật may, thuật toán FM index và Mảng/cây hậu tố ra đời giúp chúng ta giải quyết khó khan này. Với thời gian chạy ước tính 3 giờ và một vài giờ setup thì đây được xem là thuật toán tối ưu và đang được vận dụng trong thực tế.
Câu chuyện chưa dừng lại ở đó khi vấn đề về an toàn thông tin đang ngày càng được quan tâm. Song song với sự phát triển của việc ứng dụng machine learning và AI vào khai thác dữ liệu gen thì chúng ta còn quan tâm đến liệu thông tin di truyền của mình có được giữ bí mật không, liệu thông tin nhạy cảm như DNA của chúng ta có bị lợi dụng vào mục đích xấu không. Dưới góc nhìn an toàn thông tin, các vấn đề về bảo mật thông tin di truyền vẫn còn đang bỏ ngõ. Hiện nay, người ta dùng Blockchain như một chìa khóa thần kì giải quyết vấn đề bảo mật cho Genomics data. Bên cạnh đó còn có hệ thống xác thực của Cloud. Tuy nhiên, không có một hệ thống nào là an toàn tuyệt đối nên các hệ thống trên vẫn còn nhiều điểm yếu tìm ẩn nguy cơ bị tấn công và đòi hỏi chúng ta cần có sự quan tâm đúng mức hơn trong khía cạnh bảo mật Genomics Data.
Mew - Wanna.One