ISSN: 0304-128X ISSN: 2233-9558
Copyright © 2024 KICHE. All rights reserved

Articles & Issues

Conflict of Interest
In relation to this article, we declare that there is no conflict of interest.
articles This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/bync/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Copyright © KIChE. All rights reserved.

Articles in press

DNA 길이와 혼합 종 개수 예측을 위한 합성곱 신경망

Convolution Neural Network for Prediction of DNA Length and Number of Species

양승희1 김예원1 이효민1†
1제주대학교 화학공학과
In Press, Journal Pre-proof, Available online 1 August 2024

Abstract

기계학습법의 신경망 기술을 이용한 자료분석은 질병 유전자 탐색 및 진단, 신약 개발, 약인성 간 손상 예측 등과 같은 다양한 분야에서 활용되고 있다. 질병 특징 발견을 위한 자료분석은 DNA 정보를 기반으로 이루어질 수 있다. 본 연구에서는 DNA의 분자 정보 중 DNA의 길이와 용액 내 DNA의 길이별 종 개수를 예측하는 신경망을 개발하였다. 겔 전기영동을 통한 기존 방법론의 시간 소요 한계점을 해결하고자, 미세유체역학적 농축 장치의 동역학 자료를 분석 대상으로 하여 실험 분석 과정 중의 시간 소요 문제점을 해결하였다. 동역학 자료를 공간시간 지도로 재구성하여 학습 및 예측에 필요한 계산용량을 낮추었으며, 공간시간 지도에 대한 분석 정확도를 높이기 위해 합성곱 신경망을 활용하였다. 그 결과, 단일 변수 회귀로써의 단일 DNA 길이 예측과 복합 변수 회귀로써의 다종 DNA 길이의 동시 예측 및 이진 분류로써의 DNA 혼합 종 개수 예측을 성공적으로 수행하였다. 추가적으로, 예측 과정 중 발생할 수 있는 예측 편향을 학습 자료 구성 방식을 통한 해결책을 제시하였다. 본 연구를 활용한다면, 광학 측정 자료를 이용하는 액체생검 기반의 세포유리 DNA 분석 및 암 진단 등의 의학 자료 분석을 효과적으로 수행할 수 있을 것이다.
Machine learning techniques utilizing neural networks have been employed in various fields such as disease gene discovery and diagnosis, drug development, and prediction of drug-induced liver injury. Disease features can be investigated by molecular information of DNA. In this study, we developed a neural network to predict the length of DNA and the number of DNA species in mixture solution which are representative molecular information of DNA. In order to address the time-consuming limitations of gel electrophoresis as conventional analysis, we analyzed the dynamic data of a microfluidic concentrating device. The dynamic data were reconstructed into a spatiotemporal map, which reduced the computational cost required for training and prediction. We employed a convolutional neural network to enhance the accuracy to analyze the spatiotemporal map. As a result, we successfully performed single DNA length prediction as single-variable regression, simultaneous prediction of multiple DNA lengths as multivariable regression, and prediction of the number of DNA species in mixture as binary classification. Additionally, based on the composition of training data, we proposed a solution to resolve the problem of prediction bias. By utilizing this study, it would be effectively performed that medical diagnosis using optical measurement such as liquid biopsy of cell-free DNA, cancer diagnosis, etc.

The Korean Institute of Chemical Engineers. F5, 119, Anam-ro, Seongbuk-gu, 233 Spring Street Seoul 02856, South Korea.
Phone No. +82-2-458-3078FAX No. +82-507-804-0669E-mail : kiche@kiche.or.kr

Copyright (C) KICHE.all rights reserved.

- Korean Chemical Engineering Research 상단으로