Conflict of Interest
In relation to this article, we declare that there is no conflict of interest.
Publication history
Received May 23, 2023
Revised July 5, 2023
Accepted September 1, 2023
3D 프린팅 소재 화학물질의 독성 예측을 위한 Data-centric XAI 기반 분자 구조 Data Imputation과 QSAR 모델 개발

Data-centric XAI-driven Data Imputation of Molecular Structure and QSAR Model for Toxicity Prediction of 3D Printing Chemicals

Kyung Hee University
Korean Chemical Engineering Research, November 2023, 61(4), 523-541(19), 10.9713/kcer.2023.61.4.523 Epub 1 November 2023
3D 프린터의 활용이 높아짐에 따라 발생하는 화학물질에 대한 노출 빈도가 증가하고 있다. 그러나 3D 프린팅 발생

화학물질의 독성 및 유해성에 대한 연구는 미비하며, 분자 구조 데이터의 결측치로 인해 in silico 기법을 사용한 독성

예측 연구는 저조한 실정이다. 본 연구에서는 화학물질의 분자구조 정보를 나타내는 주요 분자표현자의 결측치를 보

간하여 3D 프린팅의 독성 및 유해성을 예측한 Data-centric QSAR 모델을 개발하였다. 먼저 MissForest 알고리즘을 사

용해 3D 프린팅으로 발생되는 유해물질의 분자표현자 결측치를 보완하였으며, 서로 다른 4가지 기계학습 모델(결정

트리, 랜덤포레스트, XGBoost, SVM)을 기반으로 Data-centric QSAR 모델을 개발하여 생물 농축 계수(Log BCF)와

옥탄올-공기분배계수(Log Koa), 분배계수(Log P)를 예측하였다. 또한, 설명 가능한 인공지능(XAI) 방법론 중 Tree-

SHAP (SHapley Additive exPlanations) 기법을 활용하여 Data-centric QSAR 모델의 신뢰성을 입증하였다. MissForest

알고리즘 기반 결측지 보간 기법은, 기존 분자구조 데이터에 비하여 약 2.5배 많은 분자구조 데이터를 확보할 수 있었

다. 이를 바탕으로 개발된 Data-centric QSAR 모델의 성능은 Log BCF, Log Koa와 Log P를 각각 73%, 76%, 92% 의

예측 성능으로 예측할 수 있었다. 마지막으로 Tree-SHAP 분석결과 개발된 Data-centric QSAR 모델은 각 독성치와 물

리적으로 상관성이 높은 분자표현자를 통하여 선택함을 설명할 수 있었고 독성 정보에 대한 높은 예측 성능을 확보할

수 있었다. 본 연구에서 개발한 방법론은 다른 프린팅 소재나 화학공정, 그리고 반도체/디스플레이 공정에서 발생 가

능한 오염물질의 독성 및 인체 위해성 평가에 활용될 수 있을 것으로 사료된다.

As accessibility to 3D printers increases, there is a growing frequency of exposure to chemicals associated

with 3D printing. However, research on the toxicity and harmfulness of chemicals generated by 3D printing is

insufficient, and the performance of toxicity prediction using in silico techniques is limited due to missing molecular

structure data. In this study, quantitative structure-activity relationship (QSAR) model based on data-centric AI approach

was developed to predict the toxicity of new 3D printing materials by imputing missing values in molecular descriptors.

First, MissForest algorithm was utilized to impute missing values in molecular descriptors of hazardous 3D printing

materials. Then, based on four different machine learning models (decision tree, random forest, XGBoost, SVM), a

machine learning (ML)-based QSAR model was developed to predict the bioconcentration factor (Log BCF), octanol-air

partition coefficient (Log Koa), and partition coefficient (Log P). Furthermore, the reliability of the data-centric QSAR

model was validated through the Tree-SHAP (SHapley Additive exPlanations) method, which is one of explainable artificial

intelligence (XAI) techniques. The proposed imputation method based on the MissForest enlarged approximately 2.5

times more molecular structure data compared to the existing data. Based on the imputed dataset of molecular descriptor, the developed data-centric QSAR model achieved approximately 73%, 76% and 92% of prediction performance for Log

BCF, Log Koa, and Log P, respectively. Lastly, Tree-SHAP analysis demonstrated that the data-centric-based QSAR

model achieved high prediction performance for toxicity information by identifying key molecular descriptors highly

correlated with toxicity indices. Therefore, the proposed QSAR model based on the data-centric XAI approach can be

extended to predict the toxicity of potential pollutants in emerging printing chemicals, chemical process, semiconductor

or display process.


