Ⅰ. INTRODUCTION
골다공증은 골량의 감소와 미세구조의 이상을 특징으로 하는 전신의 골격계 질환이며, 결과적으로 골절되기 쉬운 상태가 된다1,2). 골다공증은 자각 증상 없이 점진적으로 진행되기 때문에 대부분의 환자들은 골다공증성 골절이 발생한 후에 진단을 받게 된다. 골다공증에 의한 골절 후의 치료보다 골다공증의 조기 진단 및 골절의 예방이 중요하다3,4). 골다공증의 표준진단 영상검사인 이중에너지엑스선흡수계측법(dual energy X-ray absorptiometry, DXA)은 짧은 측정 시간과 우수한 정확도 및 해상도를 갖지만 모든 병원에서 사용이 가능하지는 않으며, 진단비가 높다는 단점이 있다5). 한편, 치과파노라마방사선영상에서 하악하연의 피질골부위를 평가함으로써 골다공증을 진단할 수 있다고 보고되었다. 하악 하연 두께와 형태의 변화와 하악 치조골의 흡수정도는 전신적인 골다공증정도를 표현하는 요추와 대퇴골경부의 골밀도와 밀접한 관련성이 존재한다6-8). 파노라마방사선영상촬영술은 매우 보편적이고 촬영술이 간편하며, 악골과 치아 주위 조직에 대한 광범위한 정보를 제공하며 상대적으로 방사선 피폭량이 적고, 촬영 비용이 저렴하다는 장점이 있다9). 최근 파노라마방사선영상을 통한 골다공증의 진단에 CNN을 활용한 연구들이 보고되었다10-13). 최초로 CNN을 파노라마방사선영상에 적용하여 연구한 Lee 등10)의 연구에서는 연구영역(region of interest, ROI)을 하악하연을 포함한 치조골 하방부위로 제한하였고, CNN은 정확도 98.5%로 골다공증 판독에 대한 우수함을 보여주었다.
CNN의 연구에서 파노라마방사선영상에서 골다공증 판독을 위해 하악하연 부위를 포함한 국한된 ROI를 설정하는 이유는 영상치의학전문의가 파노라마방사선영상에서 하악하연의 피질골을 육안으로 확인하여 골다공증을 판독하기 때문이었 다10-15). 한편, 상악 및 하악을 포함한 광범위한 ROI를 사용한 연구에서 상악 및 하악 해면질골 부위가 민감한 것이 발견되었다16,17). 또한 ROI를 제한하지 않고 경추가 포함된 영상에서 골다공증을 판정하는 연구에서 하악 하연부위 피질골 뿐 아니라 상악골, 경추, 관골 등에서 CNN이 민감하게 반응하는 것을 알 수 있었다18,19). 골다공증이 전신 골격계에서 발생하는 질환이기 때문에 제한하지 않은 영상에서 이러한 높은 판독능을 보이는 것은 합리적인 결과라고 할 수 있다11,20-22).
기존 연구들을 검토할 때, ROI를 설정할 필요가 있는가에 대한 의문이 든다. 또한 원본영상과 ROI를 설정한 영상에서 CNN은 어떠한 차이를 나타낼 것인가에 대해서 동일 환자에서 비교할 필요가 있다. 본 연구는 파노라마방사선영상을 원본영상(original image)과 영상치의학 전문의들이 골다공증을 판독할 때 사용한 하악하연 피질골을 포함한 ROI를 설정한 제한 영상(limited)으로 구분하여 paired test를 시행함으로써 CNN이 골다공증 판정을 하는데 어떠한 차이를 보이는지를 연구하고자 시행되었다.
Ⅱ. MATERIALS and METHODS
1. 데이터 준비
연구대상자는 2009~2016년 전남대학교 치과병원을 방문한 여성환자들이었으며, 이들 중 골다공증과 정상이 명확하게 판정되는 661명(평균연령 66.3세 ± 11.42)의 치과용 파노라마방 사선영상을 추출하여 사용하였다. 이 중 골다공증 환자는 345명(평균연령 72.56세 ± 7.99), 정상환자는 316명(평균연령 53.19세 ± 2.58)이다. 모든 파노라마방사선영상은 10년 이상의 경력을 가진 2명의 영상치의학과 전문의에 의하여 Klemetti 등의 분류에 따라 골다공증과 정상으로 분류되었다11). 파노라마방사선영상이 경추를 포함하지 않는 경우와 골다공증과 정상군 사이에서 판독이 불명확하거나 두 전문의의 판정이 일치하지 않는 경우는 연구대상에서 제외되었다. 병적 골 변화 또는 하악의 수술 병력이 있거나, 골다공증을 제외한 다른 전신 질환이 있는 환자는 연구 대상에서 제외되었다. 또한 환자의 움직임이 있거나 두부의 위치가 올바르지 않은 상태에서 촬영된 영상은 제외되었다. 파노라마방사선영상은 디지털파노라 마방사선영상촬영장비 Kodak 8000C(Care stream Health Inc., Rochester, NY)로 73 kVp와 12mA 13.2s의 조건에서 촬영되었다. 판독은 M6(Infinitt Healthcare, Seoul, ROK)를 사용하여 시행하였다.
총 661명(평균연령 66.3세 ± 11.42)의 치과파노라마방사선 영상에서 하악골 후방부 피질골을 포함한 영역을 각각 좌측과 우측으로 나누어 ROI를 설정하고, 나머지 부분을 흑색으로 masking하여 제한영상을 형성하였다(Fig. 1).
2. 딥러닝 training 및 testing
딥러닝 합성곱 모델의 일종인 VGG-16을 사용하였다. VGG-16은 총 13개의 합성곱층(convolution layer) 3개의 완전연결층(originally Connected Layer)으로 구성되어 있으며 층층이 쌓여있는 구조를 지나 original connected layer를 통하여 output을 도출하는 구조를 갖는다. 합성곱층의 경우 3x3 합성곱(Convolution) 필터를 적용한다. 본 연구에서는 gradient- weighted class activation mapping (Grad-CAM)을 적용하기 위하여 global average pooling (GAP) layer를 사용하였다. Training을 위한 optimizer로 확률적 경사하강법(stochastic gradient descent; SGD)을 사용하였고, 설정값은 learning rate 0.005, momentum 0.9로 하였다. Loss-entropy의 경우 categorical cross entropy를 사용하였으며, 100회의 epoch 를 수행하였다(Fig. 2).
원본영상를 사용한 testing 1과 제한영상을 사용한 testing 2로 두 번 paired test를 시행하였으며, 이를 위해 동일한 training, validating, testing set를 testing 1, 2에서 사용하였다(Table 1).
골다공증 또는 정상의 판정에서 딥러닝 모델의 예측 과정을 시각화하기 위해 Grad-CAM을 이용하여 heatmap image를 생성하였다. 각각의 파노라마방사선영상에서 딥러닝 모델의 판정에 중요하게 영향을 끼친 영역이 판정에 영향을 미치는 정도에 따라 청색(낮음)에서 적색(높음)까지의 색깔 분포로 표시되었다. 주황색 또는 적색으로 나타난 영역을 민감영역 (sensitive region)으로 판정하였다. 제한영상에서는 좌우측 중 민감영역이 더 넓은 측을 기준으로 판정하였다.
생성한 heatmap image에서 각각의 원본영상과 제한영상의 ROI 내 민감영역 위치를 우측 해면골, 우측 피질골, 좌측 해면골, 좌측 피질골 총 4개의 부위로 구분하고 각각의 넓이를 측정하였다. MS-PowerPoint상에서 GoExplore Consulting-PowerPoint Polygon Areas를 이용하여 민감영역의 면적(㎠)을 얻었다22). MS-Powerpoint 슬라이드 상에서 측정된 민감영역의 면적을 실제 파노라마방사선영상에서의 면적으로 변환하기 위해 M6 상에서 파노라마방사선영상의 면적과 MS-Powerpoint 상에서의 파노라마방사선영상의 면적 비율을 계산하였다 (M6 : MS-Powerpoint = 2.56 : 1.00). 측정값의 정확성을 위해 3번 씩 계측하여 평균을 얻었다.
3. 통계분석
골다공증군을 대상으로하여 원본영상과 제한영상에서 측정된 민감영역의 면적을 IBM SPSS Statistics 29.0.2.0을 이용하여 paired t-test를 시행하였다.
Ⅲ. RESULTS
VGG-16의 training을 위해 골다공증 243명 (평균연령 72.67세 ± 7.97)과 정상 222명 (평균연령 53.21세 ± 2.46)의 파노라마방사선영상을 사용하였고, 골다공증군 51명 (평균연령 72.78세 ± 8.3)과 정상군 47명(평균연령 53.32세 ± 2.81)의 파노라마방사선영상을 이용하여 원본영상과 제한영상에서 testing 1과 testing 2를 각각 시행하였다. Testing 1에서 VGG-16의 판정 정확도는 97%였다. testing 2에서 VGG-16의 판정 정확도는 100%였다(Table 2). 골다공증으로 판정된 51장의 골다공증군 원본영상에서 민감영역은 하악하연 피질골과 하악 해면질골에서 각 96.08%(49/51)로 가장 많이 나타났으며, 이어서 경추와 상악 해면질골에서 각 70.59%(36/51), 관골 부위에서 54.9%(28/51)로 많이 나타났다. 정상으로 판정 된 44장의 정상군 원본영상에서 민감영역은 하악하연 피질골과 하악하연 하방 부위, 그리고 하악 해면질골에서 모두 100%(44/44)의 비율로 나타났다. testing 2에서 하악하연 피질골과 하악하연 하방 부위, 그리고 하악 해면질골에서 모두 100%로 표시되었다(Figs. 3-4, Tables 3-4).
골다공증군에서 동일 ROI 내에서 민감영역에 어떠한 차이 가 있는지를 확인하기 위해, 원본영상과 제한영상에서 각각 좌우 ROI를 합하여 총 102개의 ROI가 사용되었다. 원본영상에서 ROI 내 하악 해면골 부위 민감영역의 평균 면적은 5.49 ± 3.28㎠ 이었으며, 제한영상에서는 1.48 ± 0.68㎠으로 나타났다. ROI 내 하악하연 피질골 부위 민감영역의 평균 면적은 원본영상에서 0.98±0.61㎠, 제한영상에서 0.50 ± 0.24㎠으로 나타났다. 해면골과 피질골 부위 모두에서 두 image 간에 유의한 차이가 있었다(p<.05)(Fig. 5, Table 5).
Ⅳ. DISCUSSION
본 연구는 파노라마방사선영상을 원본영상(original image)과 영상치의학 전문의들이 골다공증을 판독할 때 사용한 하악하연 피질골을 포함한 ROI를 설정한 제한영상(limited)으로 구분하여 paired test를 시행함으로써 CNN이 골다공증 판정을 하는데 어떠한 차이를 보이는지를 연구하고자 시행되었다.
골다공증은 골밀도 측정을 통해 진단되며, 엉덩이나 요추, 척추의 골밀도를 젊은 성인의 평균 골밀도와 비교했을 때 T score -2.5이하인 경우가 골다공증(osteoporosis)으로, -1에 서 -2.5 사이인 경우가 골다공증 이전 단계인 골감소증(osteopenia)으로 진단된다2). 골밀도는 성장기 동안 최대 골질량에 도달한 이후 연령의 증가에 따라 서서히 감소하며, 골밀도의 감소로 인한 골다공증은 많은 경우에서 궁극적으로 골다공증성 골절을 유발한다. 이는 특히 노인기 골절의 주요한 원인으로 파악되고 있다22,23). 최근 파노라마방사선영상을 통한 골다공증의 진단에서 합성곱신경망(CNN)을 활용한 연구들이 적극적으로 진행되어오고 있다10,16-19,24). 파노라마방사선 영상을 통한 AI의 골다공증 진단에 관한 초기 연구들에는 여러 가지 인공지능 기술 중 주로 퍼지신경망(Fuzzy Neural Networks : FNN)이 활용되어왔다12,14). FNN은 규칙을 입력하고 입력된 규칙에 따라 영상을 분석해내는 방식을 통해 판독한다. 반면, 인공지능 딥러닝의 여러 분류 중 근래 가장 주목을 받고 있는 신경망인 CNN은 training된 데이터들을 바탕으로 영상을 분석해낸다. Training을 위해 주어진 영상을 각각 레이어화하고, 그 레이어들 사이에서 여러 영상의 특징을 인식하고 추출하며 스스로 training한다25). CNN을 이용한 골다공증의 판정에 대한 이전의 연구들에서 CNN은 민감도 91.5-100%, 특이도 52.9-99.0%, 정확도 84.84-99.25%를 보였다10,16-18,20,24,26,27). 본 연구에서 사용된 VGG-16은 딥러닝 합성곱 모델의 일종으로 Simonyan과 Zisserman에 의해 개발되었으며, ImageNet Large Scale Visual Recognition Challenge(영상인식경진대회)에서, 92.7%의 우수한 정확도를 달성한 모델이다28). 본 연구에서 AGG-16은 파노라마방사선영상에서 골다공증 판정에 있어서 원본영상에서 97%, 제한영상에서 100%의 우수한 정확도를 보였다(Table 2).
CNN의 골다공증 판정능력에 대한 결과는 실험 대상의 조건과 설정된 ROI에 따라 차이가 발생할 수 있다. FNN을 사용한 앞선 연구들에서는 Klemetti등 대부분의 영상치의학 전문의들이 파노라마방사선영상에서의 골다공증 판정에 주로 이용하는 영역인 양측 하악하연 피질골을 포함한 ROI가 설정되었다11). CNN을 활용한 파노라마방사선영상에서의 골다공증 판정에 관한 많은 연구들에서 FNN을 활용했던 앞선 연구들과 동일하게 하악하연 피질골을 포함한 ROI가 설정되었다24,26). 한편, ROI를 상하악을 포함한 넓은 영역으로 설정한 연구에서 CNN이 골다공증을 판정하는 데에 있어서 상하악 치조골의 해면골에 대해 민감하게 반응하였음이 보고되었다17). 또한 ROI를 제한하지 않은 전체 영상을 사용하여 CNN의 판독 민감부위를 확인한 연구에서는 CNN은 하악하연 피질골(72.2%) 뿐 아니라 경추(70.8%), 하악해면골(33.3%), 상악 해면골(20.8%)에서도 민감하게 반응한 것이 밝혀졌다18). 본 연구에서 ROI로 제한하지 않은 원본영상을 사용했을 때, CNN은 골다공증군의 하악하연 피질골(96.08%)뿐 아니라 경추(70.59%), 하악 해면골(96.08%), 상악 해면골(70.59%) 그리고 관골(54.9%)에서 민감하게 반응하였다. 제한영상을 사용했을 때, CNN은 골다공증군의 하악하연 피질골(100%)과 하악 해면골(100%) 모두에서 민감하게 반응하였다. 즉, 골다공증에 의해 발생되는 골의 변화에 대해 CNN이 다양한 부위의 골에서 민감하게 반응한다는 것을 알 수 있었다. 이는 앞선 연구들과17.18) 유사한 결과로, 신체의 특정 부위에만 국한되는 질병이 아닌 전신적 골격계 질환에 해당하는 골다공증의 특성을 잘 보여주는 결과로 생각된다(Fig.s 3-4, Tables 3-4).
CNN이 피질골 뿐 아니라 해면골에서도 민감하게 반응하는 것은, CNN의 인식 능력이 육안의 인식 한계를 월등히 뛰어넘기 때문일 것이다. 사람의 눈은 이상적 환경에서 약 60단계의 회색조 정도를 구분할 수 있으며, 일반적인 치과 진료실 환경에서는 30단계 이하의 회색조만을 구분할 수 있다. 이는 사람의 눈이 파노라마방사선영상에서 해면골의 미세한 골다공증성 변화를 인식할 수 없음을 뜻한다. 그러므로 영상치의학과 전문의들은 파노라마방사선영상에서 피질골 부위만을 이용해 골다공증을 판독해왔다. 반면 CNN의 경우 214 이상의 미세한 회색조를 구별할 수 있다. CNN은 파노라마방사선영상에서 사람의 눈으로 구별할 수 없는 해면골의 미세한 변화를 인식 할 수 있다29,30).
골 조직에서는 지속적인 골의 재형성이 일어난다. 해마다 피질골은 전체 부피의 3%가 교체되는 반면 해면골은 전체 부피의 26%가 교체된다31). 빠른 골교체율로 인해, 골다공증 초기에는 주로 해면골에서 골 소실이 발생하며, 이후 피질골로 확장된다. 이는 골다공증성 골절에 대한 역학 자료와도 일치 한다. 65세 미만의 사람들에서는 해면골 골절인 척추 압박 골 절이, 65세 이후에는 피질골 골절인 고관절 골절이 가장 빈번히 발생한다32). 그러므로 파노라마방사선영상의 피질골에서 골다공증성 소견이 관찰된다는 것은 해면골에서 이미 상당한 골 변화가 진행되었다는 것이다. 본 연구에서 CNN은 하악하연 피질골 뿐 아니라 경추, 상악골, 하악골, 관골 등 다양한 해면골 영역에서 민감하게 반응했다. 이는 초기 해면골의 소실에서 후기 피질골의 소실로 이어지는 골다공증의 진행 과정을 고려할 때, 매우 타당한 결과로 생각된다. CNN이 사람의 눈으로 인식할 수 없었던 특징을 해면골에서 추출한 것이라면, 이는 골다공증의 조기 진단에 중요한 근거가 될 수 있을 것이다.
또한 본연구에서는 골다공증군에서 원본영상과 ROI를 설정한영상을 동일한 범위 내에서 비교하기 위해, 흑색으로 덮이지 않은 ROI 내부의 민감영역 면적만이 측정되었다. 민감영역은 각 ROI 내부의 하악 해면골과 하악하연 피질골을 구분하여 측정되었다. 원본영상를 입력했을 때, CNN은 제한영상보다 약 3.71배 넓은 하악 해면골과 약 1.96배 넓은 하악하연 피질골 영역에서 민감하게 반응하였으며, 면적에 있어서 유의한 차이를 보였다. (p<.05)(Fig. 5, Table 5).
본 연구에서 CNN은 원본영상에서 골다공증을 판단할 때 하악하연 피질골 뿐 아니라 상하악 해면질골, 경추, 관골의 광범위한 영역에서 민감함을 나타내었다. 또한 골다공증군의 하악하연을 포함한 ROI를 동일하게 적용하여 원본영상과 제한영상에서 민감영역을 비교했을 때, 원본영상을 사용한 경우가 제한영상에서 더 넓은 해면골과 피질골 영역에서 민감하게 반응하였다(p<.05). 그러나 제한영상에서보다는 골다공증 판정의 정확도가 낮았다. 본 연구의 한계점은 training 및 testing 에 사용된 데이터의 양이 적었다는 것이다. 또한 현재 골다공증의 진단에 가장 보편적으로 사용되는 방법인 DXA 정보 없이 파노라마방사선영상만을 통해 골다공증을 진단했기 때문에, 연구의 정확성을 평가하기가 어려웠다. 이러한 점을 보완한 추후 연구가 필요한 것으로 생각된다.