Ⅰ. INTRODUCTION
골다공증은 골조직의 위축으로 피질골에서는 하버스관이 굵어지면서 다공성하게 변하고 해면골에서는 골소주의 두께 와 숫자가 감소하면서 골강도가 약해지는 질병이다1). 골다공 증은 연령이 증가함에 따라 비례하여 발병률이 상승되는 대표 적인 질환으로, 사회가 고령화가 될수록 골다공증의 발생이 증가한다2-4). 세계보건기구에 따르면 골다공증은 삶의 질 저 하, 후천적 장애, 그리고 높은 유병률과 사망률 때문에 글로벌 공중 보건의 주요 문제로 간주되고 있다5).
파노라마방사선사진은 촬영 술식이 비교적 간편하고 촬영 시간이 짧으며 상,하악골의 치아 및 치아 주위 조직을 전반적 으로 관찰할 수 있어서 환자들이 치과에 내원할 때 유용한 진 단 정보를 제공한다6). 파노라마방사선사진을 통해 여러 가지 방법들로 골다공증을 판독할 수 있다. 골다공증을 진단하는데 표준검사인 이중에너지 방사선측정법(dual energy X-ray absorptiometry, DXA)로 측정된 요추 및 대퇴골 경부의 골밀도 와 파노라마방사선사진에서 관찰된 하악하연 형태 변화와 치 조골의 흡수 정도는 유의미한 상관관계를 갖는다7-13).
합성곱신경망(convolutional neural networks, CNN)은 영 상 판독 적용되는 인공지능 중의 하나이며, 현재 이미지 분류 에 있어서 가장 널리 사용되고 있으며 2012년 이후부터 ImageNet challenge에서 최고의 성적을 보여주고 있다14). 최 근 우리 연구팀은 CNN을 파노라마방사선사진으로 학습시켜 서 골다공증의 판독에 대한 테스트 결과를 발표하였다15,16). Lee 등15)의 연구에서는 연구영역(region of interest, ROI)을 하악하연을 포함한 치조골 하방부위로 제한하여 CNN의 정확 도를 확인하였고, Kim 등16)의 연구는 상하악의 넓은 부위로 ROI를 설정하여 CNN의 정확도를 연구하였으며, 두 연구에서 모두 골다공증을 판독하는 데 있어서 CNN은 매우 높은 정확 도를 보여주었다.
CNN이 영상에서의 판독 정확도를 검사하는 것과 민감영역 을 확인하는 것이 CNN의 판독의 신뢰성 평가에 중요할 것이 다. Lee 등17)의 연구에서는 다양한 CNN의 변환학습(transfer learning)을 통해 골다공증의 특징을 평가하고 분류하였을 때 치아 하방 하악에 국한한 ROI에서 하악하연 피질골에 민감하 게 반응하였다.
본 연구는 Kim 등16)의 후속연구로서 ROI를 상하악을 포함 한 넓은 영역으로 설정하였을 때, 골다공증 판독 시 CNN과 구강악안면방사선전문의가 판독하는 영역의 민감부위가 일치 하는지 확인하고자 하였다.
Ⅱ. MATERIALS and METHODS
1. 연구대상
본 연구는 전남대학교 치과병원 생명의학연구윤리심의위 원회의 승인을 받고 시행되었다(CNUDH-2017-014).
2009년부터 2017년에 전남대학교 치과병원을 방문한 1,170 명(평균나이 49.19 ± 21.91세, 최소 21세, 최대 84세)의 여성 환자를 대상으로 촬영한 파노라마방사선사진을 이용하여 연 구를 시행하였다. 병적 골 변화 또는 하악의 수술 병력이 있거 나, 골다공증을 제외한 다른 전신질환이 있는 환자는 연구 대 상에서 제외되었다. 또한 환자의 움직임이 있거나 두부의 위 치가 올바르지 않은 상태에서 촬영된 것은 제외되었다. 파노 라마방사선사진은 디지털파노라마방사선사진촬영장비 Kodak 8000C(Care stream Health Inc., Rochester, NY)로 73 kVp와 12Ma 13.2s의 조건에서 촬영되었다. 본 연구는 임상시험심사 위원회의 승인(CNUDH-2018-014)을 받고 진행되었다.
2. 파노라마방사선사진을 이용한 골다공증의 판독
모든 파노라마방사선사진은 10년 이상 경력의 구강악안면 방사선학 전문의 2명이 Klemetti 등18)의 분류에 따라 골다공 증 여부를 각각 판독하였다16). 판독결과 1,170명 중 586명(평 균 나이 27.46 ±6.73세)은 정상군이였고, 584명(평균 나이 71.00 ± 7.64세)는 골다공증군이었다.
3. 데이터 전처리 및 데이터 증강
원본 파노라마방사선사진의 크기는 2411~2628 x 1244 픽 셀이었다. 연산 처리와 메모리 기능의 효율성을 높이기 위하 여 파일크기를 620 x 340까지 낮추었다. 상하악 치조골을 포 함하여 코 부위 아래로 관심영역(Region of interest, ROI)을 설정하면서 620 x 240 픽셀이 되었다. 골다공증을 진단할 때 척추의 C8보다 아래에서 진단한다는 점과 학습데이터가 적은 점을 고려하여 580 x 240 픽셀의 크기로 설정하였다(Fig. 1).
4. Convolutional Neural Networks 학습 및 테스트
AlexNet을 변형한 구조의 CNN을 사용하였으며 NVDIA GTX980 GPU를 이용한 Theano로 학습시켰다(Fig. 1).
본 연구에서 사용한 합성곱신경망은 합성곱 계층과 최대풀 링 계층 그리고 ReLU 활성화 계층(activation layer)으로 이루 어진 4개의 층으로 구성되었다. 합성곱 계층을 이루고 있는 필터 또는 커널(kernels)의 크기는 7x7,5x5,3x3,3x3이었고 이 를 통해 특징 맵을 추출할 수 있었다. 3개의 완전연결 계층과 분류 프로그램인 SoftMax를 사용하여 정상군과 골다공증군을 분류하였다. 분류의 정확도를 떨어뜨리는 과적합(overfitting) 을 줄이기 위하여 드롭아웃(Dropout), L1과 L2정규화(L1 and L2 regularization), 그리고 조기종료(early stopping)의 정규화 방식을 적용하였다.
CNN을 정상군 569명(평균나이 26.61 ± 4.60세, 최소 21세, 최대 39세)과 골다공증군 502명(평균나이 72.37 ± 7.10세, 최 소 52세, 최대 84세)으로 학습시켰고 정상군 17명(평균나이 55.94 ± 4.03세, 최소 50세, 최대 63세)과 골다공증군 82명(평 균나이 62.60 ± 5.00세, 최소 53세, 최대 70세)으로 테스트하 였다. CNN의 학습과 테스트의 정확성은 Kim 등16)의 연구에 서 확인되었다.
5. CNN의 민감부위의 시각화
Deconvolutional Network(deconvnet)을 통해 완전연결 계 층부터 역연산 방법으로 CNN의 의사결정을 시각화 할 수 있 었다. Switch 변수를 통해 unpooling하여 최대풀링 과정을 재 구성하고 각 필터를 뒤집어 사용하여 시각화 하였다19). 이러 한 민감영역의 시각화는 99장의 모든 테스트데이터에 대하여 시행되었다.
Ⅲ. RESUTLS
정상군과 골다공증군을 구분하는데 가장 큰 영향이 있었던 부분을 알기 위해 네번째 합성곱 계층의 특징 맵 반응을 최대 화시켰다(Fig. 2). 정상군과 골다공증군에서 치아와 하악하연 에 강하게 반응하였다. CNN이 파노라마방사선사진의 특징을 스스로 학습하고 찾아낸 것을 알 수 있었다(Fig. 2). 골다공증 을 분류하는데 있어서 CNN의 민감영역(sensitive area)을 확 인한 결과, 상하악의 해면골에 해당하는 부분에 민감하게 추 출 및 분류하였다. 입력데이터에서 민감영역 부분을 가렸을 때, 정확도가 떨어진 것을 확인하였다(Fig. 3).
Ⅳ. DISCUSSION
본 연구는 치과용 판독 영역에서 합성곱신경망(CNN)으로 골다공증을 판독하는 것을 적용하고자 하는 연속적인 연구의 일환으로 시행되었다15,16). CNN이 영상에서 어느 부위에 민감 한지를 확인하는 것이 CNN의 판독의 신뢰성 평가에 중요할 것이다. 따라서 본 연구의 목적은 골다공증 판독 시 CNN과 구강악안면방사선 전문의가 판독하는 영역의 민감부위가 일 치하는지 확인하고자 하였다.
골다공증은 뼈의 강도가 약해져서 골절의 위험이 증가하는 골격 장애로, 뼈 강도의 양적인 측면은 골밀도를 나타내고 질 적인 측면은 뼈의 광물화와 뼈의 미세구조(microarchitecture of the bone) 그리고 골전환율(bone turnover)을 나타낸다20). 골전환율은 해면골이 피질골보다 빨라서 골재형성시 해면골 이 피질골보다 더 빨리 영향을 받는다21). 초기 골다공증의 뼈 손실은 대부분 해면골에서 일어나며 65세 이하 환자에서는 척 추 압박 골절에 의한 해면골 골절이 더 흔히 나타나고 65세 이상 환자에서는 피질골 골절이 일어난다22).
본 연구를 통해 구강악안면방사선 전문의는 파노라마방사 선사진에서 피질골만을 판독하여 골다공증을 판독한 반면, CNN은 해면골에 민감하게 반응하여 골다공증을 분류한 것을 알 수 있었다(Fig. 3). 본 연구는 구강악안면방사선 전문의가 판독한 하악하연 피질골에 국한하지 않고 상악골을 포함하여 넓은 영역을 CNN에 입력하였다. 그 결과 CNN은 피질골에 대해서는 민감하게 반응하지 않았고 상하악 치조골의 해면골 에 대해서 민감하게 반응하였다.
구강악안면방사선 전문의들은 파노라마방사선사진을 통해 하악하연의 피질골을 판단하여 골다공증을 판독한다23-26). MCI는 검사자들이 하악하연의 형태만 보고 간단히 평가할 수 있고 구조의 중첩 없이 명확히 볼 수 있어서 검사자들간의 의 견이 동일하고 측정 에러를 줄일 수 있기 때문에 반복성이 높 다는 연구가 있다24). 파노라마방사선사진 상에서 해면골을 통 해 골다공증을 판독할 수 없었던 이유는 회색조(gray scale)를 구분하는데 한계가 있기 때문이라고 생각된다. CT에 의한 영 상이 12-16비트(4,096에서 65,536 회색조)를 가지고 있는 한 편, 사람은 900 이상의 회색조를 구별하지 못한다27). 골밀도 측정의 표준으로 사용되는 CT의 일종인 DXA는 골밀도에 영 향을 주는 인자들에 민감한 해면골의 손실을 측정하여 판독한 다28). 골다공증 판독에 있어서 해면골의 중요성은 알려진 사 실이지만, 파노라마방사선사진에서 해면골의 상태를 평가하 여 골다공증을 판독하기에는 어려움이 있다. 해면골 구조를 볼 수 있는 프랙탈 분석법의 정확성에 대해서는 논란이 많기 때문에 실제 임상에 적용하기가 어렵고24), 턱의 해면골 형태 는 척추나 대퇴골에 비해 다양하기 때문에 검사자들이 같은 평가를 내리기에 어려움이 있다23).
CNN이 해면골에 대해서 민감하게 반응한 것은, CNN의 인 식능력이 사람의 눈보다 더 높기 때문일 것으로 생각된다. CNN이 더 많은 회색조를 구분할 수 있기 때문에 사람이 구분 하지 못했던 중요한 특징을 해면골에서 추출한 것이라면 골다 공증의 조기 진행을 판단하는데 있어서 중요한 정보가 될 것 이다. CNN이 해면골에 민감하게 반응하는 것을 통해, 골다공 증에 있어서 피질골 변화보다 해면골에 더 큰 변화가 있다는 것을 알 수 있었다. CNN이 이미지 분류에 뛰어난 이유는 필 터(fillers)가 이동하면서 전체 이미지의 특징을 찾고 물체의 위치와 왜곡에 상관없이 이미지를 분류할 수 있기 때문이다. CNN 구조는 다양하지만 일반적으로 합성곱 계층(convolutional layer)과 풀링 계층(pooling layer)으로 이루어져 있다. 합성곱 계층은 특징 추출기로서 입력된 이미지에서 동일한 특징 부분 을 탐색하면서 배워 특징을 추출한다. 합성곱 계층의 신경망 은 특징 맵으로 구성되어있다. 풀링 계층은 각 특징 맵의 해상 도를 줄여주며 물체의 위치와 왜곡에 영향을 받지 않고 물체 를 인식할 수 있게 해준다. 최대 풀링을 사용하면 속도가 증가 되고 영상의 분별력도 높아진다. 완전연결 계층(fully connected layer)은 합성곱 계층과 풀링 계층을 추상적인 정보로 나타낸다. 학습은 역전파(backpropagation)를 통해 오차를 줄 인다29). CNN은 지도학습(Supervised learning)으로 학습되어 지고, 학습 과정에서 업로드 된 이미지들의 특징을 자동으로 추출하여 신경망에 저장하였다가 새로운 데이터를 분류하여 결과를 제공한다30). ImageNet Challenge31)에서 이미지를 분 류하는데 최근 CNN 사람보다 더 적은 오류율을 보였다.
CNN의 파노라마방사선사진상에서의 골다공에 대한 민감 영역의 연구는 Lee 등17)의 연구에서도 시행되었다. 그러나 ROI를 하악의 치조골 하방으로 제한하여 시행되었으며, 그 결 과 하악하연 피질골의 국소적인 부분이 민감영역으로 나타났 다. 본 연구는 ROI를 상하악의 넓은 영역으로 사용하였으며 민감영역도 Lee 등17)의 연구와는 차이가 있었다. 골다공증이 하악하연에만 제한되지 않고 악골의 전영역에 발생하는 질환 이기 때문에, ROI를 넓게 설정한 본 연구가 더욱 임상적 의의 가 높다고 생각된다.
본 연구의 한계점은 학습 및 테스트데이터가 적었다는 것 이다. 식물과 동물 인식에 있어서 CNN의 학습에는 10,000장 이상의 다량의 학습데이터가 사용되는 것이 일반적이었다 32,33). 파노라마방사선사진상에서 골다공증에 대한 CNN 판독 능의 연구에서, Lee 등15)의 연구에서는 학습 및 테스트데이터 로 총 1,268장의 파노라마방사선사진을 사용하여, ROI 설정에 따라서 92.5-98.5%의 정확도를 얻었다. Kim 등16)의 연구에서 는 CNN의 총 1,170장의 파노라마방사선사진을 사용하였으 며, 그 결과 민감도 91.5%, 특이도 52.9%, 정확도 84.8%의 결과를 얻었다. Lee 등17)의 연구에서는 총 680장의 파노라마 방사선사진만을 사용하여 CNN과 다양한 변환을 적용하여 연 구하였으며 그 결과 정확도는 66.0-84.0%로 나타났다. 이러한 결과들을 통해 적은 데이터로도 판독의 정확성이 더 높다는 것을 알 수 있었다. 특정 질환에 대하여 다량의 의료영상을 수집하기 어려운 의료 현실에서 CNN을 적용하는데 문제가 없다는 것을 알 수 있었다.
결론적으로, 본 연구는 상하악을 포함한 ROI의 파노라마방 사선사진으로 골다공증 판독 시 CNN과 구강악안면방사선 전 문의들이 판독하는 부위가 일치하는지 확인하고자 시행되었 으며, 그 결과, 구강악안면방사선 전문의들이 하악하연 피질 골 형태를 판독하여 골다공증을 판독한 반면, CNN은 해면골 부위에 민감하게 골다공증을 분류하였다.