Ⅰ. INTRODUCTION
치과용 진단 영역에서 파노라마방사선촬영술은 가장 보편 적이고 사용이 비교적 간편하며 저렴한 촬영술이다. 파노라마 방사선사진은 치아와 상,하악의 넓은 부분을 한 장의 사진에 담아 많은 진단 정보를 제공하는 반면 방사선 노출량은 상대 적으로 적다. 파노라마방사선사진은 다른 방사선 검사의 필요 여부를 결정하는 데도 이용된다.
최근 파노라마방사선사진을 통해 골다공증 여부를 진단하 는 연구가 다양하게 진행되고 있다. 몇몇 연구는 골다공증이 하악 피질골의 흡수와 밀접한 연관이 있음을 밝히고 있는데 [1], 이 사실은 대부분의 치과 환자들이 기본적인 검진을 위해 파노라마방사선사진을 촬영하는 가운데 치과 의사가 골다공 증 검진에 잠재적으로 가치 있는 자원이 될 수 있음을 나타낸 다. 즉 치과 의사가 조기에 하악 피질골의 흡수를 발견하면 환자에게 골다공증의 정밀 진단 및 관리를 위한 적절한 조언 을 할 수 있는 기회를 갖게 되는 것이다.
한편 옥스퍼드 대학교의 마틴 스쿨은 한 연구에서 인공지 능과 로봇공학의 컴퓨터화에 영향을 받기 쉬운 직업에 대해 조사했는데, 그 결과 2020년에서 2030년 사이에 2010년 미국 에 존재했던 직업 가운데 많게는 47퍼센트까지 자동화될 것이 라고 예상했다[2]. 이러한 인공지능의 파급력은 의료분야에도 미치고 있는데 ‘클라우스 슈밥의 제4차 산업혁명’은 그 단적인 예로 IBM의 ‘왓슨’을 들었다[3]. 왓슨은 몇 분 만에 질병과 치 료 기록, 정밀검사와 유전자 데이터 등을 거의 완벽한 최신 의학지식으로 비교, 분석하여 암 환자들에게 개인 맞춤형 치 료법을 제시한다. ‘세계미래보고서2018’에는 ‘의료 영상 분야 성공의 핵심은 장비 자체가 아니라 영상 정보를 해석하는 것 이다’라고 기록되어 있는데[4], 그런 관점에서 우리는 슈퍼컴 퓨터라는 하드웨어가 아닌 왓슨이라는 소프트웨어, 즉 인공지 능(AI)에 더 주목할 필요가 있음을 알 수 있다.
이렇게 영상 정보를 해석할 수 있는 AI에서 근래 많은 주목을 받고 있는 것이 합성곱신경망(Convolutional Neural Network ; CNN)이다. CNN은 다른 인공신경망 기법들보다 쉽게 훈련되 는 편이고 적은 수의 매개변수를 사용한다는 장점이 있어 특 히 영상, 음성 분야에서 좋은 성능을 보여준다. 현재 CNN은 의료 영상 데이터 분석에도 다양한 목적으로 적용이 시도되고 있다. 부위로 보면 뇌, 폐, 복부, 심혈관, 유방, 뼈, 안구 등에 관한 연구가 진행되고 있고, 연구되는 영상 데이터의 종류로 는 MRI, CT, 초음파, 엑스레이, 현미경 영상 등이 있다[5]. 이 렇게 연구되고 있는 영상 데이터의 대상 부위, 종류 등을 볼 때 의료 영상 데이터의 대부분의 영역이 CNN을 활용해 연구 되고 있음을 알 수 있다.
한편 임상에서는 디지털 진단 영상에 DR(Digital radiography) 과 CR(Computed radiography) 방식이 동시에 사용되고 있다. 두 방식은 디지털 영상 획득장치를 이용하여 디지털 영상을 획득하는 방법인데, 검출기(detector)에 따라 DR 방식과 CR 방식으로 구분한다. DR 방식은 CCD 또는 CMOS 센서, 평판 검출기(flat panel) 등에 X선이 노출된 양을 AD 변환기를 통해 디지털 신호로 전환하여 디지털영상을 획득하는 반면, CR 방 식은 영상판(image plate; IP)을 이용하여 영상을 획득하는 방 식으로 X선을 조사한 영상판에 레이저를 조사하여 스캐닝하 는 영상화 과정이 필요한 방식이다[6].
본 연구는 CNN을 치과용 진단 영역에 적용하여 골다공증 의 진단에 도입하기 위한 연속적인 연구의 일환으로 시행되었 다. Lee 등은 CNN을 활용하여 골다공증을 발견한 기초적 연 구를 수행하였는데, CNN이 높은 일치율로 골다공증을 발견할 수 있으며 그로 인해 치과의사에게 골다공증의 조기 발견을 위한 유용한 정보를 제공할 수 있음을 밝혔다[7]. 본 연구는 그 연장선상에서 그동안 CNN의 학습 자료와 테스트 자료 선 정에 있어서 DR과 CR 간의 차이를 연구한 논문이 아직 없었 다는 것에 주목했다. 본 연구는 DR 자료로 학습을 시킨 CNN 으로 DR과 CR 자료를 각각 테스트할 때의 정확도(Accuracy) 의 차이를 확인하였다.
Ⅱ. MATERIALS and METHODS
1. 연구 대상
연구 대상자는 2009년과 2016년 사이에 전남대학교 치과병 원을 방문한 여성 {평균 [± 표준편차] 나이: 52.5 ± 22.3세}이 었고, 치과 검사의 일환으로 촬영한 치과용 디지털 파노라마 방사선사진(digital panoramic radiograph)을 연구 대상으로 하였다. 병적 골 변화 또는 하악의 수술 병력이 있거나, 골다 공증을 제외한 다른 전신질환이 있는 환자는 연구 대상에서 제외하였다.
파노라마방사선사진은 DR 방식과 CR 방식 두 가지를 사용 하였는데, DR 방식은 Kodak8000c(Carestream Health Inc, Rochester, NY)을 사용하여 71kVp, 12mA, 13.2s의 조건에서 촬영하였다(Fig. 1).
CR 방식은 Orthopantomograph OP100(Instrumentarium Corp, Tuusula, FINLAND)을 사용하여 85kVp, 12mA, 17.6s의 조건에서 촬영하였다(Fig. 2).
2. 연구 방법
모든 파노라마방사선사진은 10년 이상의 경험을 가진 2명의 구강악안면방사선과전문의가 골다공증 여부를 판독하였다. 모 든 이미지는 PiViewStar PACS(Infinitt, Seoul, Korea)와 2048 × 2560의 화면 해상도(IF2105MP, WIDE, Seoul, Korea)를 사 용하여 평가되었다. 두 관찰자는 Klemetti 등의 분류에 따라 각 파노라마방사선사진의 mandibular cortical index(MCI)를 독립적으로 해석했다[8]. MCI는 C1, C2 및 C3의 세 그룹 중 하나로 분류되었다. C1은 골내 피질골 변연이 평평하고 날카 로운 마진을 갖는 경우, C2는 골내 변연 또는 골내 피질 잔존 골이 Semi-lunar 형태의 결손이 있는 경우, C3는 피질골에 명 확한 다공성이 관찰될 경우이다(Fig. 3). 이 중 C2, C3는 골다 공증으로 판독하였다. 또한 C1에서 두께가 얇은 경우 역시 골 다공증으로 판독하였다.
본 연구에서는 두 명의 관찰자가 동의할 때만 최종 진단이 이루어졌다. 골다공증과 정상군 사이에서 판독이 명확하지 않 거나 두 전문의가 동의하지 않을 경우는 연구대상에서 제외하 였다. 결과적으로 1068명의 여성환자{평균 [± 표준편차] 나이: 49.19 ± 21.91세}의 골다공증 또는 정상으로 명확하게 판독된 파노라마방사선사진을 연구 자료로 선정하였다.
CNN을 골다공증과 정상의 DR 파노라마방사선사진으로 각 각 학습시킨 후 골다공증 판독 능력을 테스트하였다. CNN은 NVDIA GTX980 GPU를 이용한 Theano를 사용하였다[9]. CNN 자료의 Region Of Interest(ROI)는 하악골 하방으로 국한하였다 (Fig. 4).
CNN은 각각 주어진 사진의 레이어를 분류하는 1단계를 거 친다. 이렇게 분류된 레이어에 Max pooling 과정을 거친다. Max pooling은 레이어의 출력 자료에서 특정 자료를 강조하 는 용도로 사용된다. 이렇게 강조된 pooling data에 대해 다시 2단계의 레이어를 추출해낸다. 동일하게 Max pooling 과정을 통해 특정 자료의 강조영상을 얻는다. 이렇게 5단계의 과정을 거쳐 마지막 출력층에서 Softmax라는 분류 프로그램을 통해 최종적으로 분류해낸다[10,11](Fig. 5).
3. CNN 자료의 학습(Training)과 테스트
2009년과 2016년 사이에 전남대학교 치과병원을 방문한 여 성 1068명 {평균 [± 표준편차] 나이: 52.5 ± 22.3세}을 선정하였 다. 환자들 중 535명 {평균 [± 표준편차] 나이: 28.6 ± 7.4세}은 골다공증이 없는 정상 환자였으며 골다공증을 가진 환자는 533 명 {평균 [±표준편차] 나이: 72.1 ± 8.7세}이었다. 이 1068명의 환자를 DR 방식의 파노라마방사선사진으로 촬영한 후 CNN으 로 학습시켰다(Table 1). 이 CNN으로 먼저 100명의 정상 환자 {평균 [±표준편차] 나이: 55.4 ± 5.8세}와 100명의 골다공증 환 자 {평균 [±표준편차] 나이: 72.4 ± 7.1세}의 DR 방식의 자료를 테스트하였다. 이후 100명의 정상 환자 {평균 [±표준편차] 나이: 56.4 ± 5.9세}와 102명의 골다공증 환자 {평균 [±표준편차] 나 이: 67.5 ± 7.8세}의 CR 방식의 자료를 테스트하였다(Table 2).
Ⅲ. RESULTS
1. 진단의 정확도
DR 방식의 정상군 535장과 피질골 흡수군 533장의 파노라 마방사선사진을 학습시킨 CNN으로 DR 방식의 정상군 100장 의 파노라마방사선사진을 테스트했을 때의 정확도는 89%, DR 방식의 피질골 흡수군 100장의 파노라마방사선사진을 테스트 했을 때의 정확도는 96%였다(Table 3). 동일한 CNN으로 CR 방식의 정상군 100장의 파노라마방사선사진을 테스트했을 때 의 정확도는 58%, CR 방식의 피질골 흡수군 102장의 파노라마 방사선사진을 테스트했을 때의 정확도는 94%였다(Table 4).
2. 진단의 통계적 자료
DR 자료로 학습시킨 CNN으로 DR 자료를 테스트했을 때의 민감도(Sensitivity)는 96%, CR 자료를 테스트했을 때의 민감 도는 58%로서 DR 자료에서 더 높은 민감도를 보였다. 특이도 (Specificity)는 DR 자료에서 89%, CR 자료에서 94%로서 DR 자료에서 약간 더 낮은 특이도를 나타냈다. 정확도(Accuracy) 는 DR 자료에서 92.5%, CR 자료에서 76.2%로서 DR 자료에 서 더 높은 정확도를 보였다. Positive predictive value(PPV) 는 DR 자료에서 89.7%, CR 자료에서 90.6%로서 비슷한 결과 를 나타냈다. Negative predictive value(NPV)는 DR 자료에서 95.7%, CR 자료에서 69.6%로서 DR 자료에서 더 높은 NPV를 보였다(Table 5).
Ⅳ. DISCUSSION
본 연구는 CNN을 치과용 진단 영역에 적용하여 골다공증 의 진단에 도입하기 위한 연속적인 연구의 일환으로 시행되었 다. 연구의 목적은 DR 방식의 자료로 학습을 시킨 CNN에서 DR과 CR 방식의 테스트 자료에 대해서 진단의 정확도 (Accuracy)가 어느 정도 차이가 있는지를 확인하는 것이었다.
본 연구에서는 각 파노라마방사선사진의 mandibular cortical index(MCI)를 독립적으로 해석했는데, MCI는 C1, C2, C3 중 하나로 분류되었다. 이중 C2, C3를 골다공증으로 판독하였고, C1 중 두께가 얇은 경우 역시 골다공증으로 판독하였다. 이는 본 연구에서 기준으로 삼은 Klemetti 등의 분류에 Taguchi 등 의 연구 결과를 결합한 분류이다[8]. 즉, Klemetti 등의 분류에 서는 C2, C3를 골다공증으로, C1을 모두 정상으로 분류하였 지만, Taguchi 등의 연구에 따라 C1 중 피질골이 얇은 경우도 골다공증으로 판독한 것이다. Taguchi 등의 폐경기 여성을 대 상으로 한 연구에서 피질골의 두께가 4.2mm 이상이면 21.3% 에서 골다공증이 나타났지만, 3.0mm 이하이면 90.0%의 여성 에서 골다공증이 나타났음을 그 근거로 하였다[12].
한편, 임상에서는 디지털 진단 영상에 DR(digital radiography) 과 CR(computed radiography) 방식이 동시에 사용되고 있다. 두 방식은 검출기(detector) 방식에 따라 구분되는데, DR 방식은 CCD 또는 CMOS센서, 평판검출기(flat panel) 등을 이용하고 CR 방식은 영상판(image plate; IP)을 이용하여 영상을 획득한다.
한편, 본 연구에서 이용한 Convolutional Neural Network(CNN, 합성곱신경망)은 최근 가장 뛰어난 성능을 발휘하고 있는 인 공 지능(AI) 중 하나이다.
2012년 스탠포드대학의 앤드류 응과 구글이 함께한 딥 러닝 (Deep Learning) 프로젝트에서는 16,000개의 컴퓨터 프로세서 와 10억 개 이상의 신경망을 이용하여 유튜브에 업로드 되어 있는 천만 개 넘는 비디오 중 고양이 인식에 성공하였다.[13]
이런 ‘딥 러닝’ 중에서도 최근 가장 각광 받으면서 특히 컴 퓨터비전과 음성인식 등의 분야에서 탁월한 성능을 보이고 있 는 것이 CNN이다. CNN은 하나 또는 여러 개의 콘볼루션 계 층(convolutional layer)과 통합 계층(pooling layer), 완전하 게 연결된 계층(fully connected layer)들로 구성된 신경망이 다. CNN은 2차원 데이터의 학습에 적합한 구조를 가지고 있 고, 역전달(Backpropagation algorithm)을 통해 훈련될 수 있 다[14]. CNN은 다른 인공신경망 기법들보다 쉽게 훈련되는 편 이고 적은 수의 매개변수를 사용한다는 이점이 있다[15].
이런 CNN은 컴퓨터비전에서의 뛰어난 성능을 기반으로 의 료 영상 처리에 오래 전부터 사용되어 왔다. 1993년에 CNN은 폐 결절 탐지에 적용되었고[16], 1995년에는 유방 조영술에서 미세 석회화를 탐지하는데 사용되었다[17]. 최근 더욱 발달된 CNN을 이용하여 광범위한 연구가 진행되고 있는데 Setio 등은 3D 흉부 CT 스캔에서 폐결절 탐지에 더 개선된 결과를 보고하 였다[18]. 현재 의료 영상 자료에서 CNN이 적용되는 부위는 뇌, 폐, 복부, 심혈관, 유방, 뼈, 안구까지, 영상 자료의 종류는 MRI, CT, 초음파, 엑스레이, 현미경 영상까지 확장되고 있다.
Lee 등은 CNN을 활용하여 파노라마방사선사진에서 골다 공증을 판독하는 기초적 연구를 세계 최초로 수행하였는데, CNN이 높은 일치율로 골다공증을 발견할 수 있으며 그로 인 해 치과의사에게 골다공증의 조기 발견을 위한 유용한 정보를 제공할 수 있음을 밝혔다[7].
한편 의료 영상 처리에 CNN이 다양하게 이용되는 상황 속에 서, 관련 연구들을 살펴보면 영상을 DR, CR로 구분하여 학습시 키거나 테스트를 진행하지는 않았음을 발견할 수 있다. Paras 등의 연구에서[19] dataset의 방식이 CR인지 DR인지 구분해서 자료를 제시했지만 결과를 DR과 CR로 구분해서 제시하지는 않 았다. 본 연구의 기초적 연구의 일환인 Lee 등의 연구도 DR 방식의 자료로 CNN을 학습시킨 후 DR 방식의 테스트 자료만 을 시험하였기 때문에, 자료의 방식에 따른 차이를 확인할 수는 없었다[7]. 그러나 디지털 영상을 획득할 때 DR 방식인지 CR 방식인지에 따라 공간해상도(Spatial resolution)나 동적 범위 (Dynamic range) 등이 달라질 수 있기 때문에 CNN에 사용할 때 이를 구분해서 적용한 연구의 필요성이 있었다. 그런 점에서 볼 때, 본 연구에서 DR 방식의 자료로 학습을 시킨 CNN에서 DR과 CR 방식의 테스트 자료에 대한 진단의 정확도가 차이가 있음을 확인한 것은 중요한 의미를 가질 수 있었다.
Table 5에서 나타나듯이 DR 자료로 학습한 CNN으로 DR 자 료를 테스트했을 때가 CR 자료를 테스트했을 때에 비해 민감도 (DR:96%, CR:58%)와 정확도(DR:92.5%, CR:76.2%)가 높음을 알 수 있는데, 이를 토대로 DR 자료로 학습한 CNN의 경우 DR 자료로 테스트하는 것이 더 적합하다는 결론을 얻었다. 그러나 특이도(DR:89%, CR:94%)는 CR 자료에서 조금 더 높았다.
본 연구의 한계는 학습 및 테스트 자료의 수가 적다는 것, 동일 환자에서 DR과 CR 자료를 동시에서 얻지 못했기 때문에 paired test를 할 수 없었다는 것이다. 또한 CNN에게 주어진 ROI가 구강악안면방사선전문의가 판독한 하악하연 피질골 부 위로 국한되지 못했다는 것도 있다. 그러나 실제 치과 임상에 서는 많은 양의 방사선 사진을 얻기 어렵고, 동일 환자에서 동일한 시기에 DR, CR 자료를 얻기 어려우며, CNN에 ROI를 국한해서 주기에는 많은 시간이 들어간다는 제한점이 있기에 이번 연구는 실제 임상을 반영한다고 할 수 있다.
결론적으로, DR 자료로 학습을 시킨 CNN으로 DR과 CR 자료를 각각 테스트할 때의 정확도(Accuracy)의 차이를 확인 한 결과, DR 파노라마방사선사진을 테스트한 경우는 정확도 가 92.5%였으며 CR 파노라마방사선사진을 테스트한 경우는 정확도가 76.2%였다. 그러므로 DR 파노라마방사선사진 자료 로 학습한 CNN의 경우에는 동일한 DR 파노라마방사선사진 자료로 테스트하는 것이 적합하다는 것을 알 수 있다.