1. 서 론
2. 배경이론
2.1 Random Forest
2.2 SHapley Additive exPlanations
3. 실내실험
4. 결 과
4.1 Random forest 알고리즘
4.2 SHAP 알고리즘
5. 토 론
6. 결 론
1. 서 론
암석 내부의 균열은 암반을 기초로 건설된 구조물의 안정성을 저해하는 역할을 하며, 이를 정량적으로 확인하기 위해서는 미세한 거동을 이해하고 판단할 수 있어야 한다(Lee et al., 2016). 하지만 암석에 형성된 균열은 그 크기가 매우 작고 불규칙해서 전체 거동을 정량적으로 표현하기에는 한계가 있다(Park et al., 2018; Park et al., 2023). 이를 간편하게 해석하기 위하여 균열은 구형 형태의 3D로 가정해서 분석을 수행한다. Crack and Pores Effective Medium 방법에 따르면 암석의 전체 간극률은 균열 간극과 equant 간극으로 구성되며, 이는 간극의 종횡비(aspect ratio)로 결정한다. 종횡비 값이 0.1 보다 크면 equant 간극으로 불리며, 0.1 보다 작으면 균열 간극으로 본다. 물론 연구자마다 기준 값에는 차이가 있지만 일반적으로 0.1의 값을 기준으로 간극을 구분한다. 균열 간극은 수학적으로 종횡비과 균열밀도로 구성된다. 균열 밀도는 암석 시료 전체 부피에서 균열이 차지하는 비율을 의미하며 균열의 개수, 균열의 길이 그리고 균열 부피 값이 활용된다.
Biot(1952)이 제안한 이론은 간극을 포함하고 있는 매체에서 탄성파가 어떻게 전파하는 지를 수학적으로 설명하고 있으며, 해당 이론은 Biot-consistent model로 확장되었다. Biot-consistent model은 암석의 탄성적인 인자들이 상호 작용하는 특징을 가지고 균열밀도를 추정할 수 있음을 시사했다. 단, 해당 방법은 간극률의 범위가 10% 보다 작아야 하고 균열 밀도도 1보다 작을때 효율적으로 활용이 가능함을 보여주었다. 따라서 해당 이론을 통해 암석 시료의 균열 밀도를 추정하기 위한 다수의 연구가 수행되었으며, 간극률 및 균열밀도의 범위가 Biot-consistent model을 벗어나면 활용할 수 있도록 self-consistent model 도 제안되고 있다. 해당 방법은 암석의 탄성적인 거동을 기반으로 균열밀도를 추정하고 있어, 탄성계수를 선행적으로 추정해야 한다. 미소변형 구간의 탄성계수를 추정하기 위해서는 탄성파 탐사가 필수적으로 이용되며(Jang et al., 2023a), 압축파 속도 및 전단파 속도를 통해 입력 인자를 계산한 후 최종적으로 균열밀도를 예측한다. 또한 균열밀도는 탄성계수 외에도 equant 간극을 알아야 하나 이를 구하기는 방법론적인 측면에서 한계가 있어 일반적으로 문헌 값을 통해 가정해서 계산한다. 따라서 간극률 및 균열밀도 범위에 따라 Biot-consistent model과 self-consistent model이 제안되고 있지만 각 모델의 입력 값을 정확하게 결정하기 어려운 문제가 있다. 해당 논문에서는 이를 해결하기 위하여 최소의 입력 데이터만으로 균열밀도를 추정할 수 있는 기계학습 방안을 제시하고자 하였다. 기계학습이 적용되기 전에 설정한 독립변수가 종속변수 결정에 얼마나 큰 영향을 미치고 중요한 인자로 작용하는지를 확인해야 되며, 해당 연구에서는 random forest와 SHAP 알고리즘을 활용하여 독립변수로 설정한 압축파 속도, 전단파 속도, 간극률, 포아송비가 균열밀도 산정에 얼마나 영향을 미치는지 조사하고자 하였다. Random forest 알고리즘은 입력 변수를 트리에 배치하여 각각의 독립변수가 종속변수에 얼마나 영향을 미치는지 계산할 수 있는 특징이 있으며, 정량적인 값은 importance score로 나타난다. 하지만 단순히 정량적인 점수의 상대적인 비교만으로 각각의 독립변수의 중요도를 확실하게 이해하기 어려워 정비례 및 반비례의 영향까지도 살펴볼 수 있도록 SHAP 알고리즘이 제안되었다. 결국 두 가지 알고리즘은 기계학습 수행 시 독립변수의 중요성을 이해하기 위해 이용되며 다양한 학문 분야에서 활용되고 있다(Wang et al., 2016; Zhang and Yang, 2020; Feng et al., 2021). 본 논문에서는 중요도 분석 알고리즘을 지반공학 데이터에 접목하여 그 결과를 분석하고자 하였다.
해당 논문은 독립변수의 중요도를 산정하기 위한 내용을 목적으로 가지고 있어 이를 해결하기 위한 알고리즘이 random forest 및 SHAP의 배경이론으로 시작된다. 건설현장에서 채취한 시료 특성에 대해 설명하였으며, 다양한 특징을 반영하는 데이터를 획득하기 위하여 인위적으로 풍화작용을 가한 실험 방법에 대해서도 서술하였다. Random forest와 SHAP 알고리즘의 결과를 중요도로 분석하여 도시하였으며, 각각의 독립변수가 종속변수에 얼마나 영향을 미치는지도 설명하였다. 끝으로 개별 독립변수 마다 SHAP 값을 비교해서 각각의 특징 및 신뢰성 검증에 대한 내용도 서술하였다.
2. 배경이론
2.1 Random Forest
Random Forest(RF) 알고리즘은 앙상블 학습 방법론의 일종으로, 여러 개의 결정 트리(Decision Trees)를 결합하여 분류 및 회귀 문제를 해결하는 기계학습 방법 중에 하나이다(Kim et al., 2021). RF 알고리즘은 과적합을 방지하고, 일반화 성능을 높이기 위해 각 결정 트리의 훈련 과정에서 다양성을 증가시키기 위해 Bootstrap Sampling과 Random Feature Selection을 활용한다(Jang et al., 2023b). Bootstrap Sampling은 각 결정 트리를 훈련하기 위해 원본 데이터셋에서 복원 추출 방식으로 샘플을 선택한다. 이를 통해 생성된 각각의 서브 데이터셋은 트리의 훈련에 사용되며, 이 과정은 각 트리가 서로 다른 데이터를 바탕으로 학습하도록 한다(Min and Yoon, 2021). Random Feature Selection은 최적의 분할을 결정할 때 사용할 데이터를 무작위로 선택하는 방식으로 트리 간의 상관관계를 줄이고, 모델의 다양성을 높이는 데 도움을 준다(Seo and Chung, 2023). 또한 해당 방법은 각각의 인자들이 예측 값에 얼마나 영향을 주는지를 판단해서 각 입력 인자의 중요 여부를 판단할 수 있는 중요도 분석도 수행이 가능하다. 중요도 분석은 Impurity-based importance와 Permutation feature importance이 활용되며, Impurity-based importance는 지니계수 혹은 엔트로피를 통해 계산된 불순도로 영향 정도를 판단한다. 또한 Permutation feature importance는 특징의 무작위 값으로 중요도를 판단하는 방법으로 무작위로 포함된 입력 인자 종류에 따라 변화하는 출력 값의 오차를 통해 중요도 (imp(Xj))를 산정할 수 있다(Yoon, 2023).
여기서, It, Ileft, Iright는 결정 트리의 각 노드, 왼쪽 및 오른쪽의 불순도를 의미하며, pleft와 pright는 왼쪽과 오른쪽 결정트리의 샘플 비율을 의미한다. 또한 nt와 N은 각각 노드 t에 있는 샘플수와 전체 데이터 개수를 보여준다.
2.2 SHapley Additive exPlanations
SHapley Additive exPlanations(SHAP) 알고리즘은 게임 이론에서 유래한 셰플리 값(Shapley values)을 기반으로 하며, 입력 인자가 예측 결과에 미치는 영향을 정량적으로 평가할 수 있는 장점이 있다(Bae et al., 2024). 셰플리 값은 입력 인자의 기여도가 해당 모델에서 얼마나 중요한지를 나타내는 값으로 계산되며, 가능한 모든 조건에서 예측값과의 차이를 평균으로 제공한다(Min et al., 2023). SHAP 알고리즘은 복잡한 비선형 모델에서도 입력 인자의 기여도를 이해하는 데 효과적으로 활용되고 있다. SHAP 알고리즘은 RF 알고리즘과 유사하게 입력 인자의 중요성을 제공해주나, RF는 각각의 입력 변수의 영향도를 평균값으로 제공하여 상세한 분석을 수행하기 어려운 한계가 있다. 하지만, SHAP 알고리즘은 각각의 입력 변수의 영향 정도를 개별적으로 증가 및 감소 경향을 제공할 수 있어 출력 변수의 상세한 특성을 정밀하게 분석할 수 있는 특징이 있다.
여기서, F는 데이터들이 포함하고 있는 특성을 의미하며, S는 j를 제외한 부분 집합의 특징을 보여준다. 또한 f(S)는 집합 S만을 사용했을 때를 의미한다.
3. 실내실험
국내 건설현장에서 표준 관입 시험을 활용하여 시료를 채취하였으며, 각 10개의 다양한 특성이 반영된 암석 시료를 추출하고자 계획하였다. 채취한 시료는 X-Ray Diffraction(XRD) 실험을 통해 성분분석으로 수행하였으며, 성분 분석은 석영, 방해석, 흑운모, 녹니석, 조장석, 백운석, 미사장석, 정장석, 각섬석, 적철석, 자철석, 백운모를 기반으로 진행하였다. 10개 시료에서 가장 많이 함유하고 있는 광물은 각각 석영, 흑운모, 방해석 그리고 조장석으로 나타났다. 10개의 시료는 앞서 설명한 광물이 50% 이상 포함된 경우가 4개의 시료에서 나타났으며, 나머지 6개 시료는 다수의 광물이 포함되어 있으나 전반적으로 특정 광물의 성질이 많이 보였다.
채취한 시료는 실내 실험에서 탄성파 속도, 간극률 및 균열 밀도를 용이하게 측정할 수 있도록 원기둥 형태로 가공하였다. 직경과 높이는 각각 50mm와 30mm로 결정하였으며, 다양한 특성의 데이터를 확보하기 위하여 인위적으로 풍화를 가할 수 있는 slake durability 실험도 진행하였다. 원기둥 형태로 가공된 시료는 slake durability 실험을 통해 물리적인 풍화를 가했으며, 총 12번의 풍화 과정을 통해 시료가 변화하면서 반영하는 데이터를 측정하였다. 균열 밀도를 추정하기 위해 획득한 데이터는 탄성파 속도와 간극률로 한정하였으며, 이와 같은 이유는 Biot-consistent model에서 탄성계수 및 간극률로 균열밀도를 추정할 수 있는 방법을 제시한 것으로 이용하고자 하였다. 해당 방법은 구형 간극와 얇은 균열이 생성된 시료에 활용 가능하며 특히 간극률 값과 균열밀도의 값이 작을 때 활용할 수 있다. Biot-consistent model은 시료의 전단탄성계수가 간극률, 포아송비 및 균열밀도로 정의되어 있는 수식으로 3가지 인자만 확보가 되면 해당 모델을 통해 균열밀도 값을 추정할 수 있다. 전단탄성계수와 포와송비를 추정하기 위해 탄성파 속도를 측정하였다. 탄성파 속도는 트랜스듀서를 이용하여 압축파 속도와 전단파 속도를 추정하였으며, 원기둥 상부와 하부에 트랜스듀서의 접촉이 용이한 위치에 접촉 후 파형을 획득하였다. 측정된 파형으로 압축파 및 전단파 속도를 계산하였으며, 속도 분포는 Fig. 1(a) 및 (b)에 도시하였다. 압축파 및 전단파 속도의 범위는 각각 1665~4277m/s, 832~2534m/s로 나타났으며, 평균 속도는 각각 2929m/s과 1533m/s를 보였다. 포아송비는 탄성파 속도로 계산하였으며, 값의 분포는 Fig. 1(c)에 도시하였다. 포아송비는 0.1~0.39 범위를 보이며 평균 값은 0.3으로 나타났다. 간극률은 인위적인 풍화를 수행하는 매 단계에서 무게와 부피를 측정 후 계산하였으며, 0.72~2.5% 범위로 나타났으며, 평균은 1.61%이다. 마지막으로 균열 밀도는 Biot-consistent model로 계산하였으며 2.7~33.3으로 계산되었으며 평균 균열 밀도는 11.54로 나타났다.
4. 결 과
4.1 Random forest 알고리즘
Fig. 1에서 설명한 데이터를 기반으로 독립변수인 압축파 속도, 전단파 속도, 포아송비 그리고 간극률이 종속변수인 균열밀도에 얼마나 영향을 미치는지 확인하기 위하여 random forest 알고리즘을 적용하였다. Random forest 알고리즘은 다양한 하이퍼파라미터가 존재하지만 해당 연구에서는 estimator와 depth 만을 조정하여 영향 정도를 분석하였다. 설정한 estimator와 depth는 각각 400과 200으로 결정되었으며, 이때 정확도는 0.84로 도출되었다. 정확도 값이 최대 값인 1보다는 낮게 나타났지만 하이퍼파라미터 튜닝을 아무리 조정한다고 해도 정확도는 0.84가 최대 값으로 보였다. 따라서 사용자의 판단에 의해 정확도 값이 다소 낮을 수도 있지만, 현재 상태에서 획득할 수 있는 최대 값이라는 한계를 통해 결과를 그대로 적용하기로 하였다. Random forest 알고리즘의 결과는 Fig. 2에 도시하였으며, 압축파 속도, 전단파 속도, 포아송비 그리고 간극률의 중요도 결과는 각각 0.043, 0.035, 0.347 그리고 0.575로 나타났다. 해당 결과는 4가지 독립변수로 균열 밀도를 추정할 때 간극률이 가장 큰 영향을 미치는 것으로 나타났으며, 전단파 속도는 상대적으로 중요도가 낮은 것을 알 수 있다. 비록 해당 결과는 종속 변수와 독립 변수간의 물리적인 상관성으로 영향 정도 보다는 기계학습을 수행할 때 얼마나 중요함을 나타내는 값이다. 따라서 물리적인 상관성은 Biot-consistent model로 각 변수의 값 분포에 따른 균열 밀도를 확인하는 것이 바람직한 방법으로 판단된다. 하지만, 해당 연구에서는 기계학습에 초점을 맞춰 종속 및 독립 변수간의 관계를 분석하였다. 결과적으로 살펴보면 간극률의 변화가 균열 밀도의 변화와 일정한 관계가 있음을 알 수 있다. 또한 압축파 속도와 전단파 속도 중 지반공학 분야에서는 전단파 속도가 지반 골격의 구조적인 부분인 고체에서만 전파하므로 일반적으로 지반 특성을 검토하기 위해 많이 활용된다. 즉 전단파 속도가 지반의 물리적인 거동을 이해하는데 압축파 속도보다는 중요하게 이용된다. 하지만 Fig. 2의 결과는 전단파 속도의 중요도가 제일 낮게 나타났으며, 이와 같은 이유는 전단파 속도의 변화와 균열 밀도의 분포간의 관계가 상대적으로 낮은 것으로 보인다.
4.2 SHAP 알고리즘
압축파 속도, 전단파 속도, 간극률 그리고 포아송비가 균열 밀도 산정에 얼마나 영향을 미치는지 검토하기 위하여 SHAP 알고리즘을 적용하였으며, 결과는 Fig. 3에 도시하였다. Fig. 3의 x 축은 분석된 SHAP 값을 보여주며 그 값의 범위가 넓고 좁은 것으로 통해 해당 인자의 중요성을 판단할 수 있다. A로 표시한 간극률이 -6~8 범위에 걸쳐 SHAP 값이 분포하는 것을 알 수 있으며, 포아송비의 SHAP 값은 -2~2.5 범위를 보인다. 압축파 속도와 전단파 속도는 SHAP의 값이 0 부근에 주로 모여 있는 것을 알 수 있으며, 이와 같은 결과는 압축파와 전단파 속도는 상대적으로 균열 밀도 추정에 영향을 작아 SHAP 값이 0에 가깝게 나타난 것으로 보인다. 또한 간극률의 SHAP 값의 범위가 가장 넓게 나타나 상대적으로 타 인자 보다 균열 밀도 추정에 영향이 큰 것으로 나타났다. 4개의 독립 변수 중에 중요한 인자는 간극률 > 포아송비 > 압축파 속도 > 전단파 속도로 정리된다. 이는 앞서 살펴본 random forest의 결과인 Fig. 2와 동일한 것을 보여주며 기계학습으로 균열 밀도 추정시에는 간극률이 상당히 중요한 인자임을 알 수 있다. 하지만 SHAP 결과는 random forest 와 달리 각 데이터에 색을 입혀 해당 인자의 값이 높을 때 영향이 큰지 아니면 그 반대의 특징이 나타나는지 확인할 수 있는 장점이 있다. 즉, 정량적으로 중요도 값을 제공하는 것을 넘어서 반비례 및 정비례 특징까지 유추할 수 있다. Fig. 3에서 간극률은 값이 클수록 균열 밀도 추정에 양의 관계를 보이는 것으로 나타났으며, 포아송 비는 반대로 값이 작아질수록 균열 밀도와 양의 관계가 성립된다. 비록 압축파 속도는 앞서 설명하였듯이 SHAP 값의 범위가 좁은 한계가 있지만 포아송 비과 동일하게 그 값이 작을수록 균열 밀도와 정비례 관계를 보인다. 하지만 전단파 속도는 간극률, 포아송 비 그리고 압축파 속도 처럼 해당 값의 작거나 높을 때 파란색와 빨간색으로 표시되는 구간이 명확하게 구분되지 못한 한계가 있다. 특히 SHAP 값이 양수일 때 파란색과 빨간색 포인트가 함께 나타나 전단파 속도가 감소 혹은 증가함에 따라 균열 밀도와의 관계를 명확하게 설명하기 어렵다. Fig. 2의 random forest 알고리즘의 결과와 동일하게 SHAP 결과에서도 전단파 속도의 영향이 가장 낮은 것으로 보이며, 정비례와 반비례를 구분하기 어려울 정도도 애매한 관계를 보이는 것으로 사료된다.
5. 토 론
SHAP 알고리즘으로 분석된 중요도 결과를 더욱 확장해서 분석하기 위하여 각 독립 변수 간의 단일 비교를 수행하였다. Fig. 4는 균열 밀도 산정 시 가장 큰 영향을 미치는 간극률에 대해 그림을 도시하였으며, 상대적으로 영향정도가 낮은 전단파 속도와 간극률, 포아송비 그리고 압축파 속도의 관계를 Fig. 5에 도시하였다. Fig. 4(a)는 간극률이 1.2~2.2% 범위로 변화할 때 SHAP 값과의 관계를 보여주며, 이때 범례는 포아송비로 결정하였다. Fig. 4(b)와 4(c)의 그림은 4(a)와 동일하나 범례를 압축파 속도 및 전단파 속도로 도시하였다. Fig. 4(a), (b) 그리고 (c) 모두 간극률이 증가할수록 SHAP 값도 증가하는 것을 알 수 있다. 하지만 포아송비와 관계를 살펴보면 빨간색과 파란색 데이터가 혼합되어 도시 되었다. 간극률이 1.6~1.8 및 2.0 이상 영역 외에는 포아송 비의 값이 낮거나 높은 영역이 모두 중첩되어 있어 포아송 비와 간극률 간의 관계를 명확하게 구분해서 분석하기는 어려운 것으로 보인다. 이는 포아송 비의 값이 작거나 클 경우 간극률과 일정한 관계가 없고 계산 당시의 타 인자들의 영향을 통해 균열 밀도가 산정되는 것으로 판단된다. Fig. 4(b)와 (c)를 살펴보면 포아송 비의 결과와 다르게 압축파 속도와 전단파 속도는 간극률과 일정한 관계를 가지고 있는 것으로 보이며, 두 그래프 모두 동일하게 간극률이 1.6 이하 및 이상을 기반으로 압축파와 전단파 속도의 관계가 정비례 및 반비례로 구분된다. 이는 압축파 속도와 전단파 속도가 증가하면 암석 시료 입자들의 연결이 강해짐을 의미하며 결국 간극률이 감소하는 특징과 연계된다. 비록 SHAP 알고리즘 결과는 지반 공학 특징을 활용하여 물리적인 성질 기반의 비교는 아니고 기계학습을 수행하는데 중요도 및 관계를 보여주는 것이다. 하지만 각 독립변수 간의 관계가 결국 물리적인 특성을 고려해서 상관관계가 도출된 것으로 보이며, 해당 결과는 지반 공학 분야에서 물리적으로 확인할 수 있어 신뢰성이 상당히 높은 결과로 나타났다고 판단된다. 하지만 Fig. 4(b)와 (c)에서 간극률이 2.1 값일 때는 파란색 영역이 아니고 빨간색으로 변경되는 것을 알 수 있다. 이는 아무리 다양한 실험 값을 추정하기 위해 물리적인 풍화 방법을 선택하여도 간극률, 포아송비, 압축파 속도 및 전단파 속도의 다양한 범위의 데이터를 구축하지 못한 한계로 판단된다.
Fig. 5는 가장 영향이 낮은 전단파 속도를 기준으로 도시한 결과이며, 간극률, 포아송비 그리고 압축파 속도에 해당하는 SHAP 값은 대부분 0 인근에 배치되는 것으로 나타났다. 이는 결과 3과 동일한 거동을 보여주며 전단파 속도가 균열 밀도 추정 시 영향성이 매우 작은 것을 알 수 있다. 간극률과의 관계는 전단파 속도가 1400m/s 보다 작거나 클 때 양 및 음의 관계를 보여준다. 포아송 비와의 관계는 양과 음의 관계의 기준 점이 1600m/s 로 상향 조정되는 것으로 나타났으며, 압축파 속도는 간극률과 유사하게 물리적 관계가 변화하는 시점이 1400m/s로 나타났다. 간극률과 포아송비는 기준 점을 기반으로 왼쪽에 정비례 오른쪽은 반비례하는 거동을 보여준다. 하지만 압축파 속도는 압축파 속도가 증가할 때 정비례 관계를 보이며, 감소할때는 반비례 관계를 보인다. 이는 일반적으로 압축파 속도와 전단파 속도의 거동이 유사하게 보여지는 결과와 연계되며, 이를 통해 SHAP 알고리즘으로 분석된 결과의 신뢰성이 타당하다고 판단된다.
6. 결 론
균열 밀도는 암석의 상태를 이해하는데 필수적으로 요구되는 물성치 이나 정확하게 예측하기 위해서는 다양한 물성치들 간의 관계를 이용해야 한다. 따라서 해당 논문에서는 4개의 독립 변수를 활용하여 균열 밀도를 산정하기 위해 각각의 인자들이 기계학습을 수행하는데 얼마나 종속 변수에 영향을 미치는지 조사하였다. 논문의 상세한 결론은 다음과 같다.
(1) 현장에서 채취한 10개의 시료를 이용하여 지반 공학 물성치를 취득하였으며, 다수의 데이터를 확보하기 위해서 시료에 인위적으로 풍화를 가하였다. 풍화는 slake durability 실험을 통해 진행하였으며 총 12 회의 풍화가 발생하도록 유도하였다.
(2) 독립변수는 압축파 속도, 전단파 속도, 포아송 비 그리고 간극률로 결정하였으며, 종속변수는 균열밀도로 지정하였다. 각 독립변수가 종속변수에 미치는 영향을 확인하기 위해 random forest와 SHAP 알고리즘을 적용하였으며, 간극률이 가장 중요한 인자로 나타났으며, 전단파 속도의 영향 정도는 상대적으로 낮게 나타났다.
(3) SHAP 알고리즘으로 독립변수 간의 관계도 고찰하였으며, 양의 관계 및 음의 관계를 보이는 기준 값들은 지정된 독립변수에 따라 차이가 보였다. 또한 물리적인 관계를 통해 각각의 독립변수 간의 특징도 연계하여 신뢰성을 검증하였다.