Journal of the Korean Geotechnical Society. 30 April 2023. 5-17
https://doi.org/10.7843/kgs.2023.39.4.5

ABSTRACT


MAIN

  • 1. 서 론

  • 2. 분석기법

  •   2.1 XGBoost

  •   2.2 LightGBM

  •   2.3 CatBoost

  • 3. 분석 데이터세트

  • 4. 모델 학습 및 결과 분석

  •   4.1 모델 학습

  •   4.2 예측성능 비교

  •   4.3 오차 분포 및 특성

  •   4.4 소프트 보팅 앙상블 학습

  •   4.5 흙막이 벽체 변형 예측

  • 5. 결 론

1. 서 론

최근 도심지 개발은 지하공간의 활용을 극대화하기 위해 기존 구조물과 인접하여 대심도, 대규모 지하굴착 작업이 불가피하게 요구되고 있다. 도심지 지하굴착은 필연적으로 흙막이 벽체에 변형을 발생시키며, 과다한 변형은 주변지반 및 인접구조물에 영향을 미쳐 굴착배면 지반의 균열 및 함몰, 지하매설물 파손 등의 피해를 빈번하게 발생시킨다. 이러한 사고는 지하안전관리에 관한 제도 강화에도 매해 발생하고 있으며, 점차 대규모 지반굴착 공사가 증대됨에 따라 공사현장의 위험요소를 모니터링하고 사전에 예측할 수 있는 기술의 필요성이 증대되고 있다. 이에 따라 굴착공사 현장의 정보를 실시간으로 계측관리 할 수 있는 자동화 계측 기술이 개발되고 있지만, 여전히 유지관리 비용 문제로 널리 보급되지 못하고 있다. 또한 현장 계측 데이터를 받아 역해석하여 향후 굴착단계의 안정성 여부를 예측할 수 있지만, 이 또한 시간과 비용이 많이 소요되고 자동화하기가 어렵다. 이러한 배경과 인공지능 활용 연구가 급증하면서 흙막이 벽체의 변위를 인공지능 기법을 통해 예측하는 연구가 진행되고 있다.

전통적으로 굴착으로 인한 흙막이 벽체의 변형을 예측하는 방법은 경험식과 수치해석의 두 그룹으로 분류할 수 있다. 과거 다양한 프로젝트에 기반한 경험적 공식은 모델이 비교적 단순하고 사용하기 쉽지만, 예측결과가 일반적이고 모델의 사용이 광범위한 특성으로 인해 벽체 변형의 동적 변화를 예측할 수 없다(Peck, 1969; Clough and O’Rourke, 1990; Long, 2001; Moormann, 2004). 정교한 수치해석은 지반-구조물의 상호작용을 고려하여 이론적으로 더 정확하게 예측할 수 있지만, 거동에 대한 모든 요인을 고려하기 어려워 여전히 현장 계측 결과와 불일치하는 문제가 자주 발생한다(Goh et al., 2017; Hwang et al., 2012). 대조적으로 머신러닝(Machine Learning, ML)과 같은 소프트 컴퓨팅 기술은 지반공학 분야에서 예측 모델의 한 가지 방법으로 빠르게 자리 잡고 있다. 특히 높은 차원의 비선형 특성을 반영하여 우수한 예측 성능을 입증하였다(Ray et al., 2021). ANN(Artificial Neural Network)은 ML분야에서 널리 사용되는 방법으로 오래전부터 공학 분야에 활용되면서 인공신경망의 활용 가능성을 보여주었다(Zhang et al., 2020). Goh et al.(1995)은 연약한 점토지반에서 버팀 굴착 시 최대수평변위의 초기 추정치를 제공하기 위해 역전파신경망(Back Propagation Neural Network, BPNN) 모델을 제시하였고, Kim et al.(2000)은 흙막이 벽체의 최종굴착단계에서의 최대수평변위 및 발생위치를 예측하여 인공신경망(Artifical Neural Network, ANN)의 적용성을 부분적으로 확인하였다. Kung et al.(2007)은 유한요소해석의 가상 사례를 통해 학습한 모델을 타이베이시 12개 굴착현장 환경에 대해 모델을 검증하여 벽체 변형 예측에 ANN의 적용 가능성을 입증하였다. 최근에는 우수한 성능의 ML 알고리즘이 공개되면서 Zhang et al.(2021)은 XGBoost(eXtreme Gradient Boosting) 및 RFR(Random Forest Regression)을 사용하여 흙막이 벽체의 최대수평변위 예측의 가능성을 확인하였다. 지하흙막이 벽체의 변위를 예측하기 위해 ML기법이 사용되면서 현재까지 다양한 연구가 수행되었고, 수치해석 결과와 비교하여 비교적 정확한 추정치를 제공하고 있다. 가상의 흙막이 벽체에 대한 수치해석 결과를 학습하는 경우 예측 정확도는 약 94%정도 나타나지만, 구축한 모델을 실제 굴착현장에 적용하면 예측 정확도는 60%이하로 급격히 저하되는 경우가 많다. 따라서 구축한 모델을 실제 흙막이 굴착현장에 사용하기 위해서 실제 현장의 데이터 확보가 수반되어야 한다. ML기반 연구에서 가장 많은 시간을 필요로 하는 부분은 모델 학습을 위해 필요한 데이터 확보이다. 실제 굴착현장의 지반정보, 흙막이 벽체 및 지보재 관련 정보, 계측자료 등을 수집하는 것은 매우 번거로운 과정이며, 데이터베이스화 되어 있지 않으면 불가능한 경우도 많다. 이러한 이유로 기존 연구에서는 수치해석을 통해 준비된 가상의 데이터세트를 활용하여 학습모델을 구축하고 수치해석 결과와 비교하여 예측 정확도를 판단하는 경우가 대부분이다.

본 연구에서는 향후 시공 중 흙막이 벽체의 안정성 평가 및 유지관리를 위해 벽체 변형을 예측하기 위한 앙상블 모델을 구축하고자 하였으며, 실제 지반계측 자료와 비교하여 모델의 적용 가능성을 확인하였다. 지하흙막이 굴착공사 중 지반의 변화가 벽체에 미치는 영향은 기본적으로 지반계측을 통해 그 정도를 알 수 있으며, 굴착 전과정에 대한 벽체의 수평변위는 지중경사계를 통해 계측된다. 따라서 지중경사계 계측자료는 안전관리를 위해 중요한 데이터이며, 본 연구에서는 지반계측 자료를 수치해석 결과와 함께 학습자료로 활용하여 실제 현장 특성을 반영하였다. 또한 기존 흙막이 공사의 설계, 시공, 계측관리 과정에서 생산되는 자료를 기초로 하여 국내 28개 굴착현장에 대한 굴착공사 정보를 데이터베이스화 하였다. 해당 데이터베이스로부터 모델 학습을 위한 데이터세트를 구성하고, 부스팅(boosting) 계열의 알고리즘을 활용하여 흙막이 벽체 변형 예측을 위한 앙상블 모델을 구축하였다. 최근 그래디언트 부스팅 방식을 기반으로 한 부스팅 계열 알고리즘이 다양한 분야에서 효율성과 예측력을 증가에 좋은 성과를 내고 있는데, 본 연구에서도 부스팅 계열 알고리즘 중 XGBoost, LightGBM, CatBoost에 주목하여 각 모델의 하이퍼파라미터 최적화 및 소프트 보팅(voting) 방법을 통해 노이즈를 최소화하면서 예측성능이 우수한 흙막이 벽체 수편변위 예측 모델을 구축하였다. 또한 설계 단계의 수치해석과 실제 지반 계측관리 특성이 반영된 복합 예측결과를 통해 시공 중 유지관리에 사용할 수 있도록 하였다.

2. 분석기법

본 연구에서 사용된 XGBoost, LightGBM, CatBoost 알고리즘은 기본적으로 그래디언트 부스팅(Gradient Boosting) 방식을 기반으로 한다. 그래디언트 부스팅은 대표적인 머신러닝 알고리즘 중 하나로, 분류 또는 예측 문제에 주로 사용된다. 머신러닝에서 부스팅(boosting)이란 단순하고 약한 학습기(weak learner)를 오차를 최소화하는 방향으로 결합시켜 보다 정확한 학습기(strong learner)를 만드는 앙상블 형식의 알고리즘을 의미한다. 개별 예측기로는 설명력이 낮은 경우 가벼운 예측기를 만들어 이를 통해 나타난 오류는 그 다음 예측기를 통해 보완한다. 이러한 방식으로 각 예측기의 성능을 결합하면 기존보다 정확한 모델이 만들어지게 된다. 그래디언트 부스팅 방식은 손실함수(loss function)을 정의하여, 경사하강법을 통해 이를 최소화하는 상태를 찾는 방식을 취한다. 손실함수는 일반적으로 실제 값과 예측 값 간 차이의 제곱합으로 정의되나, 미분 가능한 다른 형식의 손실함수도 사용 가능한 장점이 있다. 경사하강법은 이러한 손실함수의 값을 줄이는 방향으로 모형을 업데이트하는 방식을 의미한다. Fig. 1은 그래디언트 부스팅 알고리즘을 기술적으로 표현한 것이며, 손실함수의 미분값(실제에 대한 예측의 잔차)을 목표값으로 하는 예측자를 기존 모형에 더하여 손실함수의 값을 하락시킬 수 없을 때까지 반복하여 예측력을 높이는 방식이다.

https://static.apub.kr/journalsite/sites/kgs/2023-039-04/N0990390401/images/kgs_39_04_01_F1.jpg
Fig. 1

Algorithm of gradient boosting

2.1 XGBoost

XGBoost(eXtreme Gradient Boost)는 그래디언트 부스팅의 단점인 느린 수행시간과 과적합(over fitting) 문제를 해결한 알고리즘이며, 기본적으로는 그래디언트 부스팅 방식을 따른다(Chen and Guestrin, 2016). 그래디언트 부스트의 경우, 손실함수를 감소시키는 최적의 함수를 찾기 위해 가능한 경우의 수를 모두 탐색한다. 이때 만약 고려되는 변수의 수가 많은 경우 연산 효율성은 급격히 떨어질 수 있다. 특히, 각각의 범주형 변수를 알고리즘을 통해 연산하기 위해 각 범주형 변수에 포함된 범주값을 더미(dummy)변수화 하는 경우가 많으므로, 결과적으로 많은 범주를 포함한 범주형 변수가 소수만 포함되어도 극단적인 비효율성으로 인한 연산력의 저하에 노출될 수 있다. XGBoost는 변수의 분포를 고려하여 이런 비효율적 탐색 과정을 간략화하여 결과적으로 모형의 연산 효율성과 추정력을 상승시키는 알고리즘이다. 일반적인 그래디언트 부스팅의 경우, 과적합에 대응하는 기능이 별도로 존재하지 않지만, XGBoost에서는 과적합에 대한 규제를 통해 보다 안정적인 예측이 가능한 것으로 알려져 있다. XGBoost는 다른 기계 학습자에 비해 예측 성능이 뛰어나며, 병렬 CPU를 통한 학습이 가능하여 그래디언트 부스팅에 비해 빠른 수행시간을 갖는 것이 장점이다.

2.2 LightGBM

LightGBM(Gradient Boosting Machine)은 반복 누적하는 약한 학습자를 의사결정트리로 사용하는데, 리프 중심 트리 분할 방식을 사용하는 방법이다(Ke et al., 2017). 일반적인 의사결정트리 기반 알고리즘은 개별 트리가 과적합되지 않도록 균형 트리 분할 방식을 사용하여 트리의 길이를 줄인다. 즉, 최대한 트리의 균형을 맞추면서 개별 트리의 깊이를 최소화하는 것이다. 하지만 LightGBM은 리프 중심 트리 분할 방식을 사용하는데, 이는 개별 의사결정트리가 과적합 가능성이 있어도 최대한의 효율적 학습을 수행하도록 유도하는 것이다. LightGBM 알고리즘은 이러한 약한 학습자를 쌓아갈수록 결국 최종적으로 균형 트리분할방식에 비해 예측오류를 줄어들 수 있다는 것에 착안한 것이다. 이러한 방식의 대표적인 강점은 예측성능을 유지 또는 강화시키면서도 수행시간이 더 빠르다는 것이다. 일반적으로 XGBoost가 그래디언트 부스팅에 비해 빠르다고 알려져 있지만, LightGBM은 한층 더 가벼운 연산을 수행할 수 있다. LightGBM은 XGBoost와 마찬가지로 병렬 연산 기능을 제공함으로써 큰 데이터에 대한 효율적인 연산을 가능하게 한다.

2.3 CatBoost

그래디언트 부스팅을 비롯한 많은 기계 학습 알고리즘(랜덤 포레스트 등)은 범주형 변수를 처리하기 위해 정수화하거나 더미변수화 한다. 범주형 변수를 정수화하는 경우 의도치 않는 정보의 왜곡이 발생할 수 있으며, 더미변수화 하는 방식은 범주형 변수의 범주 개수만큼 변수를 추가하는 것이 되므로 범주 개수가 많을수록 모형의 복잡도가 높아진다. 이는 연산의 효율성을 저하시키는 요인이 된다. 특히 굴착현장 데이터의 경우 지반, 벽체, 지보재 종류 등 다수의 범주형 변수가 포함된 연산과정에서는 모형의 복잡성이 높아져 더미변수화된 변수들이 연산에 반영되지 못하는 경우가 발생할 수 있다. CatBoost 알고리즘은 정보 획득(information gain)량이 동일한 여러 속성을 하나의 속성으로 묶어 결과적으로 범주형 변수들을 효과적으로 알고리즘 연산에서 반영할 수 있도록 설계되었다(Prokhorenkova et al., 2018). 즉, 범주형 변수의 성질을 유지하면서 모형을 학습할 수 있다는 특징이 있다. 결과적으로 CatBoost는 변수 숫자의 확장으로 인한 정보의 탈락을 최소화할 수 있으며, 그로 인한 예측력과 연산속도의 상승을 기대할 수 있는 알고리즘이다.

3. 분석 데이터세트

본 논문에서 사용한 데이터베이스는 국내에서 공사가 완료된 굴착현장 흙막이 벽체에 대한 자료를 바탕으로 구축되었다. 데이터베이스 구축을 위해 대상 굴착현장에 대한 지반조사보고서, 흙막이 설계보고서, 계측보고서를 수집하고, 해당 자료로부터 흙막이 벽체의 수평 변위를 예측하기 위해 필요한 기초자료 데이터베이스(Database, DB)를 구축하였다. 기초자료 DB는 굴착현장의 지반계측 자료가 포함된 모든 대표단면에 대해 지반정보, 흙막이 벽체 관련 정보, 지보재 관련 정보, 수치해석 결과, 지반계측 자료로 분류되어 있다. 본 논문에 사용한 분석 데이터세트는 구축된 DB에서 데이터의 무결성이 확보된 현장 28개를 사용하였다. 여기서 데이터 무결성(data integrity)이란 데이터의 정확성, 일관성, 유효성이 유지되는 것을 의미한다. 굴착현장 DB의 경우 지반정보, 흙막이 벽체 및 지보재 등을 참조하여 데이터프레임을 구성하게 되며, 이 때 데이터가 존재하지 않는 값(Null value)이 없는 현장과 대표단면을 선택하여 분석 데이터세트로 사용하였다. Table 1은 분석 데이터세트로 사용한 28개 현장에 대한 정보를 나타내며, 굴착심도, 벽체 및 지지공법 등을 나타낸 것이다. 전체 대표단면의 수는 193개이며, 다양한 규모의 현장을 포함하고 있다. 데이터세트에서 흙막이 벽체의 종류로 CIP를 사용한 경우가 약 41%로 가장 높은 비율이었으며, 그 다음 H-Pile 및 CIP와 H-Pile 혼합 사용된 경우가 약 34% 비율을 차지하고 있다. 지보재는 버팀보를 사용한 경우 약 54%로 절반 이상이었고, 앵커 또는 앵커와 버팀보를 복합으로 사용하는 경우 등 다양한 경우를 포함하고 있다. 굴착 심도는 최소 10.2m에서 최대 34.4m 까지 다양한 심도의 데이터가 존재한다. 지층종류 개수는 4개 층인 경우가 많았으며, 흔히 말하는 다층지반으로 4~6개 층으로 구성된 현장이 81% 정도 차지한다. 분석 데이터세트를 구성할 때 가능한 다양한 특성을 가진 현장 정보를 사용하여 예측 모델의 일반화 성능을 나타낼 수 있도록 하였다.

Table 1.

Data acquisition list of Excavation sites for analysis

No Excavation site The number of
measurement
cross section
Excavation depth
(m)
Retaining wall
method
Supporting
method
Soil layer
1 Gasandong OO tower 14 19.56 CIP strut 5
2 Gasan OO metro 10 26.1 Slurry wall - 5
3 Goyang Jichug OO APT 5 24.44 H-pile anchor 3
4 Goyang Hayngdong OO APT 4 14 Sheet pile strut 4
5 Gwanak OO APT 14 10.5 H-pile strut 4
6 Gwangmyeong OO tower 3 13.45 CIP strut 5
7 Guro OO city 12 26.38 PHC pile strut 4
8 Gimpo OO city 8 17.75 CIP, H-pile anchor 4
9 Dongseoul OO site 6 20.6 H-pile strut 3
10 Dongtan OO city 7 24.05 CIP, H-pile sturt, anchor 4
11 Buchun Midong OO center 13 18.4 H-pile strut 5
12 Ansan sunboo OO APT 15 11.51 H-pile strut, anchor 4
13 Yongin dongchun OO APT 11 17.5 CIP, H-pile strut 4
14 Wonju OO city 4 15.03 H-pile, SCW strut 3
15 Incheon Gumdan OO APT 3 13 CIP, H-pile slab, anchor 4
16 Pangyo OO APT 3 23.31 CIP, H-pile strut 3
17 Pyeongtaek Goduk OO APT 14 27.9 CIP strut 4
18 Pyeongtaek OO APT 2 10.41 H-pile anchor 3
19 Heoksuk OO APT 1 10.2 H-pile strut 2
20 Goduk OO site 4 25.9 H-pile strut 4
21 Chunggu Hwanghakdong OO site 4 33.4 H-pile strut 4
22 Gwangjingu Hwayangdong OO site 4 27.4 CIP, H-pile strut 4
23 Pangyo OO-1 city 4 33.75 CIP, H-pile strut 5
24 Pangyo OO-2 city 6 34.4 CIP, H-pile strut 5
25 Dongtan OO APT 4 28.46 CIP, H-pile strut 4
26 Dongtan OO center 6 25.7 CIP, H-pile strut 4
27 Chungyangri OO APT 6 33.62 CIP, H-pile strut 4
28 Pangyo OO city 6 20.82 CIP, H-pile strut 5

수집자료 중 데이터세트로 사용한 변수는 Table 2와 같다. 본 연구의 목표 예측값은 지중경사계를 통해 측정된 실제 현장의 흙막이 벽체 수평 변위로 종속변수(forecast or dependent variable)는 각 현장 대표단면에 대한 지중경사계 실측값을 사용하였다. 예측변수로는 흙막이 벽체에 작용하는 측방 토압, 수평변위, 휨 모멘트, 회전각, 전단력은 설계단계에서 탄소성보법에 의해 수행된 수치해석 결과를 활용하였고, 벽체두께, 벽체의 단면 2차 모멘트, 벽체 설치간격, 벽체 단위중량, 벽체 탄성계수, 앵커 및 스트러트 설치 유무에 대해서는 흙막이 가시설 설계 자료를 통해 수집하였다. 지반정보의 경우 각 현장의 지반조사보고서를 통해 수중 및 건조단위중량, 점착력, 마찰각, 지반반력계수를 사용하였다. Table 3은 상기 17개 변수에 대한 기초통계량을 제공한다. 전체 예측변수는 각 대표단면마다 굴착심도 정보에 맵핑되어 데이터프레임을 구성한다. 굴착 심도 정보의 경우 수치해석과 계측값이 일대일로 매칭(matching)되지 않으므로 0.1m 단위로 데이터프레임을 정규화하고 중간값은 선형보간을 통해 결정하였다. 따라서, 굴착현장, 대표단면, 굴착단계, 굴착심도를 키(key)로 하여 모든 예측변수의 값들이 맵핑되어 있고, 심도 정보를 이용해서 데이터를 인덱싱(indexing)할 수 있도록 구조화된 데이터프레임을 생성하였다. 이와 같은 방법으로 데이터세트가 구성되지 않을 경우 굴착현장, 대표단면, 굴착단계와 관계없이 모든 데이터가 섞이고, 데이터 추적이 어려워져 활용도가 매우 낮아지게 된다. 이러한 절차를 통해 흙막이 벽체 변위 예측을 위한 굴착현장 데이터세트 생성용 API(Application Programming Interface)를 구축하여, 향후 데이터 랭글링(data wrangling)에 소비되는 시간을 줄일 수 있도록 하였다.

Table 2.

Analysis data description

Category Variable label Source Type of variable Unit
Forecast variable Displacement Measured by inclinometer Numerical mm
Predictor variable Lateral force Results of numerical analsys
(Beam on Elasto-Plastic Foundation)
Numerical kN/m2
Displacement Numerical mm
Bending moment Numerical kNm/m
Rotation Numerical deg
Shear force Numerical kN/m
Wall thickness Design report for retaining wall
construction
Numerical m
Wall second moment of area Numerical m4
Wall distance Numerical m
Strut unit weight Numerical kN/m3
Strut elasticity Numerical kg/cm2
Anchor_is* Categorical -
Strut_is* Categorical -
Total unit weight Ground investigation report Numerical t/m3
Submerged unit weight Numerical t/m3
Cohesion Numerical t/m2
Friction angle Numerical deg
ReactionForce Numerical kN/m3

* Binary variable indicating whether anchors or struts are installed

Table 3.

Basic statistics of predictor variables

Variables Unit Mean Standard deviation Minimum Median Maximum
Lateral force kN/m2 7.43 40.37 -989.52 2.85 360.51
Displacement mm 1.03 7.95 -59.94 0.58 55.3
Bending moment kNm/m 6.53 76.52 -776.44 -0.01 1,293.72
Rotation deg 0.0031 0.0969 -25 0.001 0.683
Shear force kN/m 0.85 37.28 -446.75 0.016 574.03
Wall thickness m 455.0457 1,893.2545 0 0.0345 8336
Wall second moment of area m4 8,277,670.541 30,299,719.84 0 0.00701 133,000,000
Wall distance m 17.9679 102.2781 0 1 641.721
Strut unit weight kN/m3 2,792,808.621 17,032,356.63 0 0.9 106,666,746
Sturt elasticity kg/cm2 73,728,073.52 90,517,767.84 0 21,000,000 21,000,000
Total unit weight t/m3 7.6704 8.8166 0 2 25
Submerged unit weight t/m3 4.1035 4.8307 0 1.1 16
Cohesion t/m2 12.0585 27.8183 0 3.1 200
Friction angle deg 21.4337 14.2340 0 28 40
Reaction force kN/m3 13,720.7 16,668.4 0 6,500 100,000

지중경사계를 통해 계측된 흙막이 벽체 수평 변위값의 분포는 Fig. 2와 같다. 흙막이 벽체의 배면 방향은 음수, 굴착방향은 양수로 표현된다. 지중경사계로 계측된 흙막이 벽체의 변위는 일반적으로 수치해석의 값보다 작게 나타나며, 본 연구에 사용된 실측값의 변위는 -10~+40mm 범위로 분포하며, 0~10mm의 값이 가장 많이 분포한다. 수집된 자료의 계측자료 중 과도하게 배면 방향으로 발생한 변위는 이상치로 간주하고 데이터세트에서 제외하였다.

https://static.apub.kr/journalsite/sites/kgs/2023-039-04/N0990390401/images/kgs_39_04_01_F2.jpg
Fig. 2

Histogram of measured lateral wall deflection

본 연구에서는 준비된 데이터세트를 기반으로 Fig. 3과 같은 절차를 통해 흙막이 벽체의 수평변위를 예측하고 평가하였다. 기본적으로 전절에 소개한 그래디언트 부스트 방식에 기반한 3가지 학습방법을 사용하였고, 첫 번째 루프에서는 입력데이터 전체에 대해 학습하여 학습모델의 파라미터를 저장하고, 이후 약한 학습기를 개선하기 위해 두 번째 루프에서는 이전 학습 모델의 잔차를 통해 피팅(fitting)하여 학습 모델의 파라미터를 업데이트하도록 하였다. 이는 약한 학습기를 통해 순차적으로 예측하면서 잘못 예측된 데이터에 가중치를 부여하여 오류를 개선해 가기 위함이며, 이 루프는 특정 조건을 만족할 때까지 반복된다.

https://static.apub.kr/journalsite/sites/kgs/2023-039-04/N0990390401/images/kgs_39_04_01_F3.jpg
Fig. 3

Preliminary and continuos training of the machine learning model

4. 모델 학습 및 결과 분석

4.1 모델 학습

흙막이 벽체 수평변위 예측을 위한 XGBoost, LightGBM, CatBoost 모델을 학습시키기 위해 우선 193개 대표단면에 대해 전처리한 심도별 데이터세트 450,000개를 계층적 추출방법(stratified sampling)을 통해 각 굴착현장의 대표단면 분포 비율을 유지하면서 데이터를 샘플링하였다. 특정 굴착현장의 특성이 학습 데이터 세트 또는 테스트 데이터 세트에 가중될 경우 모델 학습에 부정적인 영향을 주게 되므로 전체 굴착현장에 대한 데이터 특성이 데이터 세트에 균일하게 분포할 수 있도록 설정하였다. 전체 데이터 세트에서 학습 데이터 세트(training set)는 70%(=315,000/450,000), 테스트 데이터 세트(test set)는 30%(=135,000/450,000)로 분할하였다. 여기서 학습데이터는 모델 학습 시 과적합(over fitting)을 방지하기 위해 랜덤 셔플 방식을 통해 무작위로 섞었으며, 계층적 추출방법으로 5개의 fold로 분할하여 구성하였다. 5개 fold 중 1개는 교차검증을 위한 검증(validation) 데이터세트로 활용되었으며, 4개의 fold만 학습 데이터로 활용하였다.

XGBoost, LightGBM, CatBoost 세가지 학습모델에서 하이퍼파라미터(hyperparameter)는 랜덤 서치(randomized search)방법을 통해 결정하였다. 하이퍼파라미터는 사용자가 직접 설정하는 값으로 최적의 파라미터 값을 결정할 필요가 있다. 본 논문에서 사용하는 데이터의 수 및 학습모델의 특성상 시간 및 비용 측면에서 비효율적인 그리드 서치(grid search) 또는 베이지안 최적화 방법 대신 주요 하이퍼파라미터에 대해 일정한 서치 범위를 설정하고 랜덤하게 최적의 값을 찾는 방식을 선택하였다. Table 4는 각 모델에서 랜덤 서치에 사용한 하이퍼파라미터 범위 및 적용값을 나타낸 것이다. XGBoost, LightGBM, CatBoost 모두 다양한 파라미터가 존재하지만, Table 4에 표시되지 않은 파라미터는 튜닝을 통해 개선할 수 있는 성능 마진이 크지 않으므로 기본값을 적용하였다.

Table 4.

Hyperparameter of boosting based model (XGBoost, LightGBM, CatBoost)

Model Hyperparameter Random search range
(start, stop, step)
Applied value
XGBoost n_estimator (0, 2000, 100) 600
max_depth (3, 10, 1) 6
learning_rate (0, 1.0, 0.05) 0.1
subsample (0.5, 1.0, 0.1) 0.9
min_child_weight (1, 7, 1) 1
colsample_bytree (0.6, 1.0, 0.1) 0.9
gamma (0.5, 2.0, 0.1) 1
LightGBM n_estimator (0, 2000, 100) 1,000
random_state (0, 500, 1) 402
learning_rate (0, 1.0, 0.05) 0.1
max_depth (3, 10, 1) 8
subsample (0.5, 1.0, 0.1) 0.5
min_child_weight (1, 7, 1) 2
colsample_bytree (0.6, 1.0, 0.1) 0.8
CatBoost depth (1, 10, 1) 9
learning_rate (0, 1.0, 0.05) 0.01
iterations (0, 2000, 100) 900

4.2 예측성능 비교

흙막이 벽체 수평변위 예측을 위해 XGBoost, LightGBM, CatBoost 세 가지 학습 모델의 예측성능을 비교하였다. 테스트 데이터세트를 사용하여 각 학습 모델의 예측결과를 Fig. 4와 같이 산점도로 나타내었다. 실제 지중경사계 계측값과 각 학습모델을 통해 예측한 결과를 나타낸 것이며, 모든 점이 best fit 라인에 위치하게 되면 상관계수는 1이 되고 추정값과 실제값의 관계가 높은 것을 의미하게 된다. 세 가지 학습 모델 모두 데이터의 산포 정도가 비슷하게 나타났다. 흙막이 벽체의 변위가 30mm 이상 크게 발생하는 경우 학습 데이터 수가 작아 예측 정확도가 비교적 낮게 나타난 것으로 판단된다. 또한 지중경사계 실측값이 배면 방향의 변위가 발생하는 -10mm 이하인 경우에도 세 가지 모델 모두 예측 정확도가 비교적 낮게 나타났다. 세 가지 모델의 예측성능은 Table 5에 나타낸 R-squared, RMSE(Room Mean Square Error), MAE(Mean Absolute Error)값으로 평가하였다. R-squared는 모델을 통해 예측할 수 있는 표본 간 차이와 실제 차이의 비율의 나타내는 값으로 모델의 설명력을 나타내는 지표로 사용되며, RMSE와 MAE는 각각 평균제곱근오차와 평균절대오차이며, 예측값과 실제값의 차이를 나타낸다. Table 6은 각 모델에 대한 성능지표 결과를 보여준다. 성능지표에 따른 전반적인 예측성능은 LightGBM, XGBoost, CatBoost 순서로 높게 나타났다. 세 가지 모델 모두 R-squared값이 0.8 이상으로 높은 예측성능을 나타내었고, 모델에 따른 성능 편차는 크지 않았다. 테스트 데이터세트의 개수가 135,000개에 달한다는 점을 고려하면 낮은 수치라 평가할 수는 없다. 또한 실제 계측값을 기준으로 하였기 때문에 계측값의 오류 및 불확실성으로 인한 불가피한 설명력 손상이 내포되어 있음을 감안할 때, 본 연구에서 사용된 학습 모델들은 굴착현장 상황의 다양한 요소로 인한 수치해석의 결과와 실제 계측값의 차이를 상당 부분 포착할 수 있다는 것을 의미한다. 따라서 그래디언트 부스트에 기반한 세 가지 학습 방법의 활용성이 상당히 높다는 것을 알 수 있다.

https://static.apub.kr/journalsite/sites/kgs/2023-039-04/N0990390401/images/kgs_39_04_01_F4.jpg
Fig. 4

Comparison of predicted values for the test data set

Table 5.

Performance metrics of prediction model

Performance metric Formulas Interpretation
R-squared R2=1-i=1nyi-y^i2i=1nyi-y¯i2 best value = +1, worst value = -∞
MAE
(Mean Absolute Error)
MAE=1nyi-y^i best value = 0, worst value = +∞
RMSE
(Root Mean Squared Error)
RMSE=1ni=1nyi-y^i2 best value = 0, worst value = +∞
Table 6.

Results of predictive performance metrics for the model

Model R-squared MAE RMSE
XGBoost 0.8135 0.0125 0.0300
LightGBM 0.8150 0.0124 0.0299
CatBoost 0.8121 0.0126 0.0302

4.3 오차 분포 및 특성

각 예측모델을 통한 예측오차의 분포를 통해 예측모델의 특성을 확인하였다. Fig. 5에서 가로축은 실제값과 예측값 간의 격차(%, yi-y^i/y^i)를 세로축은 그에 대한 빈도를 나타낸다. 각 예측모델의 표준편차는 전절의 성능지표와 같이 LightGBM, XGBoost, CatBoost 순으로 나타났으며, 각각 0.0299, 0.0300, 0.0302로 확인되었다. 실제값과 예측값 사이의 차이는 모델의 불완전성 또는 굴착현장의 지반정보 및 계측 자료의 불확실한 속성으로 인해 불가피하게 발생할 수밖에 없다. 하지만 예측값이 실제값에 비해 지나치게 크거나 작은 경우는 발생할 수 있으며, 평균적 예측 오차는 낮더라도 모형의 신뢰성에 영향을 줄 수 있다. Table 7은 이상치에 대한 발생빈도를 비교한 것이다. 본 논문에서는 실제값이 예측값의 50%, 75%, 100% 이상 멀어진 경우를 기준으로 비교하였다. 해당 기준으로 설정한 이상치의 발생 비율을 비교한 결과 CatBoost, LightGBM, XGBoost 순서로 이상치에 영향을 더 받는 것으로 확인되었다. CatBoost는 135,000개의 테스트 데이터세트 중 예측값이 실제의 100% 이상 벗어난 사례가 9,232건으로 약 6.8%에 해당한다. 반면 LightGBM과 XGBoost의 경우 각각 약 6.99%, 7.48%로 확인되었다. XGBoost로 구축한 예측 모델의 경우 이상치에 대해 민감한 것으로 나타났다. 실제 지반계측 데이터 자체의 신뢰도 부족과 결함이 존재할 가능성이 있으므로 세 가지 모델 모두 이상치에 대한 불안정성 문제가 크다고 보기는 어렵다. 평균적인 예측성은 LightGBM 및 XGBoost가 다소 높지만, 이상치의 발생 빈도는 CatBoost이 더 낮은 것으로 나타났다.

https://static.apub.kr/journalsite/sites/kgs/2023-039-04/N0990390401/images/kgs_39_04_01_F5.jpg
Fig. 5

Comparison of distributions for prediction error

Table 7.

Outlier occurrence rate (%) for predictive models

Model More than 50% error More than 75% error More than 100% error
XGBoost 10.7363 8.7829 7.4881
LightGBM 10.2296 8.2525 6.9992
CatBoost 10.0629 8.1518 6.8385

4.4 소프트 보팅 앙상블 학습

4.1절에서 제시한 세 가지 알고리즘을 통해 구축한 모델을 결합하여 더 높은 예측성능을 가진 모델의 구현 가능성을 확인해보았다. 보팅(voting) 방법을 적용하여 세 가지 예측모델을 결합하였다. 보팅은 서로 다른 모델을 통해 얻은 예측값들을 투표(다수결) 또는 평균하여 개별 모델에 포함될 수 있는 오류의 가능성을 중화하는 앙상블 기법이다. 본 논문의 앙상블 기법은 Fig. 6과 같이 가장 직관적으로 소프트 보팅을 통해 세 가지 모델(XGBoost, LightGBM, CatBoost)의 예측값 평균을 사용하였다. Fig. 7은 본 연구에서 구축한 전체 모델에 대한 예측치와 실제값의 산점도를 보여준다. 앙상블 모델의 산점도 결과는 기본적으로 기존의 세 가지 모델의 결과와 유사하지만, 산점도의 분포가 전반적으로 조밀해진 것을 볼 수 있다. 예측성능 평가기준을 앙상블 모델에 적용한 결과, R-squared와 RMSE는 각각 0.8196, 0.0296 으로 나타났으며, 개별 모델 대비 전반적으로 예측성능이 상승한 것으로 확인되었다. 앙상블 모델의 경우 MAE는 0.0122로 기존 모델 대비 낮게 나타났다. 이는 각각의 예측 모델의 고유 특성으로 인해 발생한 소음(noise)들이 다른 모델에서는 나타나지 않기 때문에, 이를 평균하는 과정에서 예측에 포함된 소음의 크기가 작아진 효과로 해석할 수 있다. 또한 앙상블 모델의 예측오차 분포에 대한 표준편차는 0.02957로 LightGBM대비 우수한 성능으로 나타났다. 본 논문의 세 가지 개별 모델 모두 우수한 성능을 나타내지만, 앙상블 기법을 통해 개별 모델을 결합하는 경우 예측 성능을 보다 향상시킬 수 있음을 알 수 있다.

https://static.apub.kr/journalsite/sites/kgs/2023-039-04/N0990390401/images/kgs_39_04_01_F6.jpg
Fig. 6

Combining different algorithms through soft voting

https://static.apub.kr/journalsite/sites/kgs/2023-039-04/N0990390401/images/kgs_39_04_01_F7.jpg
Fig. 7

Comparison of predicted values of predictive models for the test data

4.5 흙막이 벽체 변형 예측

앞서 다양한 알고리즘을 활용한 흙막이 벽체 수평변위 예측모델을 통해 벽체 변형을 예측하였다. Fig. 8은 다양한 굴착현장의 대표단면에 대한 벽체 변형 프로파일로 예측한 것으로 최종 굴착단계에서의 수평변위량을 나타내었다. 본 논문에서 구축한 네 가지 방법(XGBoost, LightGBM, CatBoost, Ensemble) 모두 실제 지중경사계 측정값과 동일한 변위 특성이 나타남을 확인할 수 있었다(Fig. 8(a), (b), (c)). 굴착현장에 따라서는 지반 상부의 예측 변위량이 과소평가 되는 경우가 있었다(Fig. 8(d)). 이는 최초 굴착이후 1단 지보재 시공이 즉시 이행되지 않아 흙막이벽 상부에서 변위가 비교적 크게 나타난 것으로 판단되며, 이러한 초기 발생 변위들이 단계별 굴착과 함께 누적되어 굴착완료 시 흙막이벽 상부에서 최대수평변위가 발생될 가능성이 있다. Fig. 8(e)의 경우 예측값과 실측값의 특성의 유사한 형태이나, 이 역시 토공작업이 용이한 토사층의 지보재 형성 이전에 과굴착으로 인해 상부벽체의 변위가 굴착완료시 까지 누적된 것으로 볼 수 있다. Fig. 8(f)는 예측값이 실측값과 상이한 형태를 보이다 하부로 가면서 변위량이 0에 가까워지는 형상이다. 이 경우도 지보재 형성 이전에 지반 과굴착이 원인이라 판단되며, 굴착공사 중 과굴착은 벽체변위 발생에 중요한 요인임을 알 수 있다.

https://static.apub.kr/journalsite/sites/kgs/2023-039-04/N0990390401/images/kgs_39_04_01_F8.jpg
Fig. 8

Results of predicted retaining wall deformation using for test data

본 연구에서는 지반 및 벽체 정보, 수치해석과 실제 지중경사계 계측값을 학습 자료로 하여 수치해석과 실제 지반 계측관리 특성이 반영된 복합 예측결과를 제시하였다. 이 예측결과는 실제 굴착 현장에서 시공 중 안정성을 모니터링하기 위한 새로운 지표로 활용 가능할 것으로 판단된다. 설계단계에서 수행되는 수치해석 결과는 시공 중 현장 계측결과와 비교하였을 때 정확하게 수평변위량을 예측하지 못하는 경우가 많으며, 시공 중 유지관리용으로 사용하기에는 한계가 있다. 반면 현장 지반계측 관리는 설계 및 시공 시 부득이하게 발생되는 오류를 보완하고 안전관리를 위해 필수적이지만, 굴착현장 전체 면적을 실시간으로 관리하기에는 막대한 비용과 시간이 소요된다. 따라서 본 연구에서 구축한 예측 모델을 활용하여 굴착현장에서 시공 중 유지관리를 위해 활용할 수 있을 것으로 판단된다.

5. 결 론

본 연구에서는 ML기법 중 부스팅 계열 알고리즘과 앙상블 학습을 통해 지하흙막이 벽체 변형을 예측할 수 있는 모델을 구축하였다. 또한 국내 28개 굴착현장에 대해 흙막이 공사의 설계, 시공, 계측관리 과정에서 생산되는 기초자료를 기반으로 데이터베이스화하여 학습 기초자료를 생성하였다. 학습 자료에는 국내 다양한 벽체 및 지보재 종류, 굴착심도, 지반조건 등이 포함되어 있어 신규 굴착현장에 적용하는 경우에도 일반화된 예측성능을 유지할 수 있도록 하였다. 학습 모델은 부스팅 계열 알고리즘(XGBoost, LightGBM, CatBoost)을 기반으로 하여 흙막이 벽체 변형을 예측 및 분석을 수행하였다. 본 연구의 주요 결론을 다음과 같이 도출할 수 있었다.

(1) 분석결과 세 알고리즘 모두 예측력 지표인 R-squared값이 0.81 이상으로 나타났으며, 근본적으로 설계 단계의 수치해석 예측값과 실제 현장의 계측값에 차이가 존재한다는 점을 감안하면 세 가지 모델 모두 우수한 성능으로 판단된다. 연구에 사용한 알고리즘 중 LightGBM가 다른 두 알고리즘에 비해 미세하게나마 예측력이 좋은 것으로 나타났고, 이상치 발생빈도의 경우 CatBoost에서 다소 낮게 나타났다. 세 알고리즘 모두 전반적인 성능은 대동소이하지만 예측 정확성은 LightGBM이, 모델의 안정성 측면에서는 CatBoost가 보다 유리한 것을 확인할 수 있었다.

(2) 세 가지 모델의 앙상블 모델이 개별 모델보다 더 높은 예측 정확성을 가지는 것으로 나타났다. 이는 본 연구가 ML기법을 통한 흙막이 벽체 예측 모델 구축 과정에서 예측력이 높은 특정 알고리즘을 선별해 활용하는 것뿐만 아니라, 다양한 알고리즘의 조합을 통해 예측 정확도를 더 상승시킬 여지가 있음을 보여준다. 또한 굴착현장의 기하학적 특성과 흙막이 벽체 변형에 대한 수치해석 연구결과(Lee and Kim, 2008; Park and Joung, 2020)를 활용하여 새로운 피처(feature)를 도입하는 경우 모델을 보다 정교하게 개선할 수 있을 것으로 판단되며, 지속적으로 굴착현장에 대한 데이터를 수집하고 데이터베이스화하여 모델의 일반화 성능을 높일 수 있을 것으로 판단된다.

(3) 다양한 ML기법을 이용해 모델의 정확도를 실용적으로 활용할 수 있는 수준 이상으로 끌어올리는 경우, 시공 중 흙막이 벽체의 안정성 모니터링에 본격적으로 활용 가능해질 것으로 예상된다. 특히 본 연구의 결과와 같이 실제 굴착 현장의 데이터를 기반으로 설계, 시공, 계측관리 과정의 데이터 특성이 모두 반영된 예측결과를 활용한다면 흙막이 벽체의 수평변위 뿐만 아니라 굴착 현장 전체의 실시간 안정성 평가 및 모니터링 시스템으로 발전 가능할 것으로 판단된다. 다방면에서 ML기반 모델들이 성공적으로 활용되고 있지만 결과의 해석 가능성이 낮은 단점을 가지고 있으며, 모델 학습에 사용된 변수들이 벽체 변형을 결정하는 구조를 직관적으로 분석하는 데에는 한계가 있을 수 있다. 하지만 본 연구에서 활용한 바와 같이 예측모델의 결과가 최종 솔루션이 아니라 기존 수치해석 및 현장 계측에 대한 보완 방법의 하나로써 활용된다면 보다 안전하고 경제적인 굴착현장 유지관리 기술이 될 것으로 기대된다.

Acknowledgements

본 연구는 과학기술정보통신부 한국건설기술연구원 주요사업(과제번호 20230105-001, 인공지능을 활용한 대심도 지하 대공간의 스마트 복합 솔루션 개발)으로 수행되었습니다.

References

1
Chen, T. and Guestrin, C. (2016), XGBoost: A Scalable Tree Boosting System, Proceedings of the KDD(Knowledge Discovery and Data Mining) '16, San Francisco, CA, USA, pp.1-10. 10.1145/2939672.2939785
2
Clough, G. W. and O'Rourke, T. D. (1990), Construction Induced Movements of in Situ Walls, Proceedings of the Specialty Conference on Design and Performance of Earth Retaining Structures, ASCE, Reston, VA, USA, pp.439-470.
3
Friedman, J. H. (2001), Greedy Function Approximation: A Gradient Boosting Machine, The Annals Statistics, Vol.29, No.5, pp.1189-1232. 10.1214/aos/1013203451
4
Goh, A. T. C., Wong, K. S., and Broms, B. B. (1995), Estimation of Lateral Wall Movements in Braced Excavations Using Neural Networks, Canadian Geotechnical Journal, Vol.32, No.6, pp.1059-1064. 10.1139/t95-103
5
Goh, A. T. C., Zhang, F., Zhang, W., Zhang, Y., and Liu, H. (2017), A Simple Estimation Model for 3D Braced Excavation Wall Deflection, Computers and Geotechnics, Vol.83, No.3, pp.106-113. 10.1016/j.compgeo.2016.10.022
6
Hwang, R. N., Lee, T. Y., and Chou, C. R. (2012), Evaluation of Performance of Diaphragm Walls by Wall Deflection Paths, Journal of Geoengineering, Vol.7, No.1, pp.1-12.
7
Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., and Liu, T. Y. (2017), LightGBM: A Highly Efficient Gradient Boosting Decision Tree, Proceedings of the 31st Conference on Neural Information Processing System, Long Beach, CA, USA, pp.1-9.
8
Kim, H.T., Park, S. W., Kwon, Y. H., and Kim J. H. (2000), Development of a System Predicting Maximum Displacement of Earth Retaining Walls at Various Excavation Stages Using Artificial Neural Network, J. of the Korean Geotechnical Society, Vol.16, No.1, pp.83-97.
9
Kung, G. T. C., Hsiao, E. C. L., Schuster, M., and Juang, C. H. (2007), A Neural Network Approach to Estimating Deflection of Diaphragm Walls Caused by Excavation in Clays, Computers and Geotechnics, Vol.34, No.5, pp.385-396. 10.1016/j.compgeo.2007.05.007
10
Lee, S. and Kim, S. K. (2008), A Study on Deformation Analysis of the Earth Retaining Wall, J. of the Korean Geotechnical Society, Vol.24, No.2, pp.27-36.
11
Long, M. (2001), Database for Retaining Wall and Ground Movements due to Deep Excavations, Journal of Geotechnical and Geoenvironmental Engineering, Vol.127, No.3, pp.203-224. 10.1061/(ASCE)1090-0241(2001)127:3(203)
12
Moormann, C. (2004), Analysis of Wall and Ground Movements due to Deep Excavations in Soft Soil based on a New Worldwide Database, Soils and Foundations, Vol.44, No.1, pp.87-98. 10.3208/sandf.44.87
13
Park, C. S. and Joung, S. M. (2020), Numerical Investigation on the Excavation Width and Property of Deformation of Earth Retaining Wall, J. of the Korean Geotechnical Society, Vol.36, No.12, pp.57-68.
14
Peck, R. B. (1969), Deep Excavations and Tunneling in Soft Ground, Proceedings of the 7th International Conference on Soil Mechanic and Foundation Engineering, Mexico City, Mexico, pp.225-290.
15
Prokhorenkova, L., Gusev, G., Vorobev, A., Dorogush, A. V., and Gulin, A. (2018), Catboost: Unbiased Boosting with Categorical Features, Proceedings of the 32nd Conference on Neural Information Processing System, Montreal, Canada, pp.1-11.
16
Ray, R., Kumar, D., Samui, P., Roy, L. B., Goh, A. T. C., and Zhang, W. (2021), Application of Soft Computing Techniques for Shallow Foundation Reliability in Geotechnical Engineering, Geoscience Frontiers, Vol.12, No.1, pp.375-383. 10.1016/j.gsf.2020.05.003
17
Zhang, W., Zhang, R., Wu C., Goh, A.T.C., Lacasse, S., Liu, Z., and Liu H. (2020), State-of-the-art Review of Soft Computing Application in Underground Excavations, Geoscience Frontiers, 11, pp.1095-1106. 10.1016/j.gsf.2019.12.003
18
Zhang, R., Wu, C., Goh, A. T. C., B¨ohlke, T., and Zhang, W. (2021), Estimation of Diaphragm Wall Deflections for Deep Braced Excavation in Anisotropic Clays Using Ensemble Learning, Geoscience Frontiers, Vol.12, No.1, pp.365-373. 10.1016/j.gsf.2020.03.003
페이지 상단으로 이동하기