A Study on the Quality Control Method for Geotechnical Information Using AI

Ka-Hyun Park; Jongkwan Kim; Seokhyung Lee; Min-Ki Kim; Kyung-Ryoon Lee; Jin-Tae Han

doi:10.7843/kgs.2022.38.11.87

Preview

Journal of the Korean Geotechnical Society. 30 November 2022. 87-95
https://doi.org/10.7843/kgs.2022.38.11.87

A Study on the Quality Control Method for Geotechnical Information Using AI

AI를 이용한 지반정보 품질관리 방안에 관한 연구

Ka-Hyun Park¹

Jongkwan Kim¹

Seokhyung Lee²

Min-Ki Kim³

Kyung-Ryoon Lee⁴

Jin-Tae Han⁵^*

박 가현¹

김 종관¹

이 석형²

김 민기³

이 경륜⁴

한 진태⁵^*

¹Member, Senior Researcher, Geotechnical Engrg. Research Department, Korea Institute of Civil and Building Technology

²Member, Postdoctoral Researcher, Geotechnical Engrg. Research Department, Korea Institute of Civil and Building Technology

³CTO, Metalogos

⁴Director, Metalogos

⁵Member, Research Fellow, Geotechnical Engrg. Research Dept., Korea Institute of Civil and Building Technology

¹정회원, 한국건설기술연구원 지반연구본부 수석연구원

²정회원, 한국건설기술연구원 지반연구본부 박사후연구원

³비회원, 메타로고스 주식회사 CTO

⁴비회원, 메타로고스 주식회사 이사

⁵정회원, 한국건설기술연구원 지반연구본부 연구위원

^{*Corresponding Author}

ABSTRACT

The geotechnical information constructed in the National Geotechnical Information DB System has been extensively used in design, construction, underground safety management, and disaster assessment. However, it is necessary to refine the geotechnical information because it has nearly 300,000 established cases containing a lot of missing or incorrect information. This research proposes a method for automatic quality control of geotechnical information using a fully connected neural network. Significantly, the anomalies in geotechnical information were detected using a database combining the standard penetration test results and strata information of Seoul. Consequently, the misclassification rate for the verification data is confirmed as 5.4%. Overall, the studied algorithm is expected to detect outliers of geotechnical information effectively.

Keywords

Artificial Intelligence (AI)

Deep learning

Geotechnical information

Neural Network (NN)

Quality Control (QC)

Standard Penetration Test (SPT)

국토지반정보 포털시스템이 구축된 지반정보는 최근 설계, 시공, 지하안전관리, 재해재난 평가 등 다양한 분야에서 활용되고 있다. 그러나 전국적으로 기 구축된 약 30여만공의 지반정보는 누락되거나 잘못된 정보를 다수 포함하고 있어 데이터 활용시 신뢰도를 확보하기가 어렵다. 따라서 분석 데이터의 신뢰도를 확보하기 위해서는 지반정보를 활용하기 전 단계에서 지반정보의 정제(품질관리)가 반드시 필요하다. 본 연구에서는 딥러닝 기법 중 하나인 인공신경망 기법을 활용하여 지반정보를 자동으로 품질관리 하는 방안에 대하여 제안하였다. 특히, 가장 일반적으로 사용되는 정보인 표준관입시험 결과와 지층정보를 이용하여 지반정보의 이상치를 탐지하였다. 서울시 지반정보 데이터를 이용하여 분석하였으며, 검증데이터에 대한 오분류 비율은 5.4%로 확인되었다. 신경망 모델에서 이상치 분류된 데이터만을 추후에 검사함으로써 효율적으로 이상치를 탐지할 수 있을 것으로 기대된다.

MAIN

1. 서 론
2. 국토지반정보 포털시스템에서 획득한 지반정보의 오류 사례 및 기존 품질관리 기법
3. 데이터 수집 및 전처리
4. AI를 이용한 지반정보 품질관리 기법
4.1 학습모델
4.2 모델 구성 및 성능평가 지표
4.3 모델의 평가
5. 요약 및 결론

1. 서 론

국내의 지반정보는 국토지반정보 포털시스템에 디지털 데이터베이스(Database, DB)화 되어 관리 및 공유되고 있다. 2022년 1월 현재 국토지반정보 포털시스템에는 약 31만공의 데이터가 구축된 것으로 보고되고 있다. 이 방대한 양의 지반정보는 설계, 시공, 지하안전관리, 재해재난 평가 등 다양한 분야에서 폭넓게 활용되고 있으며, 점차 그 활용이 증가하고 있는 추세이다(Park et al., 2021a).

그러나 전국적으로 기 구축된 지반정보를 상세히 살펴보면, 누락되거나 잘못된 정보를 다수 포함하고 있어서 데이터 분석 시 신뢰성을 크게 저해하고 있으며, 이에 지반정보의 정제(품질관리)의 필요성이 꾸준하게 제기되어 오고 있다(Kim et al., 2011; Kim et al., 2012; Kim et al., 2014; Lee et al., 2017a; Lee et al., 2017b; Lee et al., 2018). 이에 National Disaster Management Research Institute(2021)은 액상화 위험도 평가를 위하여 지반정보의 품질관리 기법 및 절차를 제안한 바 있다. 그러나 이 방법은 데이터의 이상치 탐지 조건을 사람이 일일이 결정하고 설정해서 사전에 파악하지 못한 오류에 대해 대응이 어렵고 효율성이 떨어진다는 단점이 있다(Park et al., 2021b). 여기서 이상치 탐지란 정상상태를 크게 벗어나는 데이터 샘플을 탐지하는 것을 의미한다(Knorr and Ng, 1999).

한편, 데이터 이상탐지는 금융, 의료, 보안, 제조업 등의 분야에서 활발하게 연구되어 오고 있다. 토목분야에서도 최근 상수도 관망 누수, 이상 수질자료, 이상 강우 발생, 구조물 이상 관측 데이터 등을 탐지하기 위한 다양한 이상치 탐지 연구가 진행되어 오고 있다(Kim et al., 2016; Kim et al., 2018; Park and Ha, 2021; Liu and Zou, 2022; Shao et al., 2022). 일반적으로 데이터 이상탐지에는 통계적 기법, 머신러닝, 딥러닝 등이 널리 적용되고 있다. 특히, 인공지능 기반의 이상탐지 기법은 기계가 대량의 정보를 미리 학습하게 하여 인간이 발견하기 어려운 정보 안의 패턴을 식별하고 이를 기반으로 예측, 분류 등을 수행하기 때문에 기존의 전통적 방식(규칙 및 사람에 의한 수동적 탐지) 보다 정확성, 신규패턴 발견 가능성, 속도, 편리성 등을 크게 향상시킬 수 있다는 장점이 있다.

본 연구에서는 딥러닝 기법 중 하나인 인공신경망(Neural Network, NN) 기법을 활용하여 지반정보를 자동으로 품질관리 하는 방안에 대하여 제안하고자 한다. 특히, 가장 일반적으로 사용되는 정보인 표준관입시험결과와 지층정보를 결합한 자료를 이용하여 지반정보의 이상치를 탐지하였다. 서울시 지반정보를 학습 데이터로 활용하였으며, 국토지반정보 포털시스템에서 획득한 기본정보만 포함하여 분석(Model-1)과 심도관련 새로운 변수를 추가하여 분석(Model-2)한 경우에 대하여 분석하였다. 그 결과 심도관련 새로운 변수를 추가하여 분석한 결과 이상치 탐지 모델의 예측 정확률을 94.6%까지 높일 수 있음을 확인하였고, 딥러닝 기법을 이용하여 지반정보의 이상치를 효율적을 탐지할 수 있음을 확인하였다.

2. 국토지반정보 포털시스템에서 획득한 지반정보의 오류 사례 및 기존 품질관리 기법

일반적으로 국토지반정보 포털시스템에서 제공하는 지반정보에는 프로젝트 정보, 지형지질정보, 시추공 정보, 지층 정보, 현장시험 정보, 물성시험 정보, 토사시험 정보, 암석시험 정보, 물리탐사 정보, 지표물리탐사 정보, 전문가 의견 정보 등으로 구성된다. 가장 일반적으로 사용되는 지반정보는 지층정보와 표준관입시험 결과이다. 지층정보는 프로젝트코드, 프로젝트명, 시추공코드, 시추공명, x, y 좌표, 고도, 지하수위, 지층코드, 지층시작심도, 지층종료심도, 지층두께, 토목용 지층명(USCS), 한글지층명, 토질색상, 비고의 항목으로 구성되어 있다. 표준관입시험 결과는 프로젝트코드, 프로젝트명, 시추공코드, 시추공명, x, y 좌표, 시험심도, 표준관입시험_타격회수, 표준관입시험_관입깊이의 항목으로 구성된다.

본 연구에서는 국토지반정보 포털시스템에서 획득한 지반정보의 이상치를 탐지하기 전 사전작업으로 발생 가능한 오류 사례에 대하여 검토하고, Fig. 1에 대표 오류 사례를 나타내었다. 국토지반정보 포털시스템에 지반정보를 구축할 때 지반조사 보고서를 보고 사람이 일일이 입력을 해서 진행하기 때문에 정확하지 않은 정보가 기입되는 사례가 자주 발생한다. 첫번째로 지반정보의 x, y 좌표가 대상 영역을 벗어나는 경우나 각각 뒤바뀌어 기입되는 경우가 확인되었다(Fig. 1(a)). 고도나 지하수위가 누락된 경우 혹은 -9999, -99999, 문자 등으로 기입되는 사례도 발생하였다. 지층정보에서는 지층시작심도와 지층심도가 같게 나오거나 뒤바뀌어 작성되는 경우가 확인되었다. 또한 지층 두께의 경우에는 지층시작심도와 종료심도의 차로 계산됨에도 불구하고 이 결과와 상이한 경우가 다수 존재하였다(Fig. 1(b)). 이 밖에도, 한글지층명, USCS, 비고 항목 등에서도 누락과 오타가 발생하는 경우도 다수 존재하였다. 표준관입시험 결과에서는 시험심도, 타격횟수, 관입깊이의 정보가 누락되는 경우와 잘못된 값이 기입되는 경우가 다수 존재하였다.

https://cdn.apub.kr/journalsite/sites/kgs/2022-038-11/N0990381107/images/kgs_38_11_07_F1.jpg

Fig. 1

Examples of representative errors in geotechnical information obtained from the Geotechnical Information DB System

이에 National Disaster Management Research Institute(2021)은 액상화 위험도 평가를 위하여 지반정보의 품질관리 기법 및 절차를 Fig. 2와 같이 제안하였다. 액상화 위험도 평가를 위하여 필요한 지반정보는 일반적으로 사용되는 지반정보와 동일하게 시험정보, 지층정보, 표준관입시험정보 3가지 정보이다. 기 제안된 품질관리 기법의 1단계에서는 지층정보 데이터 중 심도데이터의 불일치 유무, 지층종류 불일치 유무를 판단하여 필터링을 수행하며, 2단계에서는 SPT 실험 데이터 중 타격횟수가 50회 이상이거나 관입깊이가 30cm 이상인 경우에도 이상치로 간주하고 제외한다. 다만, 이 방법은 오류나 이상치에서 신규패턴이 발생하는 경우에 대응이 어려울 수 있다는 단점이 존재한다.

https://cdn.apub.kr/journalsite/sites/kgs/2022-038-11/N0990381107/images/kgs_38_11_07_F2.jpg

Fig. 2

Flow chart of quality control procedures for liquefaction potential assessment (National Disaster Management Research Institute, 2021)

3. 데이터 수집 및 전처리

본 연구에서는 국토지반정보 포털시스템으로부터 서울특별시의 원본 지반정보(지층정보, 현장시험 정보 중 표준관입시험정보)를 각각 20,270공, 13,688공 획득하였고, 학습에 사용하기 위하여 데이터 전처리를 수행하였다. 데이터 전처리 과정은 표준관입시험 결과와 지층정보를 시추공번호를 기준으로 심도별로 각 정보를 하나로 결합하는 과정을 포함한다. 지층명을 구별하는 방식은 다양할 수 있으나 본 연구에서는 한글지층명을 기준으로 토사와 암반층의 두가지로만 구분하여 지층분류(soil classification) 컬럼을 추가하였다. 토사층의 경우 1, 암반층의 경우에 0으로 표시하였다.

일반적으로 지층정보의 심도는 지층의 종류를 기준으로 작성이 되고, 표준관입시험결과의 정보는 표준관입시험을 실시한 심도(1m 혹은 1.5m 간격)로 작성이 된다. 이처럼 표준관입시험결과 파일의 시험심도와 지층정보의 지층구분 심도가 다르기 때문에 표준관입시험결과 데이터테이블의 시험심도를 기준으로 지층정보에서 해당층의 지층정보를 추출하였다. 누락된 데이터는 삭제하였고, ET 또는 기타로 표기되어서 토사층인지 암반층인지 구별할 수 없는 경우와 잘못 기입된 지층정보의 경우에도 관련 시추공을 제외하였다. 표준관입시험은 30cm를 관입시키는데 필요한 타격횟수를 측정하는 방법이나, 50타 이상의 타격 시 30cm 미만의 관입량이 측정되는 경우 50타에 해당하는 관입량을 측정하여 기입한다. 따라서, 표준관입시험의 타격회수가 50 초과거나 표준관입시험 심도가 30미만인 경우에는 제외 처리하였다. 그 결과, 10,444공(개별 91,1989 개의 데이터)이 분석 대상 시추공으로 분류되었다. 전처리된 파일에는 프로젝트 코드, 프로젝트명, 시추공코드, 시추공명, x, y 위치정보의 시추공 일반정보와 시험심도(depth), 표준관입시험_타격회수(spt_count), 표준관입시험_관입깊이(spt_depth), 지층분류(soil classification)의 시험정보가 남게 된다.

이렇게 데이터 전처리한 결과 파일을 이용하여 데이터 분포를 확인하였다. 분석에 사용한 변수는 지반정보가 공간정보임을 감안하여 일반정보 중에서 x, y 좌표를 포함하였고, 이외에도 시험정보인 시험심도, 표준관입시험_타격회수, 표준관입시험_관입깊이, 지층분류(soil classification)의 총 6가지를 사용하였다.

Fig. 3은 토사층과 암반층의 시험심도의 상대 도수분포이며, 빨간색은 토사층의 도수분포이고 파란색은 암반층의 도수분포를 나타낸다. Fig. 3에서 볼 수 있듯 토사층의 경우에 얕은심도에 분포하고 있으며, 암반층의 경우 토사층보다 더 깊은 심도에 분포하고 있는 것을 알 수 있다. Fig. 4는 토사층과 암반층의 표준관입시험_타격회수 상대도수분포를 나타낸 것이다. 데이터 전처리 과정에서 표준관입시험 값과 관련된 이상치를 제외하였기 때문에 데이터의 분포는 0~50 사이의 값을 갖는 것을 확인할 수 있고, 암반층의 경우 토사층의 경우보다 타격횟수가 클 뿐만 아니라 대부분의 시험값이 모두 50에 분포하고 있는 것을 알 수 있다. Fig. 5는 토사층과 암반층의 표준관입시험_관입깊이 상대도수분포를 나타낸 것이다. 토사층의 경우에는 대부분의 시험 정보가 30cm 관입했을 때 타격횟수를 나타내는 경우가 많기 때문에 값 30에 도수분포가 몰려있는 것을 확인하였고, 암반층의 경우에는 50회 타격했을 때 관입심도를 나타내는 경우가 많기 때문에 시험값이 30보다 작은 수치에 고르게 분포하는 것으로 확인했다. 데이터 간의 상관관계를 시각화하여 확인하기 위하여 Fig. 6과 같이 히트맵을 작성하였다. 그 결과 시험정보인 시험심도, 표준관입시험_타격회수, 표준관입시험_관입깊이와 지층분류(soil classification) 간의 높은 상관관계를 확인할수 었었다.

https://cdn.apub.kr/journalsite/sites/kgs/2022-038-11/N0990381107/images/kgs_38_11_07_F3.jpg

Fig. 3

Relative frequency distribution of test depth for the soil and rock layer

https://cdn.apub.kr/journalsite/sites/kgs/2022-038-11/N0990381107/images/kgs_38_11_07_F4.jpg

Fig. 4

Relative frequency distribution of blow count for the soil and rock layer

https://cdn.apub.kr/journalsite/sites/kgs/2022-038-11/N0990381107/images/kgs_38_11_07_F5.jpg

Fig. 5

Relative frequency distribution of penetration depth for the soil and rock layer

https://cdn.apub.kr/journalsite/sites/kgs/2022-038-11/N0990381107/images/kgs_38_11_07_F6.jpg

Fig. 6

Correlation coefficient of the variables

한편, 동일 좌표(x, y) 내 특정 심도의 지반이 토사층인지 암반층인지 여부는 Fig. 7과 같이 이전 심도(상부)와 이후 심도(하부)의 지층분류(soil classification)에 영향을 받는다. 특정심도의 지층분류(soil classification)는 상부 및 하부층이 토사인지 암반인지에 따라 결정될 수 있다. 상부층 및 하부층이 모두 토사층인 경우에는 해당심도를 토사로 분류할 수 있으며, 상부층 및 하부층이 모두 암반인 경우에는 암반으로 분류해볼 수 있다. 상부층만 토사층인 경우에는 암반 또는 토사 중에 분류할 수 있으며, 하부층만 암반인 경우에도 해당층을 암반 또는 토사층으로 분류할 볼 수 있다. 따라서 특정 위치의 지반이 토사인지 암반인지 여부를 예측하는데 있어서 직전 상하부의 지층정보가 토사층인지 여부의 정보를 함께 분석하였다. 단, 상부층의 정보가 없는 경우에는 최상층이라고 가정할 수 있기 때문에 상부층의 정보는 토사층으로 가정을 하고, 하부층의 정보가 없는 경우에는 하부층의 정보를 암반층으로 가정을 하였다. Fig. 8과 같이 상부층의 정보와 하부층의 변수를 추가하여 데이터 간의 상관관계를 히트맵을 작성 후 확인하였다. 그 결과 시험정보인 시험심도, 표준관입시험_타격회수, 표준관입시험_관입깊이 외 동일좌표_상부_지층종류(soil_up) 및 동일좌표_하부_지층종류(soil_down)와 같이 새롭게 생성한 변수의 경우에도 지층분류(soil classification)와의 높은 상관관계를 확인할 수 있었다.

https://cdn.apub.kr/journalsite/sites/kgs/2022-038-11/N0990381107/images/kgs_38_11_07_F7.jpg

Fig. 7

Soil type of a borehole corrected by layer information (Upper and lower)

https://cdn.apub.kr/journalsite/sites/kgs/2022-038-11/N0990381107/images/kgs_38_11_07_F8.jpg

Fig. 8

Correlation coefficient of the variables with additional layer information (Upper and lower layers)

4. AI를 이용한 지반정보 품질관리 기법

4.1 학습모델

본 연구에서는 딥러닝 기법의 일종인 완전연결 신경망 (fully connected neural network, FCNN) 모델을 사용하여 입력항목과 지층분류(soil classification) 간의 관계를 학습하였다. Biswas et al.(2020)은 완전연결신경망을 이용하여 SPT 값과 깊이 간의 상관관계에 관한 연구를 수행한 바 있다. 또한, 완전연결 신경망은 Fig. 9와 같은 구조로 각 층(layer)의 모든 뉴런이 그 다음 층(layer)의 모든 뉴런과 연결된 구조를 가지는 신경망으로서, 학습대상에 대한 사전지식 필요없이 데이터 간의 비선형적 관계를 비교적 쉽게 학습할 수 있다는 장점이 있다(Jou et al., 1994; Murino, 1998; Glorot and Bengio, 2010; Dean et al., 2012; Raiko et al., 2012).

https://cdn.apub.kr/journalsite/sites/kgs/2022-038-11/N0990381107/images/kgs_38_11_07_F9.jpg

Fig. 9

Fully connected neural network

본 연구에서는 서울시 지반정보를 완전연결 신경망의 학습데이터로 사용하였으며, 전체 서울시 지반정보 데이터 총 91,198 개중 80%를 학습데이터로, 나머지 20%를 검증데이터로 사용하였다. 기본정보만 포함하여 분석(Model-1)한 결과와 새롭게 심도관련 변수를 추가하여 분석(Model -2)한 결과를 비교하였으며, 각 케이스에 대한 완전연결 신경망의 입출력 구성은 다음과 같다. Model -1에서는 ‘시험심도’, ‘표준관입시험_타격회수’, ‘표준관입시험_관입깊이’의 3개 항목을 입력값으로, ‘지층분류(soil classification)’를 출력값으로 구성하였다. Model -2에서는 ‘시험심도’, ‘표준관입시험_타격회수’, ‘표준관입시험_관입깊이’, ‘동일좌표_직전심도_지층종류’, ‘동일좌표_직후심도_지층종류’의 5개 항목을 입력값으로, ‘지층분류(soil classification)’를 출력값으로 구성하였다. 이 때 출력값은 0에서 1사이의 값을 가지는데 0.5 미만일 경우에는 암반층, 0.5 이상일 경우에는 토사층으로 판단하였다.

4.2 모델 구성 및 성능평가 지표

완전연결 신경망 모델은 은닉층 개수, 은닉층별 뉴런 개수 등의 내부 구조에 따라 예측성능이 달라지게 된다. 최적의 완전연결 신경망 모델을 찾기 위해 은닉층 수(2~7), 은닉층당 뉴런 수(30, 50, 70)를 바꿔가며 모델성능을 비교했으며, 모델의 성능지표로는 검증데이터에 대한 예측값과 실제값의 평균제곱근오차(Root mean square error)를 사용하였다. 모델성능 평가에는 전체 서울시 지반정보 데이터 중 80%에 해당하는 학습데이터를 활용했다. 그 결과, Table 1에 나타낸 바와 같이 은닉층 수 3개, 은닉층당 뉴런 수 50개로 구성된 경우 모델성능이 가장 우수한 것으로 나타나, 이를 기준으로 완전연결 신경망 모델을 구성하였다.

Table 1.

RMSE according to the combination of number of hidden layer and number of neurons per hidden layer

No. of hidden layer No. of neurons per hidden layer	2	3	4	5	6	7
30	0.190	0.189	0.189	0.189	0.189	0.191
50	0.187	0.185	0.187	0.191	0.187	0.188
70	0.192	0.189	0.189	0.189	0.191	0.189

실제 모델 구현은 python의 PyTorch 프레임워크에서 이루어졌으며, 세부 구성으로는 Adam 최적화, Relu 활성화함수, 학습률 0.001, Epoch횟수 100, Batch 정규화가 적용되었다.

4.3 모델의 평가

앞서 언급한 바와 같이, 본 연구에서는 전체 서울시 지반정보 데이터 중 80%를 학습데이터로, 나머지 20%를 검증데이터로 사용하였다. 80%의 학습데이터로 학습시킨 완전연결 신경망 모델(은닉층 수 3개, 은닉층 당 뉴런 수 50개)을 통해 나머지 20%의 검증데이터를 예측하여, 예측 정확률(precision ratio)를 평가했다. 예측 정확률은 예측된 지층정보(토사층 혹은 암반층) 중 실제 지층정보와 일치하는 비율(%)로 산정했으며, 그 결과는 Tables 2~3과 같다. 기본정보만 포함하여 분석(Model-1)한 결과를 보더라도 토사층의 경우 암반층보다 높은 정확률로 예측하고 있었으며, 검증 데이터에 대한 예측 정확률은 87.9%로 나타났다. 새롭게 심도관련 변수를 추가하여 분석(Model-2)한 경우에 예측 정확률이 94.6%로 Model-1에 비하여 6.7% 증가한 것을 확인할 수 있었다. 두 경우 모두 토사층에 대한 예측 정확률이 암반층에 비해 높게 나타나는데, 이는 전체 데이터에서 토사층이 차지하는 비중이 상대적으로 크기 때문에 모델 학습과정에서 토사층에 대한 bias가 발생하기 때문으로 추정된다.

Table 2.

Precision ratio for verification data (Model-1)

	Soil	Rock	Total
No. of prediction	14,106	4,134	18,240
No. of matches	13,115	2,909	16,025
Precision ratio	91.0%	76.1%	87.9%

Table 3.

Precision ratio for verification data (Model-2)

	Soil	Rock	Total
No. of prediction	14,106	4,134	18,240
No. of matches	13,732	3,517	17,249
Precision ratio	97.3%	85.1%	94.6%

Model-2에 대한 검증데이터에 대한 오분류 비율은 5.4% 정도로, 해당 데이터들은 대다수의 나머지 데이터들과는 다른 패턴을 가진 이상치 데이터에 해당한다. 신경망 모델에서 이상치로 분류된 5.4% 정도의 데이터들만을 2차적으로 사람들이 검사함으로써, 전체 데이터를 대상으로 이상치 데이터를 검사하는 경우보다 효율적으로 이상치 데이터를 검출할 수 있을 것으로 기대된다.

본 연구에서는 히트맵 분석을 통하여 상관계수가 높은 변수를 확인하고 지반정보 품질관리 모델 개발에 사용하였다. 그러나 실제 지반의 분포는 x, y 위치정보에 영향을 받기 때문에 이를 고려한 연구가 필요하며, 반경 내 지층분류(soil classification)를 변수로 추가하여 모델을 개선하는 연구가 필요하다. 또한, 지층을 단순히 토사층과 암반으로만 분류하였다는 한계가 있어 향후 자갈, 모래, 실트, 점토, 암반으로 지층을 세분화하여 모델을 더 발전시킬 필요가 있다.

5. 요약 및 결론

본 연구에서는 인공신경망 기법을 이용하여 지반정보를 자동으로 품질관리 하는 방안에 대하여 제안하였다. 분석에는 서울시 지반정보 데이터를 사용하였으며, 데이터 전처리를 통하여 지층정보와 표준관입 시험정보를 결합하였고 이 단계에서 기존의 조건문에 의한 이상치 탐지 과정을 포함하였다. 이 후, 히트맵 분석을 통하여 상관계수가 높은 변수를 확인하고 기본정보만 포함하여 분석(Model-1)한 결과와 새롭게 심도관련 변수를 추가하여 분석(Model-2)한 결과를 비교하였다. 그 결과, 심도 관련 변수를 추가하여 분석한 결과 이상치 탐지 모델의 예측 정확률을 94.6%까지 높일 수 있었다. 이 경우 검증데이터에 대한 오분류 비율은 5.4%로 나타났으며, 이 모델로부터 이상치로 분류된 데이터만을 2차적으로 사람들이 검사함으로써 전체 데이터를 대상으로 이상치를 검사하는 경우보다 훨씬 효율적이고 정확하게 이상치 데이터를 검출할 수 있을 것으로 기대된다.

다만, 그러나 실제 지반의 분포는 x, y 위치정보에 영향을 받기 때문에 이를 고려한 연구가 필요하며, 반경 내 지층분류(soil classification)를 변수로 추가하여 모델을 개선하는 연구가 필요하다. 또한, 지층을 단순히 토사층과 암반으로만 분류하였다는 한계가 있어 향후 자갈, 모래, 실트, 점토, 암반으로 지층을 세분화하여 모델을 더 발전시킬 필요가 있다.

Acknowledgements

본 연구는 과학기술정보통신부 한국건설기술연구원 연구운영비지원(주요사업)사업으로 수행되었습니다(과제번호 20220173-001, (22주요-대1-목적)지반분야 재난재해 대응과 미래 건설산업 신성장을 위한 지반 기술 연구(2/2)).

References

Biswas, S., Faysal, T. I., Promiti, A. Siddiqui, Hossain, M. S., Bazlul, L., Sarwar, A. M., Shaiban, S. Md., and Rahman, R. M. (2020), "Analysis of Soil and Various Geo-Technical Properties Using Data Mining Techniques", 2020 IEEE 10th International Conference on Intelligent Systems, pp.288-293. 10.1109/IS48319.2020.9199941

Dean, J., Corrado, G., Monga, R., Chen, K., Devin, M., Mao, M., Ranzato, M.A., Senior, A., Tucker, P., Yang, K., and Ng., A. (2012), "Large Scale Distributed Deep Networks", Advances in neural information processing systems, 25.

Glorot, X. and Yoshua, B. (2010), "Understanding the Difficulty of Training Deep Feedforward Neural Networks", Proceedings of the thirteenth international conference on artificial intelligence and statistics, pp.249-256.

Gülçehre, Ç. and Bengio, Y. (2016), "Knowledge Matters: Importance of Prior Information for Optimization", The Journal of Machine Learning Research, Vol.17, No.1, pp.226-257.

Jou, I. C., You, S. S., and Chang, L. W. (1994), "Analysis of Hidden Nodes for Multi-layer Perceptron Neural Networks", Pattern Recognition, Vol.27, No.6, pp.859-864. 10.1016/0031-3203(94)90170-8

Kim, H. S., Kim, H. K., Shin, S. Y., and Chung, C. K. (2011), "Application of Statistical Geo-Spatial Information Technology to Soil Stratification", Journal of Journal of the Korean Geotechnical Society, Vol.27, No.7, pp.59-68. 10.7843/kgs.2011.27.7.059

Kim, H. S., Kim, H. K., Shin, S. Y., and Chung, C. K. (2012), "Application of Statistical Geo-Spatial Information Technology to Soil Stratification in the Seoul Metropolitan Area", Georisk: Assessment and Management of Risk for Engineered Systems and Geohazards, Vol.6, No.4, pp.221-228. 10.1080/17499518.2012.744248

Kim, H. S., Chung, C. K., and Kim, H. K. (2016), "Geo-spatial Data Integration for Subsurface Stratification of Dam Site with Outlier Analyses", Environmental Earth Sciences, Vol.75, No.2, pp.1-10. 10.1007/s12665-015-4931-4

Kim, J. J., Kim, H. S., and Chung, C. K. (2014), "Determination of Optimum Outlier for Borehole Data in Offshore Dredging Area using Cross Validation", KSCE 2014 CONVENTION 2014 CIVIL EXPO & CONFERENCE, pp.569-570.

Kim, J., Park, N. S., Yun, S., Chae, S. H., and Yoon, S. (2018), "Application of Isolation Forest Technique for Outlier Detection in Water Quality Data", Journal of Korean Society of Environmental Engineers, Vol.40, No.12, pp.473-480. 10.4491/KSEE.2018.40.12.473

Knorr, E. M. and Ng, R. T. (1999), "Finding Intensional Knowledge of Distance-based Outliers", Proceedings of the 25th International Conference on Very Large Data Bases, 99, pp.211-222.

Lee, B. Y., Hwang, B. S., and Cho, W. J. (2017a), "Reliability Evaluation Methodology of Boring Investigation DB for the 3D Integrated Underground Space Map", Journal of the Korean Geotechnical Society, Vol.33, No.9, pp.35-47. 8.

Lee, B. Y., Hwang, B. S., and Cho, W. J. (2017b), "Precision Analysis of Geotechnical Information for the 3D Integrated Underground Space Map", Journal of the Korean Geo-Environmental Society, Vol.18, No.4, pp.5-8.

Lee, B. Y., Hwang, B. S., Kim, H.S., and Cho, W. J. (2018), "Precision Improvement Methodology of Geotechnical Information through Outlier Analysis", Journal of the Korean Geo-Environmental Society, Vol.19, No.2, pp.23-35.

Liu, J. and Zou, T. (2022), "Identifying the Outlier in Tunnel Monitoring Data: An Integration Model", Computer Communications, 188, pp.145-155. 10.1016/j.comcom.2022.03.002

Murino, V. (1998), "Structured Neural Networks for Pattern Recognition", IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), Vol.28, No.4, pp.553-561. 10.1109/3477.70429418255974

National Disaster Management Research Institute (2021), "Development of Quality Control System of Geo-information and Construction of Liquefaction Hazard Map".

Park, K.H., Han, J.T., and Yoon, Y.N. (2021a), "A Study on the Automatic Digital DB of Boring Log Using AI", Journal of the Korean Geotechnical Society, Vol.37, No.11, pp.119-129.

Park, K.H., Han, J.T., and Kim, J.K. (2021b), "Automated Quality Control Method for Geotechnical Information using Autoencoder", Proceedings of 2021 Fall Korean Geotechnical Society Conference, pp.261-262.

Park, S. and Ha, J.H. (2021), "Development of Computational Algorithms for Daily Water Leak Detection in District Metered Areas Based on the Principal Component Analysis", Desalination and Water Treatment 227, pp.93-103. 10.5004/dwt.2021.27354

Raiko, T., Valpola, H., and LeCun, Y. (2012), "Deep Learning Made Easier by Linear Transformations in Perceptrons", Artificial intelligence and statistics, pp.924-932

Shao, C., Zheng, S., Gu, C., Hu, Y., and Qin, X. (2022), "A Novel Outlier Detection Method for Monitoring Data in Dam Engineering", Expert Systems with Applications, 193, 116476. 10.1016/j.eswa.2021.116476

Journal of the Korean Geotechnical Society ISSN:1229-2427(Print) 2288-646X(Online) 한국지반공학회 논문집

Preview

A Study on the Quality Control Method for Geotechnical Information Using AI

ABSTRACT

MAIN

Fig. 1

Examples of representative errors in geotechnical information obtained from the Geotechnical Information DB System

Fig. 2

Flow chart of quality control procedures for liquefaction potential assessment (National Disaster Management Research Institute, 2021)

Fig. 3

Relative frequency distribution of test depth for the soil and rock layer

Fig. 4

Relative frequency distribution of blow count for the soil and rock layer

Fig. 5

Relative frequency distribution of penetration depth for the soil and rock layer

Fig. 6

Correlation coefficient of the variables

Fig. 7

Soil type of a borehole corrected by layer information (Upper and lower)

Fig. 8

Correlation coefficient of the variables with additional layer information (Upper and lower layers)

Fig. 9

Fully connected neural network

Table 1.

RMSE according to the combination of number of hidden layer and number of neurons per hidden layer

Table 2.

Precision ratio for verification data (Model-1)

Table 3.

Precision ratio for verification data (Model-2)

Acknowledgements

References