기획특집 AI 분석을 위한 엔지니어링 데이터 플랫폼 구축
페이지 정보
작성자 최고관리자 댓글 0건 조회 1,049회 작성일 24-06-14 13:08본문
인공지능(AI) 및 빅데이터 플랫폼은 기술 발전의 최전선에 서 있으며, 각각의 분야에서 주목할 만한 성장과 변화를 겪고 있다. AI 분야는 생성형 AI와 같은 신기술을 중심으로 활발한 혁신이 이루어지고 있으며, 비즈니스 프로세스 자동화, 예측 분석 및 진단, 개인화된 고객 경험 제공에 기여하고 있다.
빅데이터는 전 세계적으로 생성되는 엄청난 양의 데이터를 수집, 저장, 분석하여 비즈니스 인사이트를 제공하는데 중점을 둔다. 빅데이터는 볼륨, 속도, 다양성 등의 특성을 가지며, 이를 통해 기업들은 실시간으로 비즈니스 결정을 내리고, 고객 경험을 향상시키며, 새로운 시장 기회를 탐색할 수 있다. 특히, 원자력 설계 분야에서 다양한 소스로부터 수집된 데이터는 비즈니스 전략을 강화하는데 핵심적인 역할을 한다.
원자력 설계 분야에서 축적된 정형, 비정형 데이터는 이력, 검색 및 운영 목적으로 관리되며, 분석 목적의 데이터로는 활용성과 신뢰성이 부족하다. 데이터 분석 플랫폼을 기반으로 원자력 분야 설계 문서, 도면, 실시간 수집 데이터, 3D 포인트 클라우드 등 다양한 정형/비정형 데이터를 데이터 전처리, AI OCR 등을 통해 통합할 수 있다. 통합된 데이터 활용 및 AI 분석을 통해(설계 프로세스 개선을 통한) 설계 생산성을 향상시킬 뿐 아니라 4차 산업 요소 기술 개발을 통해서 신사업을 창출할 수 있다.
이처럼 인공지능 및 빅데이터 플랫폼은 기술 발전과 함께 계속해서 진화하고, 산업 분야에서의 다양한 적용을 통해 새로운 비즈니스 가치를 창출하고 있다.
1. 시장 동향
국내 인공지능(AI) 시장은 빠르게 성장 중이며, 2027년까지 연평균 성장률이 14.9%에 이를 것으로 전망된다. 이러한 성장은 다양한 디지털 기술과의 융합, 고도화된 예측 및 추천 솔루션 그리고 생성형 인공지능(Generative AI)의 활용 범위 확장 등에 기인한다. 특히 인공지능 기술은 소프트웨어 시장의 중요한 부분을 차지하며, AI 및 기계학습(ML)의 적용 범위 확장이 예상되는데, 이는 기업들이 AI를 비즈니스 전략에 핵심적으로 통합하고 있다는 것을 의미한다.
빅데이터 및 분석 도구 시장도 매년 성장세를 보이고, 2027년까지 연평균 10.6%로 성장하여 약 4조 원 규모에 이를 것으로 예상된다. 시장의 성장은 비즈니스 경쟁력 확보를 위해 데이터를 핵심 비즈니스 이니셔티브에 활용하려는 기업의 수요 증가에 따른 것이다. 고객 경험 강화와 차별화된 서비스 제공을 위한 고객 데이터 분석의 중요성이 부각되면서 관련 시스템 및 플랫폼 도입도 확대되고 있다.
2. 융복합 데이터 AI 분석 플랫폼
1) 플랫폼 구성
융복합 데이터 AI 분석 플랫폼은 대규모의 빅데이터를 수집, 저장, 처리, 분석할 수 있도록 통합 관리한다. 포털을 통해 사용자, 분석자, 관리자가 권한에 맞게 부여된 시스템을 활용한다. 사용자는 포털을 통해서 Front-end로 접근하지만, Back-end에서 구동되는 연계 기능을 통해 서비스된다.
플랫폼은 데이터 카탈로그 및 메타데이터 관리와 AI 분석 과제를 단위별로 관리하는 체계를 구축하여 사용자가 AI 분석 서비스를 활용할 수 있는 환경을 제공하고, 필요한 분석 모듈을 쉽게 배포할 수 있도록 지원한다.
데이터 수집 단계에서는 원전 설계 문서, 기술 규격서, 도면, 절차서 등 다양한 파일 포맷의 데이터를 수집하며, AI OCR 및 풀 텍스트 추출 등 데이터 전처리를 통해 통합 저장소에 저장한다.
데이터 분석 단계를 통해 딥러닝/머신러닝 모델을 생성하고, 수집된 데이터를 기반으로 학습 과정을 거친다. 학습 완료된 모델은 웹 서비스를 통해 딥러닝 모델을 서빙하고, 각종 인공지능 서비스를 제공한다.
2) 디지털 변환 대상
융복합 데이터 AI 분석 플랫폼은 원자력 발전소의 도면 및 설계 문서를 디지털 변환하고, 이 데이터를 효율적으로 관리한다. 플랫폼은 데이터의 수집, 저장, 조회, 분석뿐 아니라 데이터 전송 관리와 하둡 에코시스템 서비스의 관리 및 모니터링을 수행한다.
융복합 데이터는 설계 엔지니어링에 사용하는 도면 및 설계 문서의 비정형 데이터와 설계 엔지니어링 관련 정형 데이터 그리고 실시간 로그, 3D 포인트 클라우드 등 다양한 포맷의 데이터를 포함한다.
보유하고 있는 설계 정보들은 대부분 구조화되지 않은 비정형 스캔 문서 및 도면이며, 비정형 스캔 문서 및 도면으로부터 원하는 정보를 추출하는 것은 어려운 문제이다. 문서관리 시스템에서는 공급자 문서 같은 원본으로 관리되지 않으면서 텍스트를 인식하지 못하는 스캔 문서를 다수 보유하고 있으며, 텍스트·이미지·표 등 다양한 정보가 혼재되어 있다.
그래서 딥러닝 기반으로 인간이 문서를 인식하는 시각정보 처리 기능과 유사하게 비정형화된 문서와 도면으로부터 정보를 추출할 수 있는 디지털 변환 기술이 필요하다. 예를 들어 LayoutLM 같은 모델을 활용하고, 비정형 문서의 구조를 분석해 머리말·꼬리말·캡션 수식·테이블·이미지·텍스트 등을 분리하고, 각 클래스에 맞게 정보를 변환(JSON 형태로 저장)한다. 비정형 문서 및 도면으로부터 JSON 형태로 저장하는 일련의 과정은 그림 4와 같다.
비정형 문서는 LayoutLMv3의 문서 구조 인식을 통해 11개의 클래스로 문서 구조를 구분하고, 클래스별 문서의 X, Y좌표, Width, Height의 상대적인 위치 정보를 추출한다. 클래스는 Section-header, Caption, Table, Text 등 총 11개로 나뉜다. Formula 클래스는 Formula Recognition 모델을 통해 수식을 인식하고, Table 클래스는 Table의 의미 파악은 물론 TATR 모델을 통해 테이블 구조 인식과 기능을 분석하고, 그 외 클래스는 Paddle OCR을 통해 문자를 추출하여 JSON 구조로 데이터화한다.
도면은 일반 문서와 구조가 다르기 때문에 문서 구조를 구분하기 위하여 클래스를 Border, Table, Picture, Text 총 4개로 구분하였다. 도면에는 수식 정보가 없기 때문에 따로 클래스를 나누지 않았다. LayoutLMv3 모델로 도면 데이터를 학습하였고, Table은 비정형 문서와 동일한 프로세스를 거쳐 Table 정보를 추출하고, Picture는 이미지로 저장을 하고, Text와 Border는 OCR을 통해 문자를 추출하여 JSON 구조로 데이터를 저장한다.
비정형 문서 데이터를 구조화된 데이터로 변환하여 보다 효과적으로 데이터를 분석할 수 있고, 검색의 측면에서도 스캔 문서에서는 검색할 수 없었던 텍스트나 이미지, 표, 수식 등을 추출함으로써 검색에 더욱 효율적으로 활용할 수 있다. 이를 개선하여 추후 제안한 방법의 성능을 고도화하고, 다양한 종류의 비정형 문서를 데이터화할 수 있다.
3) 플랫폼 인프라
플랫폼의 하드웨어 구성은 GPU 분석 서버와 하둡 에코시스템을 운용하는 가상화 서버로 이루어져 있으며, 클러스터링을 통한 효율적인 운영이 가능하다. 하둡 에코시스템은 하둡을 기반으로 만들어진 오픈 소스 생태계이다.
이 시스템은 가상화 서버 및 고성능 GPU 서버를 포함하는 인프라를 기반으로 한다. 가상화 서버는 Redhat 8.7 운영 체제를 사용하며, 이들은 관리 노드, 수집 노드, 분석 노드, 데이터 노드로 구성된다. 이러한 구성은 데이터의 수집, 저장, 관리, 분석을 효율적으로 수행할 수 있는 기반을 제공한다.
GPU 서버는 클러스터링을 통하고, 자원의 효율적인 분배와 운영을 가능케 한다. NVIDIA의 고성능 그래픽 카드를 장착해 분석자가 원하는 AI 분석 환경을 제공한다. 또 AI 서비스 운영에 필요한 강력한 계산과 추론 성능을 제공한다. 이러한 구성으로 복잡한 AI 모델의 훈련 및 실행을 신속하게 처리할 수 있다.
인프라는 쿠버네티스를 활용하여 클러스터링되어 있으며, 이는 컨테이너화된 애플리케이션의 배포, 확장 및 관리를 자동화하는 오픈 소스 시스템이다. 무엇보다 쿠버네티스를 사용함으로써 시스템은 고가용성, 확장성 그리고 운영의 효율성을 보장받는다.
하둡 에코시스템을 구축하기 위해 사용한 오픈 소스 컴포넌트는 표 1과 같다.
Kafka는 실시간 데이터 스트림을 처리하고, 다양한 소스로부터 대규모 데이터를 효율적으로 수집하는데 사용된다. NiFi는 다양한 데이터 소스로부터 데이터를 수집하고, 라우팅(변환) 및 조정 작업을 수행하여 데이터 플로우를 자동화한다.
HDFS(Hadoop Distributed File System)는 대용량 데이터 세트를 분산 저장하기 위한 파일 시스템이다. ZooKeeper는 분산 시스템의 조정과 구성 정보를 관리하며, 분산 애플리케이션과 서비스의 안정적인 저장소 역할을 한다.
Hive는 데이터 웨어하우스 인프라를 통해 SQL과 유사한 쿼리 언어(HiveQL)로 데이터를 분석 및 집계한다. Spark는 대규모 데이터 세트의 처리 및 분석을 위한 고성능 분산 컴퓨팅 시스템이고, 메모리 내 계산을 지원하여 빠른 분석을 가능하게 한다. Prometheus는 시스템 및 서비스 모니터링을 위한 도구로, 시계열 데이터를 수집 및 분석하고 성능 지표를 제공한다.
또 Grafana는 데이터 소스로부터 수집된 데이터를 시각화하는 플랫폼으로, 사용자 정의 대시보드를 통해 데이터를 도식화하고 모니터링한다.
3. 응용 서비스 개발
융복합 데이터 플랫폼은 다양한 데이터를 수집, 저장, 처리, 분석하는데 필요한 기술을 제공한다. 무엇보다 플랫폼을 활용하여 다양한 비즈니스 가치를 창출하고, AI 서비스 개발을 통해 생산성 향상 및 프로세스 혁신을 달성할 수 있으며, 신사업 개발을 추진할 수 있다.
향후 생성형 AI 서비스 개발을 통해 규제 기관 인허가 질의 검색 및 답변서 생성, 보고서 작성, 설계 정보 지능형 검색, 결재 시스템의 기안문 작성 등에 활용될 계획이다.
<참고문헌>
1) 한국IDC, “국내 빅데이터 및 인공지능 분석 시장 전망”, 2023
2) ACM Multimedia, “Layoutlmv3 : Pre-training for document ai with unified text and image masking”, 2022
- 이전글슈나이더 일렉트릭 코리아, 고압 장비 전력 보호 위한 보호계전기 제안 24.06.14
- 다음글프로세스 제어에서의 AI 기술 적용 사례<폐기물 발전소의 증기 과열기 주수 제어> 24.06.14