보험사 빅데이터 구축 2

hellosketch (40)in #steempress • 6 years ago

2.데이터 마이닝

'사기 보험금 청구 탐지'에 대한 빅데이터 분석은 금전적 손실을 줄이는 것과 직접적으로 연관되어 있기 때문에 비즈니스에 직접적으로 도움을 준다. ETI의 네 가지 비즈니스 부문에서 모두 사기가 발생하지만, 다소 간단하게 하기 위해 빅데이터 분석 범위를 건물 부문의 사기파악에 국한한다.

ETI는 국내 및 민간 고객에게 건물 보험과 손해 보험을 제공한다. 보험 사기는 우발적 혹은 조직적으로 발생할 수 있지만, 대부분의 보험 사기는 거짓말 혹은 과장 등의 우발적인 특성을 갖고 있다. 사기 탐지 문제에 빅데이터 솔루션을 적용했을 때, 성공의 척도를 측정하기 위해 설정된 KPI 중 하나는 사기 보험금 청구 사례를 15% 정도 줄이는 것이다.

예산을 감안하였을 때, 분석팀은 빅데이터 솔루션 환경에 적합한 시설을 갖추는 데 가장 많이 투자하기로 결정하였다. 일괄 처리 방식을 지원하기 위해서 오픈소스 기술을 사용할 것이기 때문에 장비를 갖추는 데 많은 초기 투자가 필요하지 않다고 생각하였다. 그러나 전반적인 빅데이터 분석 수명주시를 고려할 때, 추가적인 데이터 획득,데이터 정제, 그리고 새로운 데이터 시각화 기술을 도입하는 데 더 많은 예산을 투입해야 된다는 것을 깨달았다. 비용 편익 분석을 수행한 결과, 만일 빅데이터 솔루션이 목표 사기 탐지 KPI를 달성한다면, 그에 대한 투자는 비용보다 몇 배의 수익을 창출할 수 있을 것이라 결론이 내려졌다. 이러한 분석 결과처럼, IT팀은 빅데이터를 적용한 좋은 비즈니스 기회가 존재한다고 믿는다.

alt

2.1 데이터 식별

다수의 내/외부 데이터가 식별되었다. 내부 데이터에는 보험 증서 데이터, 보험 신청 서류, 보험료 청구 데이터, 손해사정사의 기록, 사건 사진(incident photographs) 및 콜센터 상담원의 기록 및 이메일 등이 있다. 외부 데이터에는 소셜 미디어 데이터( 트위터 피드), 일기예보, 지리 정보(GIS), 인구 데이터 등이 있다. 모든 데이터 세트들은 5년 치를 확보했다. 보험료 청구 데이터는 여러 개의 필드를 갖는 과거 보험금 청구 데이터들로 이뤄져 있는데, 그 필드 중 하나에는 과거 청구의 합법 여부가 기록되어 있다.

2.2 데이터 획득 및 여과

보험 증서 데이터는 보험 증서 관리 시스템에서, 보험금 청구 데이터와 사고 사진 및 손해사정사의 기록은 보험금 청구 관리 시스템에서, 보험금 신청 서류는 문서 관리 시스템에서 가져온다. 손해사정사의 기록은 , 보험금 청구 데이터에 포함되어 있다. 그러므로 이 기록을 추출하기 위한 별도의 과정이 필요하다. 콜센터 상담원의 기록 및 이메일은 CRM 시스템에서 얻는다.

나머지 데이터 세트들은 제3의 데이터 제공자에게서 획득한다. 모든 원본 데이터 세트의 복사본이 디스크에 저장된다. 각 데이터 세트의 출처를 파악하기 위해, 데이터 세트의 이름, 소스, 크기, 형식, 합계, 획득 일자, 레코드 수와 같은 메타데이터들은 계속 추적된다. 트위터 피드 및 일기예보 데이터를 빠르게 확인해 보니 4~5% 가량의 데이터들이 손상되어 있는 것을 확인할 수 있다. 따라서 손상 레코트를 제거하기 위해 2개의 일괄 처리 데이터 정제 작업이 실시된다.

2.3 데이터 추출

IT팀은 필요한 필드를 추출하기 위해서, 몇 개의 데이터 세트들을 전처리 해야 할 필요가 있음을 알게 되었다. 예를 들어, 트위터 데이터 세트의 경우 JSON 형식으로 되어 있다. 트윗을 분석하기 위해서는 사용자 ID, 시간대, 그리고 트윗 텍스트를 추출해서 표 형식으로 변환해야 한다. 게다가 날씨 데이터 세트는 계층적 형식(XML)으로 되어 있고, 시간대, 기온, 풍속, 풍향 예보 및 눈, 폭우 예보에 관한 정보도 추출해서 표 형식으로 저장된다.

alt

2.4 데이터 검증 및 정제

ETI는 비용을 줄이기 위해, 100%의 정확성이 보증되지 않는 무료의 날씨, 인구 데이터 세트들을 사용하고 있다. 그렇기 때문에 이 데이터 세트들을 검증하고 정제해야 한다. 공개된 필드 정보를 바탕으로, IT팀은 추출한 필드에 대해 데이터 타입, 범위 유효성, 입력 오류 및 부정확성 검사를 수행할 수 있다. 필드에 유효하지 않은 데이터가 포함되어 있어도 의미 있는 정보가 포함되어 있으면 해당 레코드는 제거되지 않는다는 규칙을 설정한다.

2.5 데이터 통합 및 표현

유의미한 데이터 분석을 하기 위해, 데이터 쿼리를 통해 각 필드를 참조할 수 있는 테이블 형식의 단일 데이터 세트에 보험 증서 데이터, 청구 데이터, 콜센터 상담원의 기록을 같이 통합하기로 했다. 이런 작업을 통해 나온 결과물은, 현 데이터 분석인 사기 보험금 청구 탐지에만 사용할 것이 아니라, 위험도 측정 및 신속한 보험금 청구 해결 등과 같이 다른 목적의 데이터 분석에도 사용할 수 있을 것이다. 통합 데이터 세트는 NoSQL 데이터베이스에 저장된다.

2.6 데이터 분석

이 단계에서, IT팀은 사기 보험금 청구 탐지를 위한 데이터 분석 기술이 없으므로 데이터 분석가가 필요하다. 사기를 발견하기 위해서, 사기 보험금 청구는 적법한 보험금 청구와 달리 어떤 특징을 갖고 있는가를 먼저 분석해야 한다. 이를 위해 탐색적 데이터 분석 방법을 수행한다. 이 분석을 하기 위해서는 다양한 기법들을 적용하여 분석하는데, 일부 기술은 뒤에 설명한다. 사기 보험금 청구와 적볍한 보험금 청구의 결정적으로 다른 특징을 찾아낼 때까지 이 단계를 반복한다. 이러한 과정에서, 사기 보험금 청구와 덜 연관된 속성들을 제거하고, 연관된 속성들은 유지하거나 추가하는 작업도 수행한다.

2.7 데이터 시각화

마침내 몇 가지 흥미로운 사실들을 발견했고, 분석 결과를 보험 계이사, 보험 심사역 및 손해사정사에게 전달해야 한다. 이때 막대 그래프, 선 그래프, 산점도와 같이 다양한 시각화 기법들을 사용한다. 산점도는 사기성 청구, 적법한 청구를 그룹화해서, 고객 연력, 보험 발행 시점으로부터 지난 기간, 과거 보험금 청구 기록 및 금액 등의 요소들에 대해 어떠한 차이점이 있는지 분석하기 위해 사용된다.

2.8 분석 결과 활용

데이터 분석 결과를 바탕으로, 보험 발행 업체와 보험금 지급 업다들은 사기 보험금 청구의 특징에 대해 알게 되었다. 그러나 이런 데이터 분석에서 실제로 이익을 얻으려면 기계 학습 기반의 모델을 생성하고,이를 현재 보험금 청구 처리 시스템에 같이 적용하여 사기성 보험금 청구라고 실제로 판단할 수 있도록 해야 한다. 이때 필요한 기계 학습 기법은 뒤에 논의 될 것이다.

alt

엔터프라이즈 기술

ETI는 거의 모든 업무 기술에서 온라인 트랜잭션 처리를 사용한다.보험 증권 견적, 보험 증권서 관리, 보험 청구 관리, 청구, 전사적 자원 관리(ERP) 및 고객 관계 관리(CRM) 시스테믄 모두 온라인 트랜잭션 처리 기반이다. ETI는 새로운 청구가 발생할 때마다 온라인 트랜잭션 처리를 사용하는데, 이는 청구 관리 시스템에서 사용하는 관계형 데이터베이스에 있는 청구 테이블에 새 레코드가 생성되기 때문이다.마찬가지로 청구가 손해사정사에 의해 처리되면 상태가 제출애서 사정사에게 할당으로, 사정하에게 할당에서 청구 처리로 변경되고 마지막으로 간단한 데이터베이스 업데이트 작업을 통해 처리된다.

기업 데이터 웨어하우스(EDW)는 운영 시스템에서 사용되는 관계형 데이터베이스의 테이블에서 데이터를 추출하고, 데이터의 유효성을 검사하고 변환한 다음 기업 데이터 웨어하우스(EDW)의 데이터베이스에 로드하는 여러 추출 변환 적재(ETL) 작업을 통해 매주 채워진다. 운영 시스템에서 추출된 데이터는 다양한 파일을 실행하여 변환되는 준비 데이터베이스로 먼저 가져온 단층 파일(flat file)형식이다. 고객 데이터를 처리하는 하나의 추출 변환 적재 프로세스에는 여러 데이터 유효성 검사 규칙을 적용해야 한다. 그중 하나는 각 고객이 의미있는 문자로 채워진 성(surname) 및 이름 필드를 모두 가지고 있는지 확인하는 것이다. 또한 동일한 추출 변환 적재프로세스의 일부로 주소의 처음 두행이 함께 결합된다.

기업 데이터웨어하우스에는 데이터가 다양한 보고 쿼리의 실행을 가능하게 하는 큐브 형식으로 유지되는 온라인 분석 처리(OLAP)시스템이 포함되다. 예를 들어, 정책 큐브는 판매된 보험 증권(팩트 테이블) 및 위치, 유형 및 시간의 차원(차원 테이블)의 계산으로 구성된다.

분석가는 비즈니스 인텔리전스(BI) 활동의 일부로 다른 큐브에 대해 쿼리를 수행한다. 보안 및 빠른 쿼리 응답을 위해 기업 데이터 웨어하우스에는 2개의 데이터 마트가 추가로 포함되어 있다. 그중 하나는 리스크 평가 및 규정 준수 보증을 비롯한 다양한 데이터 분석을 위해 계리 및 법률팀에서 사용하는 보험 청구 및 보험 증권 데이터로 구성된다. 두 번째 데이터 마트는 판매팀이 판매를 모니터링하고 향후 영업 전략을 세우는 데 사용되는 영업 관련 데이터를 포함한다.

빅데이터 비즈니스 인텔리 전스

ETI가 현재 사용하는 비즈니스 인텔리전스는 전통적인 비즈니스 인텔리전스의 범주에 속한다. 영업팀에서 사용하는 어떤 대시보드는 종류, 지역, 금액 및 당월에 만료되는지 여부에 따라 이미 판대된 보험 상품을 나누어서, 다양한 차트로 다양한 보험 상품 관련 핵심 성과 지표(KPI)를 보내주고 있다. 다른 대시보드는 중개인에게 현재의 성과, 예를 들어 수수료 수입 및 월간 목표 달성 가능성을 알려준다. 이 대시보드는 모두 판매 데이터 마트로부터 데이터를 공급받는다.

콜센터 스코어보드는 대기 통화 수, 평균 대기 시간, 중도 포기한 통화 수 및 유형별 통화 수와 같은 센터의 일일 작업과 관련된 중요 통계를 제공한다. 이 스코어보드는 고객 관계 관리(CRM)의 관계형 데이터베이스에서 비즈니스 인텔리전스 제품을 통해 직접 데이터를 제공받으며, 비즈니스 인텔리전스 제품은 필요한 KPI를 얻기 위해 주기적으로 실행되는 다양한 SQL 쿼리를 구성하기 위한 유사한 애드혹 보고서를 생성한다. 이러한 보고서 중 일부는 지속적인 규성 준수 보장의 일환으로 규제 당국에 전달된다.

ETI는 빅데이터 비즈니스 인텔리전스의 채택이 전략적 목표를 달성하는 데 크게 도움이 될 것이라고 믿는다. 예를 들어 콜센터 상담원 메모와 함께 소셜 미디어를 통합하면 고객 이탈의 원인을 더 잘 이해할 수 있다. 마찬가지로 보험 가입 신청 시 제출된 문서에서 귀중한 정보를 수집하고 청구 데이터와 상효 참조할 수있는 경우 신고 청구의 합법성을 보다 신속하게 확인할 수 있다. 이 정보는 유사한 청구와의 상관성을 찾아 사기를 탐지하는 데 사용될 수 있다.

데이터 시각화와 관련하여 분석가가 사용하는 비즈니스 인텔리전스 도구를 현재 정형화된 데이터에서만 작동한다. 사용 편의성 측면에서 이러한 도구의 대부분은 마법사(wizard)를 하용하거나 필요한 필드를 그래픽으로 표시된 관련 테이블에서 수동으로 선택하여 데이터베이스 쿼리를 작성하는 포인트 앤 클릭(point and click) 기능을 제공한다. 그런 다음 관련 차트 및 그래프를 선택하여 쿼리 결과를 표시할 수 있다. 최종 결과는 여러 통계가 표시되는 대시보드이다. 대시보드는 여과, 집계 및 드릴다운 옵션을 추가하도록 구성할 수 있다. 예를 들어,사용자가 분기별 판매량 차트를 클릭하고 매월 판매량을 분석할 수 있다. what-if 분석 기능을 제공하는 대시보드는 현재 지원되지 않지만 만일 제공된다면, 보험 계리사는 관련 위험 요인을 변경해 가면서 다양한 위험 수준을 신속하게 알아낼 수 있을 것이다.

환경

ETI의 IT 환경은 현재 Linux 및 Windows 운영 체제를 모두 사용한다.따라서 ext 및 NTFS 파일 시스템이 모두 사용되고 있다. 웹 서버와 일부 응용 프로그램 서버는 ext를 사용하고 나머지 응용프로그램 서버,데이터베이스 서버 및 최종 사용자의 PC는 NTFS를 사용하도록 구성된다.

RAID 5로 구성된 NAS(Network Attached Storage)는 결함 포용성이 있는 문서 저장 장치이다. IT팀이 파일 시스템에서 정통하기 하지만 클러스터, 분산 파일 시스템 및 NoSQL의 개념은 이 팀에서 생소하다. 그럼에도 불구하고 빅데이터 기술을 배운 IT팀 리더 구성원들이 논의를 진행하면, 전체 그룹이 이러한 개념과 기술을 이해할 수 있다

ETI의 현재 IT 환경을 전적으로 ACID 데이터베이스 설계 원칙을 사용하는 관계형 데이터베이스로 구성된다. IT 팀은 BASE원칙과 CAP 이론을 제대로 이해하지 못하고 있다. 또 팀 구성원 중 일부는 빅데이터 데이터 세트 저장 장치와 관련해 이러한 개념의 필요성과 중요성을 확식하지 못한다. 이때 리더 구성원들은 방대한 양의 데이터를 클러스터에 분산된 방식으로 저장하는 경우에 이러한 개념을 적용할 수 있다고 설명하며 동료 팀원의 혼란을 완하하려고 한다. 클러스터는 스케일 아웃(Scaling out)으로 선형 확장성을 지원할 수 있기 때문에 대량의 데이터를 저장하기 위한 확실한 선택이 되었다.

클러스터 네트워크를 통해 연결된 노드로 구성되기 때문에 클러스터의 사일로 또는 파티션을 만드는 과정에서 통신 장애가 일어나는 것은 불가피하다. 이러한 파티션 문제를 해결하기 위해 BASE 원리와 CAP 이론이 도입 되었다. 그들은 BASE 원리를 따르는 데이터베이스가ACID 원리를 따르는 데이터베이스와 비교할 때 일관성이 없을지라도 클라이언트에 보다 민감하게 반응한다고 설명한다. BASE 원리를 이해하고 나서, IT침은 클러스터에 구현된 데이터베이스가 왜 일관성과 가용성 중 하나를 선택해야 하는지 쉽게 이해할 수 있었다.

기존의 관계형 데이터베이스 중 어느 것도 샤딩을 사용하지 않지만 데이터 복원 및 운영 보고를 위해 거의 모든 관계형 데이터베이스가 복제된다. 샤딩 및 복제의 개념을 더 잘 이해하기 위해 IT팀은 다수의 보험 견적서 데이터를 신속하게 작성하고 액세스할 때 이러한 개념을 적용하는 방법에 대해 연습한다. IT팀은 샤딩을 적용하기 위한 기준으로 보험 견적의 유형(건강, 건물, 해상 및 항공)을 사용하면 여러 노드에서 균형 잡힌 데이터 세트를 생성할 수 있다고 생각한다. 그 이유는 쿼리가 대부분 동일한 보험 섹터 안에서 실행되고 교차 쿼리는 거의 없기 때문이다. 복제와 관련하여 IT팀은 피어 투 피어 복제 전략을 구현하는 NoSQL 데이터베이스를 선택한다. 이렇게 결정한 이유는 보험 견적서라는 데이터는 아주 빈번하게 생성되지만, 아주 드물게 업데이트 되기 때문이다. 따라서 일관성 없는 데이터가 만들어질 가능성은 낮다. 이를 고려할 때 팀은 피어 투 피어 복제를 선택하여 일관성보다 읽기 및 쓰기의 성능을 택하는 것이다.

분산 데이터 처리

ETI의 운영 정보 시스템의 대부분은 클라이언트 서버 및 n티어 아키텍처를 사용한다. 회사는 IT 시스템의 재고 조사 후 시스템이 분산 데이터 처리를 사용하지 않도록 결정한다. 대신 처리해야 하는 데이터는 클라이언트에서 수신되거나 데이터베이스에서 검색된 다음 단일 시스템에서 처리된다. 현재의 데이터 처리 모델은 분산 데이터 처리를 사용하지 않지만 일부 소프트웨어 엔지니어는 장치 수준의 병렬 데이터 처리 모델이 어느 정도 사용되어야 한다는 데에 동의한다.이러한 의견은 일부 맞춤형 애플리케이션 멀티 스레딩(threading)을 사용하여 랙기반 서버에 있는 여러 코어들을 실행할 수 있도록 데잍 처리 작업을 분할함으로써 높은 성능을 낸다는 사실을 기반으로 한다.

6.1 작업부하 처리

IT팀은 트랜잭션과 일괄 워크로드가 현재 ETI의 IT환경에서 데이터 처리를 할 때 모두 사용되기 때문에 이 두 작업 모두를 이해하고 있다.청구 관리 및 (영수증)청구와 같은 운영 시스템은 ACID 원리를 준수한 데이터베이스 트랜잭션으로 구성된 트랜잭션 작업을 보여준다. 반면, ETI 및 BI 활동을 통한 EDW의 인구는 일괄 작업을 나타낸다.

alt

6.2 일괄 처리 방식

빅데이터 기술에 익숙하지 않은 IT팀은 데이터의 일괄 처리를 먼저 구현함으로써 점진적 접근 방식을 선택한다. 팀이 충분한 경험을 쌓으면 데이터의 실시간 처리를 구현할 수 있다. IT팀은 맵리듀스 프레임워크에 대한 이해를 돕기 위해 맵리듀스를 적용할 수 있는 시나리오를 선택하고 지적 훈련을 수행한다. 멤버들은 정기적으로 수행해야 하는 일 가운데 완료하는 데 오랜 시간이 걸리는 일이 가장 인기 있는 보험 상품을 로케이팅하는 것임을 파악하였다. 보험 상품의 인기는 해당 상품의 페이지를 몇 번 보았는지에 따라 결정된다. 웹 서버는 웹 페이지가 요청될 때마다 로그 파일에 항목(쉼표로 구분된 필드 세트가 있는 텍스트 행)을 작성한다. 웹 서버 로그에는, 여러 필드 중에서도 웹 페이지를 요청한 웹 사이트 방문자의 IP 주소, 웹 페이지가 요청된 시간 및 페이지 이름이 포함된다. 페이지 이름은 웹 사이트 방문자가 관심을 갖고 있는 보험 상품의 이름과 일치한다. 현재 웹 서버 로그는 모든 웹 서버에서 관계형 데이터베이스로 가져온다. 다음으로SQL 쿼리가 실행되어 페이지 뷰의 수와 함께 페이지 이름 목록을 얻는다 이때, 로그 파일 가져오기 및 SQL 쿼리실행은 완료하는 데 오랜 시간이 걸린다.

맵리듀스를 사용하여 페이지 뷰 수(에 대한 정보)를 얻기 위해 IT팀은 다음과 같은 접근 방식을 취한다. 맵 단계에서 텍스트의 각 입력 행에 대해 페이지 이름을 추출하여 이름 출력 키로 설정하고 숫자 1을 값으로 설정한다. 리듀스 단계에서는 단일 입력 키(페이지 이름)에 대한 모든 입력 값(1의 목록)을 루프하여 합하는 간단한 방식으로 총 페이지 뷰 수를 얻는다. 리듀스 단계의 출력은 페이지 이름을 키로, 총페이지 뷰 수를 값으로 구성한다. 처리 효율성을 높이기 위해, 숙력된IT팀 멤버들은 나머지 그룹에 결합기를 사용하여 리듀서와 정확히 동일한 논리를 실행할 수 있음을 상기시켰다. 그러나 결합기의 출력은 페이지 뷰 수의 부분합으로 구성된다. 따라서 결합기는 리듀서에서 총 페이지 조회 수를 얻는 논리와 동일하지마, 각 페이지 이름(키)에 대해1의 목록(값)을 얻는 대신 입력 값들의 목록을 각 매퍼의 부분합으로 구성한다.

6.3 실시간 처리 방식

IT팀은 이벤트 스트림 처리 모델을 이용해 트위터 데이터에 대한 감성 분석을 실시간으로 수행하여 고객 불만의 원인을 찾을 수 있다고 생각한다.

다양한 빅데이터 세트 수집 및 연동

ETI의 IT팀이 1.5의 식별된 데이터 세트의 범위를 저장하기 위해 다양한 빅데이터 저장 기술을 평가 중이다. 데이터 처리 전략에 따라 팀은 데이터를 일괄 처리 및 통합할 수 있도록 온디스크 저장 기술의 하나인 인메모리 저장 장치를 도입하여 실시간 데이터 처리를 지원하기로 결정한다. 팀은 분산 파일 시스템과 NoSQL 데이터베이스의 조합을 활용하여 ETI 부서내외에서 수집 및 처리된 데이터 세트를 저장해야 한다고 밝혔다.

웹 서버 로그 파일은 줄 단위 텍스트를 하나의 레코드로 표현한다. 이를 스트리밍 방식으로 처리할 때 텍스트 결합은 하둡의 분산 파일 시스템(HDFS)에 저장된다.(이때 특정 레코드에 대한 임의적 접근 없이 모든 레코드가 순서대로 처리된다고 가정하자)

사건 사진들은 큰 저장 공간을 요구하며, 현재 순간에 해당하는 ID를 가진 BLOB로 관계형 데이터베이스에 저장된다. 이러한 사진은 바이너리 데이터이고, 사건 ID를 통해 접근해야 하므로 IT팀은 키-값 쌍 형태의 데이터베이스를 대신 사용할 수 있다고 판단했다. 이것은 사건 사진을 저장하는 저렴함 방법을 제공하고 관계형 데이터베이스의 공간을 확보할 것이다.

다음과 같은 계층적 데이터를 저장하기 위해 NoSQL 문서 데이터베이스가 사용된다.

- 트위터 데이터(JSON)

- 날씨 데이터(XML)

- 콜센터 에이전트 노드(XML)

- 손해사정사 노트(XML)

- 건강 기록(XML의 HL7 준수 레코드)

- 이메일(XML)

자연적으로 묶인 필드의 집합이 존재하고, 관련 필드가 함께 접근되면 데이터는 NoSQL 칼럼-패밀리 데이터베이스에 저장된다 예를 들어,고객 프로필 데이터는 고객의 개인 정보, 주소 및 관심 분야 등 각자가 여러 필드의 조합인 최신 정책 필드로 구성되어 있다. 반면, 처리된 데이터는 여러 분석 쿼리에 대응하여 개별 필드에 액세스할 수 있는 테이블 형식이어야 하므로, 처리된 트윗 및 가상 데이터를 칼럼-패밀리 데이터베이스 형태로 저장할 수도 있다.

alt

분석 기법들

ETI는 현재 정량적 분석과 정성적 분석 모두를 사용한다. 회사에서 보험 계리사는 리스크 관리를 위해서 확률, 평균, 표준 편차 및 분포 같은 다양한 통계 기법을 통한 정량적 평가를 수행한다. 반면에 한 건의 청구를 두고 자세히 살펴보며 리스크의 낮음, 중간 혹은 높음을 판별해야 하는 보험 발행 단계에서는 정성적인 분석을 수행한다. 그리고 청구 평가 단계에서 해당 청구의 사기 여부를 판단한다.

현재 ETI의 분석가들은 강력한 데이터마이닝 기법을 적용하지 않고 대신에 대부분의 노력을 EDW로부터 얻은 데이터를 가지고 BI를 얻는 데 쏟고 있다.

IT팀과 분석가들은 빅데이터 분석 수명주기 데이터 분석 단계에서 다양한 분석 기법들을 적용했고 그 결과 사기성 거래를 찾는 데 성공했다. 여기에 적용된 기술 중 일부가 나와 있다.

8.1 상관관계 분석

보험 증서를 구매한 직후 여러 가지 사기성 보험금 청구가 발생한다는 것이 발견되었다. 이를 검증하기 위해 보험 증권의 연수(age)와 사기 청구 건의 상관관계를 측정해 보았다. 그 결과 상관계수 -0.8로 두 변수 사이에 관계가 있음을 보였다. 즉, 보험 증서가 오래될수록 사기 건수의 숫자가 감소했다.

이 발견을 바탕으로 분석가들은 보험 증권의 연수에 다라 사기 청구 건수가 얼마나 있는지 확인하고자 했다. 따라서 보험 증권의 연수를 독립 변수로, 사기 청구 건수를 종속 변수로 두어 회귀 기법을 사용하였다.

8.2 시계열 그래프

분석가들은 사기 청구 건수가 시간에 의존하는지 여부를 확인하고자 했다. 특히 특정 연수에서 사기 청구 건수가 급즈하는지에 관심이 있었다. 지난 5녀간 사기 청구 건수는 매주 기록된 사기 청구 건수를 바탕으로 계산되었다. 시계열 그래프를 시각적으로 분석해 보면 사기 청구 건수가 휴일 직전과 여름이 끝날 때 올라간다는 계절적 특성을 지님을 확인할 수 있었다. 이 결과는 고객들이 휴가 기간 이후, 그들의 가전 제품 등을 바꾸기 위해 물건이 도둑맞거나 손상되었다고 거짓으로 보험을 청구하는 것을 의미한다. 몇 가지 단기간의 불규칙적인 변이 또한 발견되었는데 좀 더 면밀한 검사를 통해 이는 홍수나 폭풍과 같은 자연재해와 연관이 있음을 알수 있었다. 현재 추세를 봤을 때 장기적으로 사기 청구 건수가 늘어날 것임을 알 수 있었다.

8.3 클러스터링

비록 모든 사기 청구가 다르지만 분석가들은 이들 간에 존재하는 유사성을 찾고자 했다. 고객 나이, 보험 증권 연수, 성별, 과거 청구 수, 청구의 빈도 수와 같은 다양한 속성들을 바탕으로 클러스터링 기법을 적용함으로써 사기 청구들을 그룹화했다.

8.4 분류

분석 결과를 활용하는 단계에서는 타당한 청구와 사기 청구를 분류하는 분류 기법이 이용되었다. 이를 위해 분류 모델은 과거의 타당한 혹은 사기 청구로 이미 확정되어 있는 데이터 세트를 학습했다. 학습한 후 모델은 온라인 상태에서 새롭게 들어온 청구의 사기 여부를 분류할 수 있었다.

도입 이후

ETI는 빅데이터 저장 및 분석의 영역에서 IT팀에게 경험과 자신감을 쌓게 한 '사기 청구 탐지' 솔루션을 성공적으로 개발했다. 하지만 이는 고위 관리팀이 수립한 주요 목표 중 일부만 달성한 것이다.

추가적으로, 신규 보험 증권 가입 신청 시 위험 평가 개션, 재앙 발생 시 청구 감소를 위한 재앙 관리 시행, 더 효과적인 청구 해결 및 맞춤형 보험 증권 제공을 통한 고객 이탈 감소, 그리고 마지막으로 100% 규정 준수 달성 같은 프로젝트를 해야 한다.

alt

"성공은 성공을 낳는다"는 것을 알고 있는 기업 혁신 관리자는IT팀에게 청구서 처리 속도를 획기적으로 향상하라고 통고하였다. IT팀이 사기 탐지 솔루션을 구현하는 데 필요한 빅데이터 기술을 배우려고 바쁜 동안 혁신 관리자는 청구서 처리 비즈니스 프로세스를 문서로 만들고 분석학 위해 비즈니스 분석가팀을 배치했다. 이 프로세스 모델은 BPMS(Business Process Management System)로 구현될 자동화 프로세스를 추진하는 데 사용 될 것이다. 혁신 관리자는 사기 탐지를 위한 모델에서 최대한의 가치를 생성하기 원하기 때문에 이를 다음 목표로 선택했다.

이는 처리 자동 프레임워크에서 호출될 때 달성된다. 이렇게 하면 합법적인 청구서와 사기 청구서를 분류하는 지도 기계 학습 알고리즘을 점진적으로 개선할 수 있는 학습 데이터를 추가로 수집할 수 있다.

처리 자동화를 구현했을 때의 또 다른 이점은 작업 표준화이다.청구서가 동일한 절차에 따라 처리 되는 경우, 고객 서비스의 편차가 감소하게 되며 이는 ETI 고객의 청구서가 정확하게 처리되고 있음을 확인하는 데 도움이 된다. ETI의 비즈니스 프로세스의 실행을 통해,고객이 ETI와의 관계의 가치를 인식하게 된다는 간접적인 혜택도 존재한다. BPMS 자체는 빅데이터 계획이 아니지만 종단 간 처리 시간, 개별 활동의 휴면 시간 및 처우서를 처리하는 개별 직원의 처리량 등과 관련된 엄청난 양의 데이터를 생성한다. 이 데이터는 특히 고객 데이터와 결합해서 흥미로눈 관계를 찾기 위해 수집되고 분석된다.

고객 이탈 비율이 이탈하는 곡개에 대한 청구서 처리 시간과 상관관계가 있는지를 파악하는 것은 중요하다. 그렇가면 회귀 모델을 개발하여 고객 이탈 위험을 예측하고 고객 지원 담당자가 사전에 연락할수 있다.

ETI는 조직의 응답을 측정 및 분석하여 반영하고 관리하는 선순환을 생성함으로써 일상 업무가 개선되고 있다. 경영진은 조직을 기계가 아니라 유기체로 보는 것이 유용하다는 것을 깨달았다. 이러한 관점은 내부데이터를 더 깊게 분석하는 것뿐만 아니라 외부 데이터를 통합할 필요가 있다는 사실을 깨닫게 해주었고 패러다임을 전환하게 했다.

ETI는 온라인 트랜잭션 처리(OLTP) 시스템으로부터 서술 분석에 기반하여 사업을 수행하고 있었다는 것을 곧혹스럽게 인정해야 했다. 이제 분석 및 비즈니스 인텔리전스에 대해 더 폭넓은 관점에서 기업 데이터 웨어하우스(EDW) 및 온라인 분석 처리(OLAP) 기능을 더 효율적으로 사용할 수 있게 되었다. 실제로 ETI는 해양, 항공 및 부동산 사업 전반에 걸쳐 고객을 조사함으로써 보트, 비행기 및 최고급 부동산에 대해 별도의 보험을 보유한 고객이 많다는 것을 확인할 수 있었다. 이 인사이트만으로도 새로운 마케팅 전랴과 고객에게 업셀링(upselling) 기회를 찾았다.

또한 ETI의 미래는 데이터 중심의 의사결정을 채택함으로써 더 밝아졌다. 이제 비즈니스에서 진단 분석 및 예측 분석의 이점을 경험했으므로 처방 분석을 사용하여 리스크회피를 하려고 한다. 점차 빅데이터를 채택하고 이를 비즈니스와 IT간의 연계를 개선하는 수단으로 사용하는 ETI의 능력은 엄청난 이점을 가져왔다. ETI의 경영진은 빅데이터가 큰 의미를 가진다고 생각하고, ETI가 수익을 창출하면 주주들도 같은 생각을 할 것으로 기대한다.

빅데이터 기초 개념, 동인, 기법, Thomas Erl, Wajid Khattak, Paul Buhler -
Posted from my blog with SteemPress : http://internetplus.co.kr/wp/?p=243

#steem

6 years ago in #steempress by hellosketch (40)

$0.34

3 votes

STEEM 0.16

TRX 0.15

JST 0.028

BTC 57958.96

ETH 2283.65

USDT 1.00

SBD 2.46

보험사 빅데이터 구축 2

Coin Marketplace