로운's 기술노트

[강의] SQLD_ 데이터 모델링의 이해 본문

내배캠_데이터분석가_'24.04~08/SQL

[강의] SQLD_ 데이터 모델링의 이해

로운's 2024. 5. 19. 21:04

1. 데이터 모델링의 이해

1) 데이터 모델링의 이해

데이터 모델링 : 데이터베이스에서의 모델은 데이터베이스 관리 시스템(RDBMS)이 지원하는 데이터베이스의 구조나 형식을 의미한다. >> 현실 세계를 추상화하여 표현하는 것


 - 정의

  • 정보 시스템 구축을 위해 데이터 관점의 업무를 분석하는 과정 
  • 현실 세계의 데이터를 약속된 표기법에 의해 표현하는 과정
  • 데이터베이스를 구축하기 위한 분석 및 설계의 과정

        *  '개발만'을 위한 (x), '구현만'을 위한 단계이다 (x)

- 특징

  • 추상화(Abstraction) : 현실세계를 일정한 형식에 맞추어 표현하는 것
  • 단순화(Simplification) : 복잡한 현실 세계를 약속된 규칙에 기반한 제한된 표기법이나 언어로 표현
  • 명확화(Clarity) : 대상에 대한 애매모호함을 제거하고 현상을 정확하게 기술하는 것

 

 

ㅇ 데이터 모델링의 단계

 

- 개념적 데이터 모델링 (Conceptual Data Modeling)

  • 조직이나 사용자가 필요로 하는 데이터의 요구사항을 찾고 분석하는 과정
  • 복잡하지 않고 중요한 부분을 위주로 모델링하는 단계
  • 추상화 수준이 가장 높고 업무 중심적인 모델링
  • 전사적 관점에서 기업의 데이터 모델링

- 논리적 데이터 모델링 (Logical Data Modeling)

  • 비즈니스 과정에서 나타나는 정보의 논리적인 구조와 규칙을 명확하게 표현하는 기법/과정
  • 누가(Who), 어떻게(How: Process) 그리고 전산화와는 별개로 비즈니스 데이터에 존재하는 사실을 인식하여 기록하는 것
  • 정규화를 수행하여 데이터 모델의 독립성 확보
    * 정규화 : 논리 데이터 모델의 일관성을 확보하고 중복을 제거하여 보다 신뢰성 있는 데이터 구조를 얻는 방법

- 물리적 데이터 모델링 (Physical Data Modeling)

  • 논리적 데이터 모델이 데이터 저장소로서 어떻게 컴퓨터 하드웨어에 표현될 것인지를 다루는 과정
  • 구축할 데이터베이스 관리 시스템에 테이블, 인덱스 등을 생성하는 단계
  • 성능, 보안, 가용성을 고려하여 구축 

 

ㅇ 데이터 모델링의 관점

 

- 데이터 관점 (What)

  • 업무가 어떤 데이터와 관련 있는지 모델링하는 방법에 대해 고민하는 관점
  • 비즈니스 프로세스에서 사용되는 데이터

 

- 프로세스 관점 (How)

  • 업무가 실제 하는 일이 무엇인지 그리고 무엇을 해야 하는지에 대해 모델링하는 방법을 고민하는 관점
  • 도메인 분석, 시나리오 분석

 

- 데이터와 프로세스의 상관 관점 (Intersection)

  • 업무가 처리하는 일의 방법에 따라 데이터는 어떤 영향을 받고 있는지를 중심으로 모델링을 하는 방법
  • 일에 의해 데이터가 어떤 변화가 일어나 지는지에 대해 초점을 맞추는 관점
  • CRUD(Create, Read, Update, Delete) 분석

2) 데이터 모델링의 중요성

- 파급효과 (Leverage)
  시스템 구축이 완성되어 가는 과정에서는 대규모 데이터를 통한 분석을 성공적으로 수행하기 위해 수많은 단위의 테스트가 수행됩니다. 결과가 완료되면  비슷한 규모(단위)의 테스트를 묶어 병합병행 테스트를 진행합니다. 이런 과정이 데이터를 업무 단위에서 분석하여 결과를 내는 과정입니다. 자, 이 상황에서 만약에 데이터 모델의 변경이 발생한다면 어떤 일이 벌어질까요? 정말 불가피한 상황을 가정해 보는 거예요. 
  예를 들면, 회사에서 진행하는 서비스의 방향이 바뀌어서 데이터를 정의하는 속성이 꽤나 많이 변경되어야 하는 상황이라고 해보는 거예요. 큰 구조가 변하지 않았다면 기존 내용을 바꾸기만 하면 되겠지만 만약 모델링 된 결과물 자체가 이전 요소에 완전하게 종속된 형태라면 어떨까요? 그럼 그 결과로 데이터 구조의 변경에 따른 표준 영향 분석, 응용 변경 등의 영향 분석 등의 과정이 변경되어야 하겠죠? 변경을 해야 하는 데이터 모델의 형태에 따라서 얼마만큼의 영향이 받는지 차이가 있겠지만 이 시기의 데이터 구조의 변경으로 인한 일련의 변경 작업은 전체 시스템 구축 과정에서 큰 위협요소가 될 수 있습니다.
  결과적으로 모델링을 잘 설계하는 위해서는 데이터가 흘러가는 것을 시스템 전체의 관점에서 바라볼 수 있어야 합니다. 구체적인 내용은 변해도 큰 구조는 변하지 않도록 만드는 것이죠. 어떤 설계인지에 따라 예상하지 못한 상황에 얼마만큼의 추가 비용을 초래할지 결정되는 만큼 중요하다고 할 수 있습니다.

- 간결한 표현 (Conciseness)
  데이터 모델은 구축할 시스템의 정보에 대한 요구 사항과 한계점을 가장 명확하고 간결하게 표현할 수 있는 도구입니다. 정보에 대한 요구 사항을 파악할 때 수십 페이지 분량의 자료의 기능적인 요구 사항을 하나하나 파악하는 것보다 간결하지만 핵심이 포함된 데이터 모델을 보면서 파악하는 것이 훨씬 좋습니다.
  데이터 모델은 시스템을 구축하는 많은 관련자들이 설계자의 생각대로 정보요구사항을 이해하고 이를 운용할 수 있는 어플리케이션을 개발하고 데이터의 일관성을 유지할 수 있도록 하는 것입니다. 
  이렇게 이상적인 역할 수행을 할 수 있는 데이터 모델이 갖추어야 할 가장 중요한 점은 정보 요구 사항이 정확하고 간결하게 표현되어야 한다는 것입니다.

- 데이터 품질 (Data Quality)
  데이터베이스에 저장된 데이터는 기업에게는 매우 소중한 자산입니다. 구글 검색을 통해 수많은 자료를 무료로 이용하는 것도 결국 우리가 검색하는 과정 하나하나의 데이터를 구글이 활용하기 때문입니다. 데이터는 기업 입장에서 매우 소중한 자산입니다.
  그렇다면 기업에게 모든 데이터는 소중할까요? 그건 아닙니다. 저장된 데이터가 어떤 정보를 제공함에 있어 정확하지 않은 데이터일 수도 있고 일관성이 떨어지는 데이터일 수도 있습니다. 일단 많이 저장만 하면 된다고 생각하시는 분들이 있을 수 있는데요, 기업에게 데이터는 의사 결정의 기준이 되기 때문에 정확하지 않은 정보로 인한 피해는 상상 이상일 수도 있습니다. 잘못된 데이터로 인해 잘못된 판단을 내리면 소중한 비즈니스 기회를 잃게 될 수도 있습니다.
  데이터 품질의 문제가 발생하는 중요한 이유 중 하나는 데이터 구조의 문제 때문입니다. 중복된 데이터를 정의하지 않고 데이터 구조 내에서 비즈니스에 대한 정의가 충분하지 않은 경우에 발생할 수 있습니다. 그렇다면 모델링을 하는 시점에서 어떤 기준을 가지고 데이터 품질에 대한 고민을 해볼 수 있을까요? 데이터 품질에 대한 평가는 크게 3가지 기준을 통해 살펴볼 수 있습니다.
  1) 중복 (Duplication)
    ◦ 데이터베이스 여러 곳에 같은 정보를 중복해서 저장하는 행위입니다.
  2) 비유연성 (Inflexibility)
    ◦ 환경이 바뀌었을 때 데이터가 사용 가능 여부입니다.
    ◦ 데이터 모델을 어떻게 설계했느냐에 따라 사소한 업무의 변화에도 데이터 모델의 유지 보수가 쉬울 수도 있고 어려울 수도 있습니다.
  3) 비일관성 (Inconsistency)
    ◦ 데이터의 중복이 없다고 해도 일관적이지 않은 데이터가 나타날 수 있습니다.
    ◦ 데이터 모델링을 할 때는 데이터와 데이터 간의 상호 연관 관계에 대한 명확한 정의를 해야 할 필요가 있습니다.

 

ㅇ 프로젝트 라이프 사이클에서 데이터모델링

- 프로젝트 라이프 사이클이란?
 : 프로젝트의 시작부터 완료에 이르기까지 거치는 일련의 단계를 의미합니다. 프로젝트 관리 방법론에는 크게 폭포수 모델(Waterfall)과 애자일 모델(Agile)이 있으며, 프로젝트의 범위가 명확할 때 폭포수 방법론(Waterfall)을 적용합니다.

프로젝트 라이프 사이클
(Waterfall 기반)
정보공학, 구조적 방법론 개발
분석 논리 및 개념 데이터 모델링 프로세스 모델링
설계 물리 데이터 모델링 AP 설계
개발 DB 구축, 변경, 관리 AP 개발
테스트 DB 튜닝 AP 테스트
전환/이행 DB 전환 AP 설치

3) 3층 스키마

ㅇ 데이터 독립성의 필요성

 : 데이터 모델링의 과정에서 신경 써야 하는 것 중 하나는 데이터의 일체적 구성입니다. 일체적 구성이라고 하는 것은 일관된 형태로 데이터를 수집하는 것입니다. 다른 말로 표현하자면 데이터의 독립적 구성이라고 할 수 있습니다.

(데이터 독립성의 반대말은 데이터 종속성)

 

데이터 독립성을 확보하게 되면 아래와 같은 기대 효과를 누릴 수 있습니다.

  • 각 View의 독립성을 유지하고 계층별 View에 영향을 주지 않고 변경이 가능합니다.
  • 단계별 Schema에 따라 데이터 정의어(DDL)와 데이터 조작어(DML)가 다르게 제공됩니다.

→ 응용 프로그램과 물리적 데이터베이스를 분리하자 !

 

ㅇ 3층 스키마의 정의

 : 데이터베이스를 보는 관점에 따라 데이터베이스를 기술하고 이들 간의 관계를 정의한 ANSI 표준입니다. 3단계 계층으로 분리하여 독립성을 확보해 각 계층을 뷰(View)라고도 합니다.

  * ANSI : 미국표준협회 (American National Standards Institute)

사용자, 설계자, 개발자가 데이터베이스를 보는 관점에 따라 데이터베이스를 기술하고 이들 간의 관계를 정의한 표준

 

항목 내용 비고
외부 스키마
(External Schema)
- View 단계 여러 개의 사용자 관점으로 구성합니다.
- 개별 사용자가 보는 DB 스키마입니다.
- 실제로 관심 있는 데이터베이스 부분을 설명하고 나머지는 감춥니다.
- 사용자 관점
- 접근하는 특성에 따른 스키마를 구성
개념 스키마
(Conceptual Schema)
- 데이터 베이스의 물리적인 저장 구조에 대한 부분은 숨기고, 데이터의 전체적인 구조와 관계에 대해 집중합니다.
- 모든 사용자 관점을 통합한 조직 전체의 DB를 기술합니다.
- 모든 응용 시스템들이나 사용자들이 필요로 하는 데이터를 통합한 조직 전체의 DB를 기술한 것입니다.
- DB에 저장되는 데이터와 그들간의 관계를 표현하는 스키마입니다.
- 설계자 관점, 통합 관점
- 통합 데이터베이스 구조
내부 스키마
(Internal Schema)
- 내부 단계, 내부 스키마로 구성합니다.
- DB가 물리적으로 저장된 형식입니다.
- 물리적 장치에서 데이터가 실제적으로 저장되는 완전히 구체적인 방법을 표현하는 스키마입니다.
- 개발자 관점
- 물리적 저장 구조

 

ㅇ 스키마의 독립성

독립성 설명 특징
논리적 독립성 - 개념 스키마가 변경되어도 외부 스키마에는 영향을 미치지 않도록 지원합니다.
- 논리적 구조가 변경되어도 응용 프로그램에 영향이 없습니다.
- 사용자 특성에 맞게 변경이 가능합니다.
- 통합 구조로 변경 가능합니다.
물리적 독립성 - 내부 스키마가 변경되어도 개념 스키마는 영향을 받지 않도록 지원합니다.
- 저장 장치의 구조 변경은 응용프로그램과 개념 스키마에 영향을 주지 않습니다.
- 물리적 구조의 영향 없이 개념 구조로 변경 가능합니다.
- 개념 구조의 영향 없이 물리적인 구조로 변경 가능합니다.

 

4) 데이터 모델링의 요소와 ERD

ㅇ 데이터 모델링의 개념

  - 엔터티 (Entity) - 업무가 관여하는 어떤 것(thing)

  • 사물이나 사건 등을 바라볼 때 전체를 지칭하는 용어입니다. 이 용어를 통해서 업무가 어떤 부분을 중심으로 벌어지고 초점이 맞춰져 있는지를 확인할 수 있습니다.
  • 예를 들어, 우리 모두는 개개인이 하나의 Entity라고 볼 수 있습니다. 사물, 사건이 어떤지에 따라 작은 차이는 있을 수 있습니다. → 눈에 보이는 개념이든 아니든 데이터 모델링에서 사용되는 하나의 대상, 객체

  - 속성 (Attribute) - 어떤 것이 갖는 성격

  • 어떤 것이 갖는 세부적인 성격을 의미합니다. Entity가 지닐 수 있는 여러 특징으로 볼 수 있습니다.
  • 예를 들어, 여러분 각자가 같은 어떤 특징입니다. 키, 몸무게, 성격, 취미 등 다양한 것이 속성에 해당합니다.

  - 관계 (Relationship) - 업무가 갖는 어떤 것 간의 관계

  • Entity와 Entity가 서로 간의 관계를 가질 수 있는데, 둘 사이에는 어떠한 연결 고리(연관성)가 존재합니다.
  • 예를 들어, 여러 분들 간의 관계가 친구 사이일 수도 있고 연인 사이일 수도 있습니다. 가족 관계, 직장 선후배 관계가 될 수도 있습니다.
  • 헬스장이라면 트레이너 엔티티, 고객 엔티티는 어떠한 관계를 맺고 있을까요? 한 명의 트레이너가 여러 명의 고객을 응대하는 관계, 즉 1:N 관계를 맺고 있을 거예요.

ㅇ ERD란?

 : Entity Relationship Diagram의 약자로 데이터들의 관계를 나타낸 도표입니다. 1976년 피터첸(Peter Chen)이 Entity Relationship Model 표기법을 만들어 ERD데이터 모델링의 표준으로 사용되고 있습니다.

 

ㅇ ERD 작성법

  1. 엔터티를 정의하고 그린다.
  2. 엔터티를 적절하게 배치한다.
    • 가장 중요한 엔터티를 좌측 상단에 배치하고 이것을 중심으로 다른 엔터티들을 나열한다. (왼쪽에서 오른쪽, 위쪽에서 아래쪽으로)
  3. 엔터티 간의 관계를 설정한다.
  4. 관계명을 서술한다.
  5. 관계의 참여도를 기술한다.
    • 특정 엔터티와 다른 엔터티 간의 관계수를 의미해요.
  6. 관계의 필수 여부를 기술한다.

ㅇ 데이터 모델 표기법

 - 대표적인 데이터 모델 표기법은 IE/Crow’s Foot 표기법과 Barker/Case*Method 표기법이 있습니다. 

 

ㅇ 좋은 데이터 모델의 요소
 : 좋은 데이터 모델의 절대 기준은 존재하지 않습니다. 기본적으로 데이터 모델은 상황 맥락에 영향을 받기 때문에 현시점의 최선이 시간이 흐르면 최악 모델이 될 수도 있습니다. 그럼에도 전반적인 상황에서 좋은 데이터 모델로 평가할 수 있는 몇 가지 요소를 살펴보면 다음과 같습니다.

 

- 완전성(Completeness)

  • 업무에서 필요로 하는 모든 데이터가 모델에 정의되어 있어야 합니다.
  • 예를 들면, 학교 데이터 모델은 학생과 선생님에 대한 정보가 포함되어 있어야 하며 보험사의 데이터 모델은 고객에 대한 정보가 포함되어 있어야 합니다.

- 중복 제재(Non-Redundancy)

  • 하나의 데이터베이스 내에 동일한 사실은 한 번만 기록해야 합니다.
  • 예를 들어, 하나의 테이블에서 '나이'라는 칼럼과 '생년월일'이라는 칼럼이 동시에 존재하면 이는 중복 제재 원칙을 위반했다고 볼 수 있습니다.

- 업무 규칙(Business Rules)

  • 데이터 모델에서 매우 중요한 요소 중 하나는 데이터 모델링 과정에서 도출되고 규명되는 수많은 업무규칙(Business Rules)을 데이터 모델에 표현하고 이를 해당 데이터 모델을 활용하는 모든 사용자가 공유할 수 있도록 제공하는 것입니다. 특히, 데이터 아키텍처에서 언급되는 논리 데이터 모델(Logical Data Model)에서 이러한 요소들이 포함되어야 합니다.
  • 예를 들면, 보험사의 사원들은 매월 여러 가지 항목에 대해서 급여를 지급받고 있고 이를 데이터로 관리하고 있습니다. 각 사원들은 월별로 하나 이상의 급여 항목(기본급, 상여금, 수당, 수수료, 등등)에 대해서 급여를 지급받고 있습니다. 나아가 각 사원은 사원 구분별(내근, 설계사, 계약직, 대리점 등)로 위의 급여 항목을 차등적으로 지급받는다는 업무규칙에 따라 돈을 받습니다. 이러한 내용은 데이터 모델에 나타나야 합니다. 이렇게 함으로써 해당 데이터 모델을 사용하는 모든 사용자(개발자, 관리자 등)가 해당 규칙에 대해서 동일한 판단을 하고 데이터를 조작할 수 있게 됩니다.

- 데이터 재사용(Data Reusability)

  • 데이터는 언제든 다시 사용할 수 있는 형태로 가공되고 보관되어야 합니다.

- 의사소통(Communication)

  • 데이터 모델은 의사소통 도구로서의 역할을 해야 합니다.

- 통합성(Integration)

  • 동일한 데이터 구조는 데이터를 구성하는 조직 전체에서 한 번만 정의되어야 합니다.
  • 바람직한 데이터 구조의 형태는 동일한 데이터일 경우 조직의 전체에서 한 번만 정의되고 이를 여러 다른 영역에서 참조, 활용하는 것입니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Comments