한 권으로 개념 잡는 데이터 사이언스
<p class="style='text-align:justify;text-justify:inter-ideograph;" line-height:160%;layout-grid-mode:char'="">윤리적 우려에도 불구하고, 데이터 과학이라는 요정은 이미 램프 밖으로 나왔다. 데이터 과학은 우리 삶에 이미 많은 영향을 미치고 있으며 앞으로도 그럴 것이다. 적합하게 쓰이면, 이 기술은 우리 삶을 향상시킬 잠재력이 있다. 우리가 일하고 있는 조직이, 살고 있는 공동체가, 인생을 함께하는 가족이 데이터 과학의 혜택을 보길 원한다면, 데이터 과학이 무엇이고 어떻게 작동하는지, 그리고 무엇을 할 수 있고 할 수 없는지 이해하고 탐구해볼 필요가 있다. 이 책이 그 여정을 시작하기 위한 핵심 토대가 되기를 바란다. _237~238쪽
핵심 개념부터 활용법과 성공 원칙, 윤리적 문제까지
☞자동화된 데이터 과학 프로세스에 데이터를 맡기기만 하면 모든 문제에 답을 준다?
어떤 데이터 세트를 선택하는지가 그 이후의 분석에 가져오는 편향을 표본 편향이라고 한다. 표본 편향은 데이터 과학자가 피해야 하는 편향이다. 데이터 세트가 대상 집단을 잘 대표하지 못한다면 알고리즘이 만들어내는 모델이 정확할 리 없기 때문이다. 한편 학습 편향이라는 것도 있는데, 기계학습의 여러 분석 알고리즘이 저마다 가지고 있는, '대상을 일반화하는 독특한 방식이나 한계'를 뜻한다. 예를 들어 선형회귀 알고리즘은 데이터를 선형으로 일반화, 추상화하기 때문에 비선형 관계로 나타내는 것이 더 적절하다 해도 그런 가능성을 무시한다. 다시 말하면 편향 없이는 학습도 일어날 수 없으며 모든 상황에 다 맞는 최고의 알고리즘 따위는 없다는 뜻이다. 중요한 것은 어떤 알고리즘을 쓰는 것이 좋을지에 대한 인간의 판단이다.
☞데이터 과학은 숫자에 바탕을 두고 있기 때문에 인간의 편견이 결정에 영향을 미치지 않으니 객관적이다?
일상과 업무에 깊숙이 관여하고 있는 데이터 과학
이 책의 목적은 데이터 과학에서 핵심적인 요소들의 기초를 깊이 들여다봄으로써 독자가 원칙에 기초하여 데이터 과학을 이해하도록 하는 데 있다. 각 장에서 다루는 내용을 살펴보면 다음과 같다.
2장 <데이터와 데이터 세트란 무엇인가?>은 데이터, 데이터 세트, 데이터베이스 등 데이터 과학에서 근본적인 개념들을 소개한다. 또 비즈니스에 대한 이해, 데이터에 대한 이해, 데이터 준비, 모델링, 검토, 적용 등 데이터 과학 프로젝트의 전형적인 단계를 설명한다. 보통 모델링 단계에 가장 많은 시간이 소요될 것 같지만 실제로는 전체 프로젝트에 투여되는 시간의 약 80퍼센트가 데이터 준비에 들어간다.
5장 <표준적인 데이터 과학 업무>는 사업 중 발생하는 여러 기본적인 문제들과 기계학습으로 이를 어떻게 해결하는지에 대한 설명을 통해 기계학습의 전문 분야와 실제 세계 문제들의 연결에 초점을 맞춘다. 대부분의 데이터 과학 프로젝트는 군집화, 이상 탐지, 연관 규칙 마이닝, 예측, 네 부류 중 하나에 속한다.
무엇이든 새로운 것을 접할 때는 시작이 어렵다. 시작부터 너무 자세한 부분까지 깊숙이 들어가면 벗어나고 싶은 생각이 커지기 마련이다. 그렇다고 너무 얕으면 하나마나하다는 생각이 든다. 이 책은 깊이에서도 적절한 균형을 잡고 있다. 데이터 과학 전반에 대한 소개뿐 아니라 선형회귀나 신경망, 의사결정 나무 등 기계학습의 주요 알고리즘과 개념 등에 대해 설명하는 대목에선 수학적인 내용까지 다루고 있지만 고등학교 수학 과정을 공부한 사람이면 이해할 수 있을 정도로 적절한 선을 유지했다. 이런 학문적 개념까지 다루고 있기 때문에 단지 “기계학습이 이런 놀라운 일을 할 수 있다”나 “빅데이터 분석이 사회를 이렇게 바꾸고 있다” 정도만 다루는 책들과 분명한 차별점을 지닌다.