도서 정보

재미와 감동을 전하는 작은 책방을 마련했습니다.
한 바퀴 찬찬히 둘러보시면 아마도 내일 또 오고 싶으실 거에요.

대변동
NEW

더 나은 의사결정을 위한 통찰의 도구

데이터 과학

저자 존 켈러허, 브렌던 티어니
역자 권오성
브랜드 김영사
발행일 2019.10.02
정가 14,800원
ISBN 978-89-349-9917-1 04400
판형 142X205 mm
면수 272 쪽
도서상태 판매중
종이책
  • 등록된정보가 없습니다.
전자책

한 권으로 개념 잡는 데이터 사이언스

 

<p class="style='text-align:justify;text-justify:inter-ideograph;" line-height:160%;layout-grid-mode:char'="">윤리적 우려에도 불구하고, 데이터 과학이라는 요정은 이미 램프 밖으로 나왔다. 데이터 과학은 우리 삶에 이미 많은 영향을 미치고 있으며 앞으로도 그럴 것이다. 적합하게 쓰이면, 이 기술은 우리 삶을 향상시킬 잠재력이 있다. 우리가 일하고 있는 조직이, 살고 있는 공동체가, 인생을 함께하는 가족이 데이터 과학의 혜택을 보길 원한다면, 데이터 과학이 무엇이고 어떻게 작동하는지, 그리고 무엇을 할 수 있고 할 수 없는지 이해하고 탐구해볼 필요가 있다. 이 책이 그 여정을 시작하기 위한 핵심 토대가 되기를 바란다. _237~238

  • 존 켈러허 (저자)

더블린공과대학교 컴퓨터과학부 교수이자 부속기관인 정보통신 및 엔터테인먼트 연구소 소장. 인공지능, 기계학습 분야에서 세계적으로 인정받는 전문가다. 더블린시립대학교, 유럽미디어연구소, 독일인공지능연구센터 등 여러 대학과 연구소에서 일했다. 지은 책으로 《딥러닝》 《데이터 예측을 위한 머신 러닝》(공저)이 있다.

  • 브렌던 티어니 (저자)

더블린공과대학교 컴퓨터과학부 강사로, 데이터 과학, 데이터베이스, 빅데이터에 관해 강의한다. 오라클의 에이스 디렉터이자 디벨로퍼 챔피온 프로그램의 멤버이기도 하다. 데이터 과학 분야에서 25년 이상의 경력을 지닌 전문가로 세계 여러 나라의 프로젝트를 수행했다. 3권의 오라클 기술 교재를 집필했다.

  • 권오성 (역자)

<p class="style='text-align:justify;text-justify:inter-ideograph;" line-height:160%;layout-grid-mode:char'="">한겨레신문사 데이터분석센터 준비팀장. 2007년 입사하여 사회부, 국제부, 온라인영상팀, IT 등의 영역을 두루 거쳤다. 과학 분야를 맡던 중 뉴욕 시러큐스대학교로 연수를 떠나 컴퓨터 기술과 저널리즘의 융합 전공인 컴퓨테이셔널 저널리즘 석사 과정을 마쳤다. 미디어의 미래, 인공지능이 사회에 가져올 영향 등에 관심이 많다. 지은 책으로 《미래와 과학》(공저)이 있다.

<p class="style='text-align:justify;text-justify:inter-ideograph;" line-height:160%;layout-grid-mode:char'=""> 

들어가는 말

3장 데이터 과학 생태계

6장 프라이버시와 윤리

용어설명

참고문헌

<p class="style='text-align:justify;text-justify:inter-ideograph;" line-height:160%;layout-grid-mode:char'="">찾아보기

핵심 개념부터 활용법과 성공 원칙, 윤리적 문제까지

 

 

 

☞자동화된 데이터 과학 프로세스에 데이터를 맡기기만 하면 모든 문제에 답을 준다?

어떤 데이터 세트를 선택하는지가 그 이후의 분석에 가져오는 편향을 표본 편향이라고 한다. 표본 편향은 데이터 과학자가 피해야 하는 편향이다. 데이터 세트가 대상 집단을 잘 대표하지 못한다면 알고리즘이 만들어내는 모델이 정확할 리 없기 때문이다. 한편 학습 편향이라는 것도 있는데, 기계학습의 여러 분석 알고리즘이 저마다 가지고 있는, '대상을 일반화하는 독특한 방식이나 한계'를 뜻한다. 예를 들어 선형회귀 알고리즘은 데이터를 선형으로 일반화, 추상화하기 때문에 비선형 관계로 나타내는 것이 더 적절하다 해도 그런 가능성을 무시한다. 다시 말하면 편향 없이는 학습도 일어날 수 없으며 모든 상황에 다 맞는 최고의 알고리즘 따위는 없다는 뜻이다. 중요한 것은 어떤 알고리즘을 쓰는 것이 좋을지에 대한 인간의 판단이다.

☞데이터 과학은 숫자에 바탕을 두고 있기 때문에 인간의 편견이 결정에 영향을 미치지 않으니 객관적이다?

일상과 업무에 깊숙이 관여하고 있는 데이터 과학

이 책의 목적은 데이터 과학에서 핵심적인 요소들의 기초를 깊이 들여다봄으로써 독자가 원칙에 기초하여 데이터 과학을 이해하도록 하는 데 있다. 각 장에서 다루는 내용을 살펴보면 다음과 같다.

2 <데이터와 데이터 세트란 무엇인가?>은 데이터, 데이터 세트, 데이터베이스 등 데이터 과학에서 근본적인 개념들을 소개한다. 또 비즈니스에 대한 이해, 데이터에 대한 이해, 데이터 준비, 모델링, 검토, 적용 등 데이터 과학 프로젝트의 전형적인 단계를 설명한다. 보통 모델링 단계에 가장 많은 시간이 소요될 것 같지만 실제로는 전체 프로젝트에 투여되는 시간의 약 80퍼센트가 데이터 준비에 들어간다.

5 <표준적인 데이터 과학 업무>는 사업 중 발생하는 여러 기본적인 문제들과 기계학습으로 이를 어떻게 해결하는지에 대한 설명을 통해 기계학습의 전문 분야와 실제 세계 문제들의 연결에 초점을 맞춘다. 대부분의 데이터 과학 프로젝트는 군집화, 이상 탐지, 연관 규칙 마이닝, 예측, 네 부류 중 하나에 속한다.

 

무엇이든 새로운 것을 접할 때는 시작이 어렵다. 시작부터 너무 자세한 부분까지 깊숙이 들어가면 벗어나고 싶은 생각이 커지기 마련이다. 그렇다고 너무 얕으면 하나마나하다는 생각이 든다. 이 책은 깊이에서도 적절한 균형을 잡고 있다. 데이터 과학 전반에 대한 소개뿐 아니라 선형회귀나 신경망, 의사결정 나무 등 기계학습의 주요 알고리즘과 개념 등에 대해 설명하는 대목에선 수학적인 내용까지 다루고 있지만 고등학교 수학 과정을 공부한 사람이면 이해할 수 있을 정도로 적절한 선을 유지했다. 이런 학문적 개념까지 다루고 있기 때문에 단지 “기계학습이 이런 놀라운 일을 할 수 있다”나 “빅데이터 분석이 사회를 이렇게 바꾸고 있다” 정도만 다루는 책들과 분명한 차별점을 지닌다.