본문 바로가기
[Pack's Story]/[취업] 데이터 분석가를 위하여

[Book Choice] - '데이터 문해력'

by icepack788 2024. 10. 18.

# 책 - '빅데이터 시대, 성과를 이끌어내는 데이터 문해력' (카시와기 요시키) review

오늘 Choice 한 책은 데이터 공부를 처음 시작한다면 많이들 추천하는 책들 중에 하나인 '데이터 문해력'.
기초 통계책들과 함께 많은 추천을 받은 책. 데이터리안에서도, 커뮤니티에서도 강추하는 책이고 서점에서도 꽤나 잘 팔리는 책이였다. 책도 얇고 금방 읽겠지~ 싶었고 쉽게쉽게 읽히는 책이기도 하다. 이 책의 중요성은 '데이터'를 활용해서 일 하는 누구에게나 중요하다고 할 수 있겠다. 처음 읽었을때와 2번째 읽었을 때가 또 다르며, 데이터 관련 공부를 하고 프로젝트를 끝내고 나서 보면 또 다르게 느껴진다. 내가 부족했던 부분이 무엇이였는지 매번 새롭게 깨닫게 해주었다. 단순 분석과 시각화는 이제 AI가 훨씬 잘하는 시대가 점점 다가오고 있다. 그런 시대에 문제를 잘 설계하고, 그것을 어떻게 활용해서 결론을 도출할 것인지에 대한 아주 기초적인 부분을 다루고 있는 책이다.


# 주요 내용

📌 ‘데이터 문해력’ = 데이터를 읽고 해석해서 (어떤 목적으로 어떻게 활용할지 아는) 활용하는 능력

  • 데이터 문해력은 데이터에 대해 이해하고 해석하며 이를 효과적으로 활용할 수 있는 능력을 말함. 단순히 숫자나 그래프를 읽는 것을 넘어서, 데이터를 분석하고 그 의미를 파악하며, 이를 바탕으로 의사결정을 내리는 능력을 포함
    (챗gpt 답변)

1. 앞으로 필요한 건 데이터 문해력 : 분석보다 활용, 기계가 압도적으로 잘하는 일이 훨씬 많은 세상

  • 데이터를 먼저 보지마라(데이터 안에 답은 없다) : 목적 사고력의 필요성(=이것이 데이터 문해력)데이터 작업 전에 무슨 말을 하고 싶은지(무엇이 알고 싶은지)를 생각해보고 이에 필요한 데이터를 활용해 작업을 진행하는 접근 방식.
  • ‘당신이 무엇을 알고 싶은지, 이를 알게 되면 무엇을 하고 싶은지, 이를 위해서는 어떤 데이터(지표)가 필요한지’를 구체적으로 생각하는게 매우 중요. → 챗GPT가 나와서 이런 근간을 뒤집어 놓았지만, 아직도 파일 크기 제한, 정확한 지시 및 명령이 없이는 엉뚱한 결과를 가져옴(요새는 엄청 잘 가져오기는 함 ㄷㄷ) 분석과 시각화는 기가막히게 해주지만. 정확하고 명확한 목적과 방향을 지정해주어야 좋은 결과를 가져오기 때문에, 사전에 앞서서 어떤 목적을 가지고 이 데이터를 활용할지가 중요.
  • 데이터가 여러분에게 직접적인 답을 주는 경우는 없음. 설령 아무리 고난도의 통계와 분석 방법을 구사하더라도. 우연히 찾은 '그' 데이터가, 정말로 실제 일어나고 있는 현상을 제대로 포착했다고 할 수 있을까? 아마 분석을 수행한 당사자도 무언가 잘못되어 있다는 것에 동의할 것임. 어디까지나 ‘하고 싶은 말’과 ‘해결하고 싶은 것’이 있기 때문에 이러한 목적에 대한 인프라나 도구로서 데이터를 활용하는 것. 인프라와 도구가 단독으로 일을 성사시킬 수는 없음.
  • 레벨 1 : 기존 그래프와 표를 모아보고 거기서 무엇을 알 수 있는지 생각
    레벨 2 : 기존 데이터에 어떤 패턴이 있는지 읽어내려고 함
    레벨 3 : 목적(알고 싶은 것)을 명확히 하고, 이를 검증하기 위한 데이터와 방법론을 구축

2. 올바른 데이터로 올바른 문제를 풀고 있는가?(목적 사고)

1) 풀고자 하는 문제가 명확하지 않다(Are you solving the right problem?)

  • 이제 세상은 복잡미묘해져서, 절대적인 정답이 존재하지 않음. 무엇을 자신의 생각을 무엇으로 논리적이고 객관적으로 상대방에게 전달 할 수 있을까? → 자신이 알고 있거나 생각해낸 것뿐만 아니라, 광범위하고 객관적인 주장을 합리적으로 전달할 수 있는 효과적인 도구(무기)가 데이터.
  • 1) 사용된 언어가 구체적이고 명확한가?
    무엇이 문제이며 구체적으로 어디 사는 누가 어떤 식으로 곤란에 처해 ‘문제’가 발생한 것인지, 이 점을 명확하게 해야함.
    → 이런 생각 없이 발견한 사소함은 논리성도 객관성도 없음.
    → 문제를 정의하는 방법에 따라서 활용하게 될 데이터가 달라지기 때문!!
  • 2) ‘문제’, ‘원인’, ‘해결방법’을 구분하고 있는가?
    ’문제’가 무엇인가. 그 문제를 일으키는 ‘원인’이 무엇인가. 그 원인에 대한 ‘해결 방안’은 무엇인가.
    문제에 원인 혹은 해결방법이 함께 들어가 있는 경우가 많음.
    명확히 구분이 되어져야함 ex) ‘사무직 제안이 많은 회사라는 이미지 때문에(A), 제조업종 관련 인재풀 확보가 어렵다(B)’ → B가 문제. A가 원인. 문제에 원인이 중복되어 있음. → 문제도 조금 더 명확하게
    ex) 제조 관련 채용 공고를 많이 올리고 있는데, 수요가 없어서 기회 손실이 막대하다.
  • 구체적인 데이터를 이용해서 상대방에게 자신의 생각을 전달한다. 말과 표현의 구체성은 매우 중요.

2) 정의한 문제와 사용하는 데이터가 일치하지 않는다(Are you using the right data?)

  • 짐작이나 추측이 아니라, 논리적인 설명을 통해 이용할 지표를 결쟁해야함. 지표를 무조건 하나만 정해야 하는 것은 아님. 오늘 처음 만난 외부인이나, 제 3자에게 데이터를 보여주면서 ‘제 고민은 이것입니다.’, ‘이것이 문제입니다.’, ‘이것을 이해해주시면 좋겠습니다.’라고 말할 때, 어떤 데이터를 활용하겠는가? → 이에 대해서만 생각하면 됨.
  • 목적이나 배경을 공유하고 있지 않은 사람이나 한 번에 전부 복잡하게 이것저것 설명해서 이해하기 힘들어하는 사람에게 어떻게 ‘목적’과 ‘문제’를 전달할 수 있을까. 상대방의 입장에서 생각해봐야함.
  • 목적 및 문제(무슨 말을 하고 싶은가, 말해야 하는가) → 둘 이상의 해석이 나오지 않도록, 구체적으로 표현하고 정의하였는가? → 적합한가? → 데이터 및 지표 (목적과 문제를 명확히 정의하고 올바른 데이터(지표)를 활용하는가?)

3. ‘이것이 문제다’ 데이터로 말하는 방법(현상 파악 및 평가력)

1) 결과와 평가는 다르다

  • 성과 및 사실, 결과를 확인 할 것
  • 그 결과에 대해 평가를 진행할 것
  • 우선순위를 정하려면 선택지를 어떤 척도와 기준으로 ‘평가’를 할지가 관건. 사실과 결과의 데이터를 그래프나 표, 지표 등으로 표시하는 것과, 내용을 평가해서 구체적인 행동과 판단으로 연결하는 것. → 이 둘을 구분한 후, 후자에 필요한 평가를 준비하는 것이 바로 데이터 활용.

2) 비교할때는 관점이 중요하다

  • ‘평가’를 하기 위해 필요한 것은 바로 비교. 비교 대상이 있어야 비로소 값에 대한 평가가 가능.
  • 평가를 객관적으로 만드는 것은 바로 ‘다른 것과의 비교’
  • 목적 중심의 사고를 생략하게 되면 결론과 데이터 사이에 논리적인 괴리가 생김.
  • 체크포인트 : 비교를 통해 차이를 찾을 수 있는가, 결론으로 이어지는 결과가 나올 것인가.
  • 목적 중심으로 접근하는 사람은 결과가 아닌 결론까지 말함.

3) 비교의 기술

  • 연간 추이와 변화에 주목해본다, 편차를 고려해본다(표준편차 등). → 값의 크기, 추이, 등락 폭, 비율 등등 평가 기준을 이용해 데이터의 특징을 포착.
  • ‘이 사례에서는 어떤 평가가 중요할까? 어떤 설명이나 결론이 가능할까?’라는 관점에서 생각하고 필요한 기준을 선정해 활용. 무엇이 정답일까하는 생각은 버리고, 복수의 기준을 사용할 수도 있고, 조합해서 결론을 내릴 수도 있음.

4. 결과가 나왔다고 끝난 것은 아니다 (원인 파악력)

1) 최종 목표는 ‘행동과 판단’

  • 현황 파악 완료, 분석 및 비교를 통해 문제점도 도출 → 그 결과에 이르게 된 근거 및 원인도 제시되었는가 → 원인과 결과의 연결성에 주목하자! : 데이터를 통한 원인 분석에서 중요한것은 원인과 결과의 ‘연결성’

2) 데이터에서 원인을 찾는 사고방식과 방법

  • 대체로 ‘원인이 하나’인 경우는 매우 드물며, 일반적으로는 2개 이상의 원인을 고려해야 함

(1) 데이터 수집이 어려운 경우

  • 유사한 데이터에는 어떤 것이 있을지 생각해봄(없는 것보다는 나음)
  • 지금 바로 수집을 시작,정량적인 정보가 아닌 정성적인 정보로 대응, 포기함(해당 부분은 본인의 가정을 통해 보완)

(2) 문제와 원인, 그 관련성 유무를 확인하는 방법

  • 시각적으로 관련성을 확인 : ‘문제와 결과를 나타내는 지표’가 세로축, 가설로 수립한 ‘원인 후보 지표’를 가로축으로 하여 산포도를 작성 or 상관계수를 활용한 상관분석.
  • 수단에 너무 사로잡히지 말고, 의미 있는 결론으로 이어질 때까지 끈기있게 가로축과 세로축의 관련성을 찾아야할 것임. → 00과 00의 관계성을 통해(또는 파악해서) 어떤 결론을 내릴 수 있을까?
  • 모든 가능성을 염두에 두고 사고를 확장해 원인을 고려하는 것이 데이터 문해력의 기본
  • 상관분석은 인과관계가 있는 것이 아님. 어느 쪽이 결과이고 어느 쪽이 원인인지는 분석자의 해석.
    (상관관계는 두 가지 일이 함께 일어나는 것을 뜻하고, 인과관계는 한 가지 일이 다른 일을 일으키는 것을 뜻함.)

5. 기법에 집착하지 마라(전체 구성력)

1) 자꾸만 늘어가는 방법맨이란.

  • 데이터를 활용하려면 본질적으로 논리적인 사고가 중요
  • 논리적 사고 = 전체적인 스토리를 탄탄히 구성하고 결론의 설득력을 높이기 위한 사고력과 구성력.
  • 결과와 유효성에 차이가 생기는 ‘원인’ 파악 유무 : 해결 방안은 문제를 일으키고 있는 원인에 적용하는 것.
    ex) 불이 났는데 그 원인을 찾아 소화 활동을 하는게 아닌, 눈앞의 불에만 물을 붓는 것과 같음.
  • 정말 효과적인 해결 방법은 원인을 깊게 분석하고 폭넓게 고찰하여 여러 가능성을 생각하는 것!
  • 어째서 (다른 수단이 아니라) 그것이 필요한지? 그로 인해 어떤 것을 실현 또는 해결 가능한가? 그리고 효과적인 결과가 나올 것이라는 근거는 어디에 있는가? → 2가지를 바로 답하지 못하거나, 답했더라도 자신의 상상이나 주관이 들어가 논리적인 비약을 일으키면 X
  • 2가지 ‘생각한다’의 차이. 1) 전체적인 로직을 생각한다 2) 참신한 아이디어를 떠올린다
  • 가급적 ‘어째서’, ‘왜’를 반복해서 더욱 본질적인 원인까지 파고들어야 정확하고 밀도 있는 해결 방안을 도출 할 수 있음.

6. 결론은 이것이다. 정보를 요약하라(정보 집약력)

  • 결과 = 계산과 분석을 해서 나온 결과물. 결론 = 그 결과가 목적에 대해 어떤 의미가 있는 지 설명하는 것.
  • 결과와 결론에 이르는 과정은 본질적으로 같으나, 표현 방식이 다름. 그 작은 차이가 상대방에게 전달되는 방식이나 이해도에 큰 영향을 미침.
  • 데이터 문해력에서는 결과적으로 데이터를 분석해 획득한 정보를 목적에 맞게 활용하는 능력이 필수적. 하지만 무엇보다도 원래 설정한 목적, 무엇을 말하고 싶은지, 말해야 하는지, 상대방이 알고 싶어 하는 것은 무엇인지 명확히 아는 것이 중요.

7. 데이터로 문제를 해결할 수 있다는 착각(시야 확대력)

1) 데이터 안에는 답이 없다고 생각하라

  • 데이터에 의존하지 않고 스스로 목적과 문제를 정의해 필요한 데이터나 분석 범위를 얼마나 넓은 시야로 디자인 할 수 있는가가 중요.
  • 이것이 당신이 알고 싶어 하는 것인가요? 라고 데이터가 자동으로 제시해주는 것이 아님
    → 그런 시대로 가고 있는 상황. 아직도 AI에게 방향 및 목표를 먼저 수립해서 주어야 명확하게 분석해줌

2) 분석 범위와 이용해야할 데이터를 적절히 논리적으로 검토한 프로세스

  • 각 과제의 데이터를 다루기 전에, 넓은 안목으로 전체를 가정하는 것. 이 가정을 ‘가설’이라고 함.
  • 목적과 문제에 대하여 데이터를 다음 사항에 유의하여 생각하는 것을 가리킴 어떤 범위, 어느 시점의 정보(데이터)가 필요한가? 어떻게 처리, 가공해야 할 것인가?
  • 즉, 데이터 분석은 자신이 수립한 가설을 객관적, 논리적으로 검증하기 위한 것.
  • 이 문제는 어느 정도의 범위의 데이터가 필요한지, 이 데이터는 어떤 관점으로 바라봐야 하는지 이 두사항에 대해서 논리적이고 폭넓은 시야로 고찰해야함.

3) 시야를 넓히면 분석의 폭도 넓어진다

  • 마법 같은 정답은 없지만, 논리적 사고(로지컬 씽킹). 문제를 구조화하고, 정리하면서 생각하는 것을 말함.
  • 스스로 정답에 대해 고민하고, 이를 합리적으로 논할 수 있다. 기계가 할 수 없는 가치 생성의 기술이다.
  • 데이터 문해력이란 데이터에서 무언가 읽어내는 능력이 아니라, 스스로 정답에 대해 고민하고 데이터를 무기 삼아 합리적으로 논할 수 있는(설명할 수 있는) 능력.
  • 데이터는 어디까지나 도구에 불과한 어떠한 덩어리일 뿐. 그 도구는 논리적 사고라는 기반이 있어야 비로소 활용이 가능. 데이터와 분석이 각각 단독으로 존재하면 아무 일도 일어나지 않음. 정답을 찾으러가는 방법맨이 되지 말자.

8. 개인과 조직의 데이터 활용 능력을 높이는 방법(실행력)

  • 데이터를 사용하는 목적은 무엇인가? 데이터를 분석해서 실현하고 싶은 것이 무엇인가, 어떤 행동으로 이어지게 하고 싶은가? 앞으로 나아가는 조직은 그런 명확하고 구체적인 목표와 목적을 제시하고 현장에서 공유하고 있음.
  • 생각과 작업의 차이와 가치를 이해한다. 결과물을 적절하게 평가할 수 있는 사람이 있다
  • 데이터 분석이란 눈앞의 데이터로부터 어떤 패턴을 추출하는 것이 아니다.
  • 데이터를 통해 판독한 정보는 아무리 훌륭한 데이터 과학을 구사하더라도 시사점이라고 할 수 없다
  • 데이터 분석 방법과 데이터 분석을 활용하는 방법은 전혀 다른 개념이다
  • 목적이 애매하면 그것이 잘 풀릴지는 운에 의지하게 된다.
  • 분석도 데이터도 어디까지나 수단이고, 도구일 뿐, 답을 제시해주지 않는다.
  • 데이터 분석을 통해 성과를 낸다는 것은 나무로 가구를 만든다에 비유된다. 좋은 목재(데이터)가 있고 못을 박는 실력(분석 방법과 통계 지식)이 뛰어나더라도, 어떤 가구를 어떻게 만들지 자신이 모른다면 가구를 완성할 수 없다.

# 서평 & 느낀점 

" 내가 그의 이름을 불러주기 전까지는 그는 다만 하나의 몸짓에 지나지 않았다. 내가 그의 이름을 불러 주었을 때, 그는 나에게로 와서 꽃이 되었다. - <김춘수 - 꽃> "

책의 내용을 곰곰히 다시 한번 읽어보다가 유명한 시의 한 구절이 생각났다. 처음으로 데이터 분석가가 되고 싶었고, 관련 공부를 하는 초반에는 데이터 속에 답이 있을꺼야! 라고 생각하고 데이터를 만들기도하고, 구하고, 그 속에서만 생각했었다(물론 지금도 그러는 중이지만..) 하지만 데이터는 그저 도구이자 덩어리일 뿐이다. 내가 이름을 (문제 설정 및 가설)을 먼저 생각하고 불러주었을 때에 비로소 꽃(결론)이 되는 것이라 생각한다. 데이터라는 그저 도구일뿐인 그 덩어리를 내가 어떻게 생각하고, 어떻게 문제를 풀어나갈 수 있는지에 대한 논리적인 수단이라는걸 깨닫게 해준 책이였다. 너무 문과다운 비유였나....?? ㅎㅎ 데이터에 매몰되지 않고, 목적 중심적인 사고 방식을 통해서 잘 활용하는 사람이 되어야겠다는 생각을 하게 해준 책이다. 이제는 문과 직무인 영업, 마케팅 등에서도 데이터 관련 역량을 많이들 보고 가산점이 된다고 한다. 조금만 시간이 지나면 자격 요견에 아주 기본적인 역량이 될 것 같다. 꼭 데이터 분석가나 과학자들이 아니더라도 디지털 & AI 시대를 맞이한 지금 일반 시민들도 '시티즌 데이터 사이언티스트'들이 되어가고 있다. 그렇기에 데이터 문해력(리터러시) 능력은 모든 사람이 생존하기 위해서라면 가장 필요한 능력이 아닐까? 생각이 든다. 그런 의미에서 정말 추천하는 책이다!! 

반응형

댓글