본문 바로가기

4차산업/빅데이터

[Google] Making Sense of Data ____ Unit 2. Answering Basic Questions with Fusion Table

참고: 모든 그림과 글의 출처는 https://datasense.withgoogle.com 의 Making sense of data 온라인 강좌 입니다.


Overview


데이터 분석을 위해 구글이 제공하는 퓨전테이블을 이용하여 공식, 필터, 차트, 요약을 수행하는 방법을 학습합니다.

공식은 계산된 새로운 데이터를 생성할 수 있으며, 챠트는 값들사이의 관계를 쉽게 보여줄수 있으며, 요약은 데이터에 대한 합계, 평균, 횟수 도출 작업을 할 수 있게 합니다.





분석을 위한 퓨전테이블 활용



(1/6) 학습 목표 


이 단원에서는 구글 퓨전 테이블의 기능을 통해 데이터를 분석 할 수있는 방법에 대한 간략한 개요를 제공한다. 이 과정을 완료 한 후, 퓨전 테이블을 이용한 분석 작업을 수행할 수 있다.







(2/6) 표 형식의 데이터 


다음은 퓨전 테이블에서 설정 한 가상의 학군 데이터의 스크린 샷이다.


screenshot of Fusion Table highlighting the title, columns, and data table.


왼쪽 상단에 이 테이블의 제목인 "Fictitious School District"을 볼 수 있다.

아래의 데이터 테이블은 8 개의 열(columns)을 - 학교, 주소, 리모델링날자, 학생 / 교사, 졸업 %, 리모델링계절, 학생수, 교사수 -을 포함하고 있다.

데이터 테이블의 각 row는  고등학교 하나를 포함하고, 각각의 레코드는 8개의 값으로 구성되어 있다.





(3/6) 수식 열 


변수를 계산하면 기존 데이터에서 계산 된 새로운 데이터를 요구하는 질문에 대답 할 수 있다. 퓨전 테이블은 다음과 같은 다양한 수식을 지원한다.

  • basic operations:  + - * /
  • functions:  cos() sin() power(base, exponent)
  • logic:  if (condition, then, else)


위 테이블에서 보면 student/teacher 컬럼은 teacher 열과 student열을 기준으로 만들어진 계산식에 의해 생성된 컬럼이다.





(4/6) 차트 


차트는 통찰력 제공과 패턴을 보여주기 위한 데이터 시각화를 지원한다.

보여지는 예제는 학교별 졸업률을  바챠트로 보여준다.

Chart of graduation percentage per high school.

챠트를 통해 졸업율을 여러 학교를 비교하여 볼 수 있다.

퓨전 테이블은 scatter plots(산점도), 파이 차트 및 관계를 식별하는 데 도움이 될 수 있는 많은 다른 종류의 시각화도 지원한다.




(5/6) summaries(요약) 


큰 테이블은  패턴을 보기 어렵다.  그래서 데이터 요약을 통해  원본 테이블의 컬럼의  부분 집합으로 새로 생성된  테이블을 생성한다.

퓨전 테이블은 데이터를 요약하는 유연한 방법들을 제공한다.


예를 들어, 다음의 요약은 가을과 겨울에 리모델링하는 학교의 학생들과 교사의 평균 수를 표시한다. 

Screenshot of summary table using Season of Remodel to categorize.





(6/6) 필터(Filters)

요약은 큰 테이블의 패턴을 나타내기 위한 단순화의 한 방법이다. 다른 방법으로 행에 대한 서브셋을 만들기위해서는 필터를 사용할 수 있다. 퓨전테이블은 숫자와 텍스트 모두에 대해 필터링 방법을 제공하고 있다. 

예를 들어, 다음 필터는 지난 가을에 리모델링된 그 학교만 필터링 해서 보여준다.

Screenshot of table filtered for schools remodeled in the fall.





수식열이 있는 테이블 확장



(1/3) 학습 목표


분석가는 수집된 데이터에 계산된값을 추가하는 작업이 필요한 경우가 있다. 이런 경우 퓨전테이블의 수식 열(formula column)을 사용할 수 있다.

이 과정을 완료하면,  

계산된 변수를 추가 할 수 있다.

분석을 위해 계산된 변수를 사용할 수 있다.






(2/3) 왜 "공식"을?


종종 문제는 테이블의 일부 데이터를 조작하는 방식이 요구한다. 예를 들어, 새로운 교사를 배치하기 위한 결정을 내릴때 학생에 대한 교사의 비율을 확인할 필요가 있다. 

이런 경우 학생수/교사수 와 같이 두개 컬럼의 값을 계산하여 사용할 수 있다.


퓨전테이블의 fomula(공식)는 다음과 같은 질문에 답할 수 있도록 해준다.

- 각 학교에서 학생에 대한 교사의 비율 

- 각 개인이 납부해야 할 세금은? (세율 * 수입)

- 학생의 누적 학점은? ( 여러과제에 대한 평균점)

- 상품별 순이익은?(판매가격-비용)




(3/3) 변수 계산.


데이터를 복사하여 새로운 테이블을 만들고, 복사된 테이블을 이용하여 선생님당 학생의 비율을 계산하는 작업을 수행해 본다.



 > 공식 컬럼 생성

메뉴의 Edit를 선택한뒤, Add Formula column 을 선택한다.

Click edit and add formula column.

Name 필드에 Computed Student/Teacher 를 입력한다.

Formula 필드에 Students/Teachers 를 입력한뒤, [Save]를 클릭한다.

Set the name and formula, then click save.
결과를 확인한다. Student/Teacher 컬럼의 값과 Computed Student/Teacher 컬럼의 값이 같은지 결과를 확인한다.Make sure the computed column is the same as the student/teacher column.




차트와 패턴을 시각화




(1/6) 학습목표


차트는 데이터를 시각화하는 일반적인 방법으로 변수 사이의 관계를 쉽게 파악할 수 있게 한다.

이 과정을 통해

    퓨전테이블을 이용하여 차트를 생성하고 변경할 수 있다.

    데이터간의 관계와 데이터간의 차이, 최대, 최소값을 찾을 수 있는 가장 적합한

    차트를 선택할 수 있다.

    데이터 분석을 위해 차트를 이용할 수 있다.






(2/6) 어떤 차트를 사용해야 할까?


어떤 차트를 사용해야 하는지는 어떤 질문을 가지고 있는가에 따라 선택할 수 있다.  퓨전테이블은 여러 종류의 차트를 생성할 수 있다.  이단원에서는 범주와 연속 변수 차트를 중점적으로 알아 보자.


> Categorical(범주)변수 차트

   x축을 카테고리 값으로 설정하여, y축의 값이 가장 높은 값이나 가장 낮은 값을 비교하는 경우, 즉 값들간의 상대적인 차이를 찾을 때 적절하다. 일반적으로 바(Bar)차트이다. 

graduation percentage


> Continuous(연속)변수 차트

   x축을 연속적인 수로 설정하여, x축을 구성하는 변수들 간의 수학적인 관계,감소율,증가율, 동일, 비선형 등의 변경을 찾아내기 적절하다. scatter plot 차트가 해당되며, 점들간의 패턴을 살펴본다.

 

scatter plot





(3/6) 연속변수의 시각화


학교지구에 대한 데이터에서 리모델링과 학생/선생비 관계를 탐구한다.


> 차트생성


1. 마지막 탭의 오른쪽 위에 있는 빨간색 [+]버튼을 클릭한다.

2. 서브메뉴에서 "Add chart"를 클릭한다.

click on the red plus to add a chart

수평축의 값을 "Remodel"을 선택한다.

수직축의 값은 "Student/Teacher"앞의 체크박스를 클릭하여 그래프를 그린다.

Remodel is the horizontal axis, Student/Teacher is the vertical axis.



scatter plot의 결과를 볼때, 선형이나 곡선관계가 두개 값의 관계를 보여주지 않는다. 그러므로 좀더 도움이 줄 수 있는 변수로 변경하여 새로운 차트를 생성해본다.





(4/6) 차트 수정


> 차트 수정

성능변수인 졸업률을 평가할때, 선생님의 수와 졸업 두개 요소의 관계를 알고 싶을 수 있다. 이런 경우 퓨전테이블의 x축을 선생님수로 y축을 졸업률로 배치하여 차트를 수정 작성할 수 있다.

x축을 Teachers로 변경하고, 축을 졸업율로 변경한뒤 오른쪽위의 [Done]버튼을 클릭한다.

Changing the variables on the vertical and horizontal axes.





(5/6) 범주형 변수의 시각화


"졸업율이 학교에 따라 다른가?" 라는 질문에 답을 하기 위해서는 학교별 졸업율 바(Bar)차트를 작성하는것이 적절하다.


> 차트 타입 변경

왼쪽 네비게이션에서 다른 타입의 차트를 보기원하는가?

yes이면 3으로 skip, no이면 1부터 진행

 

[Chart1]탭을 클릭하여 [Change chart...] 메뉴를 클릭한다.

Changing the chart type.

[Bar chart] 아이콘을 선택하면, 퓨전테이블은 자동적으로 수평축의 값이 학교로 변경된다. 이유는 학교가 텍스트타입중 첫번째 컬럼이기 때문이다.

drop-down 메뉴의 Sort를 사용하여 수평축에 대해 정렬한뒤, [Done]을 클릭한다.

Selecting the bar chart type.






(6/6) 차트 분석

학교별로 가장 졸업률이 높은 학교와 낮은 학교를 쉽게 찾을 수 있다.

Comparing graduation percentages of HS3 and HS5.

H1과 H2의 차이와 H3와 H4 차이를 쉽게 비교 분석 할 수 있다.

H1 and H2 are nearly the same, H3 is much taller than H4.

 학생 수와 졸업 비율 사이의 관계가 있는가?  차트를 보면, 학생 및 졸업 % 사이에 명확한 관계가 없다.

Scatter plot comparing number of students and graduation percentage.

학생 / 교사 비율과 졸업 비율 사이의 관계가 있는가?  아래쪽으로 경사진 패턴을 보이고 있다. 이는 선생님당 학생수가 많으면 졸업률이 낮아 지는 관계를 알 수 있다.

Scatter plot comparing Student/Teacher ratio and graduation percentage.




요약으로 데이터 분석



(1/4) 학습 목표


summaries(요약)은 합계, 평균, 횟수등을 사용하여 데이터를 설명한다.

이 과정을 학습을 통해,

분류할 변수를 사용하여 요약을 만들 수 있다.

데이터 분석에 요약(summaries)을 사용할 수 있다.






(2/4) 요약(Summary)란?


모든 데이터를 포함하고 있는 테이블에서 요약은 데이터를 설명하는 작은 테이블을 의미한다. 이때 작은 테이블은 변수에 대한 카운트, 합계, 최대값, 최소값, 평균값등을 가진다.

다음은  요약이 필요한 몇가지 질문들이다.

- 학군안에 포함되어 있는 학교의 수는?

- 학교마다 표준화된 시험의 평균점수는?

- 어느 학교가 가장 많은 선생님을 보유하고 있는가?

- 어느 학교가 가장 적은 학생을 보유하고 있는가?

- 학군내의 학생의 총합은? 




(3/4) 변수 요약


이 예제는 가상의 학군에 있는 학교에 대한 학생과 교사의 평균 수를 계산한다.


> summary 생성

오른쪽 상단의 [+]버튼을 클릭하여 [Add summary] 메뉴를 클릭한다.

Click on the red plus and select Add summary.

"Show"섹션에서 [Student]을 선택한뒤, Average 체크박스를 선택한뒤, "Add another"를 클릭한다.

Show the average of Students, and add another variable.

3,4번을 반복하여 Teacher와 Average를 선택한 뒤 [Save]를 클릭한다.

Show the average of Teachers and save.
결과 값을 확인한다.Screenshot of summary table with 1,245 average students and 30 average teachers.






(4/4) 요약 수정


다음으로, 요약변수에 카테고리를 추가하여, 어느학교가 마지막으로 리모델링 했는지가 포함되도록 요약을 세분화 할 수 있다.


> 요약된 변수에 카테고리 추가

Summary 1 탭을 선택하여, [Change summary...] 메뉴를 클릭한다.

Click on the summary tab and select Change summary...

[Summarize by] 섹션에서 [Season of Remodel]을 선택한뒤 [Save]버튼을 클릭한다.

Summarize by Season of Remodel
Fall과 Winter로 정보가 나누어 지는지 확인한다.The summary table should have one row for Fall and one row for Winter





선택적 분석을 위한 데이터 필터링



(1) 학습목표


필터는 주어진 기준에 따라 표시되는 행을 제한 할 수 있다.  이 과정을 통해

텍스트나 문자형 컬럼에 대해 필터를 생성, 수정,삭제할 수 있다.

필터를 데이터 분석에 사용할 수 있다.





(2/5) 필터란?


필터는 컬럼의 값을 사용하여 각 행에 대해 계산되는 문장이다.

예를 들어 졸업율이 50% 이하인 학교를 선택한다면, 퓨전 테이블 필터는  "졸업율 컬럼의 값이 50미만"인 경우 행을 선택한다.

필요한 데이터에 관계없는 데이터들을 걸러내는데 아주 적절하게 사용될 수 있다.





(3/5) 범주형 변수 필터링


가을에 마지막으로 리모델링된 학교를 선택하는 경우 다음과 같이 필터를 설정할 수 있다.


> 텍스트 컬럼에 필터 추가

Row 탭을 클릭한뒤, Filter를 클릭한다. 그중 [Season of Remodel] 메뉴를 클릭한다.

Click on Filter and select Season of Remodel.

왼쪽에 필터 규칙중 "Fall"을 선택한다. 오른 쪽 테이블의 ROW 탭은 리모델링계절이 "Fall"인 것만 필터링 되어서 표시되는 것을 보수 있으며, 6번에 적용된 필터 내용을 확인할 수 있다.

Select Fall to make only schools that are remodeled in the fall visible.




(4/5) 필터 제거


> 필터 제거

퓨젼테이블에서 필터를 제거하기 위해 왼쪽에 표시된 각 필터의 윗쪽에 보이는 [X]을 클릭한다.Click on the 'x' next to the filter to remove the filter.





(5/5) 수치 변수 필터링


학생/교사의 값이 20과 40사이인 행을 필터링한다. 이전 필터를 먼저 삭제하고 작업한다.


> 숫자 컬럼에 필터링 추가

Rows 탭 > Filter > Student/Teacher 클릭한다.Create a filter for Student/Teacher

왼쪽 필터 박스에서 20과 40 값을 설정한뒤 [Find] 버튼을 클릭한다. Row에 표시된 값이 20~40범위의 값인지 확인한다.

Enter values between 20 and 40 for the range.