본문 바로가기

수학적 디지털 툴 기초적 사용예

#1 영어단어 나오는 빈도수로 정리하기

수학적 디지털 교육의 소개에 이어 이번 글에서는 수학적 디지털 툴(tool)을 이용해서 고등학생도 쉽게 따라 할 수 있는 기초적인 데이터 수집/분석의 예를 보여 드리겠습니다.  예를 들어서, 한 학생이 수능 영어시험을 준비하며 영어단어를 외우고 있던 중 문득 이런 생각이 들었습니다.  이왕 외울거면 자주 나오는 영어단어부터 외우자!  그래서 이 학생은 우선 최근 12년동안의 수능 기출 영어문제를 다 모았습니다.  그리고 나서 자주 나오는 단어를 정리하기 위해 그 12년 동안의 자료를 하나씩 읽으며 노트에 단어 테이블을 만들어 단어가 나오는 빈도수를 기록했습니다.  그렇게 며칠이 걸려서 정성껏 단어 테이블을 만들었는데, 이번에는 빈도수 순으로 그 모든 단어들을 다시 정리하는데 또 며칠이 걸릴 것 같았습니다.  영어단어 한번 제대로 외워보지도 못하고 정리만하고 있던 이 학생은 그제야 인터넷에 누군가 보기좋게 정리해 놓은 수능 기출 영어단어들을 보고 완전 기뻐하며 그 누군가의 노력에 깊은 고마움을 느꼈습니다.  자 지금부터 저희가 그 고마운 사람이 한 일과 비슷한 정리를 수학적 디지털 툴을 사용하여 한번 해보겠습니다.


영어로 된 위키에서 "Education"을 검색하면 엄청 긴 글이 나오는데 그 글에 나오는 영어단어들을 빈도수 순으로 정리한 다음 가장 많이 나오는 50개의 단어들을 크기순으로 말구름을 사용하여 표현해 보았습니다.  아래에서 보는 것과 같이 여기에 사용되는 코드는 정말 간단한 한줄짜리 코드입니다.  그치만 위에서 보듯이 그 결과는 한 학생이 며칠동안 한 노력과 맞먹습니다.

WordCloud[DeleteStopwords[TextWords[WikipediaData["Education"]]], MaxItems -> 50]

그럼 간단히 사용된 코드에 대해서 설명을 드리겠습니다.

우선 WikipediaData["Education"] 는 인터넷의 위키백과에서 "Education"에 관한 글을 불러 오라는 뜻입니다. 그리고 TextWords 는 그 긴 문장으로 된 말들을 하나씩 단어로 쪼개어 표현하라는 의미이고, DeleteStopwords 는 별로 중요하지 않은 a, the, in, of 등등의 말들은 버려라 라는 명령문이고 마지막으로 WordCloud 와 MaxItems -> 50 는 가장 빈도수가 높은 50 단어를 선정해 말구름(Word Cloud)를 만들어라는 명령문입니다. 의외로 직관적이면서도 간단하지 않습니까?  이것이 바로 인간의 언어 표현방식과 비슷한 high-level 컴퓨터 언어를 쓰는 수학적 디지털 툴의 장점입니다.  예를 들어서 가장 많이 나오는 200개의 단어를 말구름으로 나타내고 싶다, 그러면 그냥  MaxItems -> 50을 MaxItems -> 200 으로 바꿔주면 아래와 같이 200개의 단어로 된 말구름을 얻을 수 있습니다.


여기서 코드를 또 조금 더 바꾸면 단어와 사용된 빈도수를 테이블 형식으로 나타낼 수도 있습니다.  아래는 바뀐 코드와 그 결과입니다.

Take[SortBy[

   Counts[DeleteStopwords[

     TextWords[WikipediaData["Education"]]]], -# &], 50] // Dataset



실제로 필자는 최근 몇년간의 수능 영어시험문제를 이런씩으로 분석을 해 보았습니다 - Link: 수능 영어단어 순위 1~1000.  그리고 그 결과 "time"과 "people"이 제일 많은 빈도수를 보였던 것으로 기억합니다.  자 이렇게 위의 간단한 보기에서 알 수 있듯이 수학적 디지털 툴은 테이터를 수집하고 분석하는데 아주 편리한 도구로서 세상의 많은 곳에서 위의 보기보다 훨씬 더 복잡한 분석등을 척척 해 내고 있습니다.  보기엔 단순한 분석이지만 직접 손으로 하려면 아마도 엄청난 시간이 소모될 것입니다.  그럼 다음 글(미적분도 해주는 고마운 계산기)에선 수학적 디지털 툴이 계산기로써 사용될 때의 기능에 대해서 간단히 알아보겠습니다.  그리고 수학적 디지털 교육을 받고 싶은 분, 또는 컨설팅이 필요하신 분은 John Lee Edu에서 제공중인 서비스를 참고해 주시기 바랍니다.