빅보카 혹은 빅뻥카

0. 요약

  • <빅보카>의 전신인 <빅데이타 단어장>은 인터넷에 공개돼 있는 빈도 순위 단어 리스트를 복붙한 것이다. 신영준은 '수학적 분석'을 했다고 주장했으나 중복 데이타도 확인하지 않아서 두 번씩 나오는 단어들이 수두룩하다.

  • <빅보카>는 <빅데이타 단어장>을 재정렬했을 뿐인데, 애초에 주요 단어들이 빠진 데다가 신영준이 제멋대로 단어들을 추리는 바람에 <빅보카>의 빈도 순위는 아무 의미가 없다.

  • <빅보카>의 뜻풀이는 대부분 네이버(옥스포드) 사전에서 무단 도용한 것으로 드러났다.

  • 신영준은 이미 업계에 잘 알려진 단어장 제작 기법을 제대로 흉내내지도 못하고 아무렇게나 만든 단어장을 팔면서, 자신이 대단한 걸 처음 만든 것인 양 사기를 쳤다.

  • 전문가들의 비판은 차단과 댓글 조작으로 무마하며 궤변으로 대중을 호도했다.

  • 고영성이 쓴 <빅보카> 추천사는 <빅데이터 인문학: 진격의 서막>을 그대로 베낀 것이다. 고영성은 이를 <일취월장>에 다시 복붙했다.

  • 고영성이 베낀 추천사는 아이러니하게도 신영준이 선행 연구의 존재를 몰랐다고 변명할 여지조차 없앴다.

1. 사기극의 시작

신영준은 <빅보카>의 프로토타입으로 <빅데이타 단어장>을 펴낸다. 비주얼은 저래 봬도 정식으로 출판된 책이다 (2015년 3월, 도서출판 고운, ISBN: 978-89-93200-04-1). 첫 페이지에서 신영준은 이 단어장의 장점을 이렇게 꼽고 있다.

  • 24000권의 책과 1000편의 TV 프로그램에서 수집된 Big Data

  • 8억 단어에서 사용빈도 우선순위로부터 추출된 단어 리스트

  • 수학적 분석으로 도출된 Top 9000 common words

<빅데이타 단어장>은 예문은 고사하고 단어 뜻풀이도 없다. 오직 빈도 순위대로 나열만 돼 있다. 그런데 이것은 인터넷에 무료로 공개돼 있는 빈도 순위 단어 리스트(구텐베르크 프로젝트 기반 리스트)를 복붙한 것이다.

구텐베르크 프로젝트 기반(PG) 리스트에서 was와 had를 삭제한 것 외에는 똑같다. 동사의 과거(분사)형이라 삭제한 것 같지만, <빅데이타 단어장>에는 동사의 과거(분사)형이 무수히 등장한다. 이처럼 삭제 기준에는 아무런 일관성이 없다.

앞서 신영준이 스스로 꼽은 이 책의 장점 세 개 중 두 개는 그가 한 일이 아니다. PG 리스트 자체가 24000권의 책, 8억 개의 단어로부터 빈도 순위를 추출한 것인데, 그걸 복붙하면서 마치 자기가 한 일처럼 써놨다. 그렇다면 마지막 ‘수학적 분석’은 어떨까?

was의 빈도수는 1,008만 회, with는 773만 회, is는 756만 회다. was를 is와 겹친다고 삭제했다면 was의 빈도수를 is의 빈도수에 반영해야 하지 않을까?

이런 고민은 사치였다. <빅데이타 단어장>에는 두 번씩 등장하는 단어가 수두룩하다. TV 스크립트 기반 리스트에서 일부 단어들을 아무데나 끼워넣으면서 중복 데이타도 확인하지 않았으면서, ‘수학적 분석’이니 ‘데이타 프로세싱’을 했다고 사기를 친 것이다.

‘white’는 218, 503번째에 중복돼 나온다.

‘black’은 354, 542번째에 중복돼 나온다.

“단어 데이타 처리하는데 시간이 거의 1년이 걸렸다”는데 도대체 무슨 ‘데이타 처리’를 했다는 것일까?

“단어 데이타 처리하는데 시간이 거의 1년이 걸렸다”는데 도대체 무슨 ‘데이타 처리’를 했다는 것일까?

2. 본격적인 사기극

<빅데이타 단어장>은 인터넷에 공개된 리스트를 차라리 그대로 프린트하는 것만도 못한 책이다. 이런 것도 10,000원씩이나 받고 팔 수 있다는데 자신감을 얻은 신영준은 이제 본격적으로 사기를 칠 준비를 한다.

fig7.png

그리하여 신영준은 <빅데이타 단어장> 출시 후 16개월 만에 <빅보카>(2016년 7월, 로크미디어)를 내놓는다.

그러나 신영준이 한 일이라고는 <빅데이타 단어장>에서 파생어(같은 word family에 속하는 명사형, 형용사형, 동사형 등)를 정리한 다음 엔그램 뷰어로 정렬한 것뿐이다.

그런데 엔그램 뷰어는 입력한 단어의 사용빈도를 보여줄 뿐이지, 애초에 신영준이 베낀 구텐베르크 프로젝트 기반 단어 리스트에 포함돼 있지 않거나, 신영준이 제멋대로 삭제한 단어를 되살려주지는 못한다.

<빅보카>에는 internet, laser, satellite, television과 같은 단어들이 나오지 않는다. 구텐베르크 프로젝트 자체가 저작권이 소멸된 1930년대 이전 텍스트에 주로 의존해 현대 영어를 반영하지 못한다. 신영준은 현대 영어를 보완했다고 주장했으나, television이 안 나올 정도니까 말 다했다.

또한, 신영준은 이런 단어들을 마음대로 삭제했다. (일부 사례다.)

  • dollar, duke: 고유명사인 줄 알았을까?

  • forth: 고어인 줄 알았을까?

  • species, sometimes: 명사의 복수형이라 생각한 것 같은데 species는 그 자체가 단수 명사고, sometimes는 sometime의 복수형이 아니라 그 자체로 부사다.

  • copyright은 착각할 소지도 없는데 삭제했다. 저작권은 보기도 싫다는 뜻인가?

<빅보카 어드밴스드>의 마지막 8,000번째 단어가 (나무) 옹이라는 뜻의 gnarl이다. 신영준이 제멋대로 삭제한 단어들은 이보다 최소한 수백 배에서 수만 배 자주 나온다.

엔그램 뷰어 2008년 기준 빈도 순위

엔그램 뷰어 2008년 기준 빈도 순위

<빅보카>에 found(설립하다)는 108번째, find는 147번째 빈출 단어라고 나온다. 아무리 그래도 ‘설립하다’가 ‘찾다’보다 더 많이 쓰일 리가 있을까?

엔그램 뷰어로 조회하면 found의 빈도수가 find보다 높게 나온다. 그런데 이 found는 find가 과거(완료) 시제로 쓰인 것이 대부분이다. 문어체 영어에서는 동사의 과거형이 현재형보다 많이 사용되기 때문이다. 설립하다는 뜻의 동사 원형 found는 과거형인 founded보다도 빈도수가 떨어질 것이므로 find보다는 우선 순위가 훨씬 떨어진다.

우선 순위 단어 리스트가 무료로 공개돼 있는 https://www.wordfrequency.info/ 에는 find가 95위, found는 2,687위로 나와 있다.

fig0506_1.png

게다가 파생어 정리 작업에서는 최소한의 일관성도 찾을 수 없었다.

&lt;빅보카&gt;에 sensor는 sense와 별도로 나오는데, law만 나오고 lawyer는 나오지 않는다. lawyer는 sensor보다 3배 더 자주 나오는 단어다.

<빅보카>에 sensor는 sense와 별도로 나오는데, law만 나오고 lawyer는 나오지 않는다. lawyer는 sensor보다 3배 더 자주 나오는 단어다.

&lt;빅보카&gt;에 influent는 influence와 별도로 나오는데, evidence만 나오고 evident는 나오지 않는다. evident는 influent보다 100배 더 자주 나오는 단어다.

<빅보카>에 influent는 influence와 별도로 나오는데, evidence만 나오고 evident는 나오지 않는다. evident는 influent보다 100배 더 자주 나오는 단어다.

교육부에서 지정한 초등학생 필수 영단어의 상당수가 <빅보카>에 나오지 않는다: across, afternoon, candy, dad, dolphin, east, grandma, north, pants, pink, tonight. (west와 south는 나오는데, east와 north는 나오지 않는 이유는 무엇일까?)

신영준이 얼마나 엉터리로 <빅보카>를 만든 것인지 잘 드러나는 장면들이다. 수많은 단점에도 불구하고 <빅보카>의 유일한 장점을 ‘정확한 우선 순위’라고 선전했는데, <빅보카>는 우선 순위조차 엉터리인 것이다.

&lt;빅보카&gt; 서문에서 신영준은 마치  11억 개의 단어로 구성된 코퍼스를 직접 돌려서 2만 단어를 추려낸 것처럼 썼지만, 실은 인터넷에 공개된 빈도 순위 단어 리스트를 복붙한 것이었다. 파생어들끼리 묶어서 정리하는 작업은 앞에서 살펴본 것처럼 졸속으로 이루어졌다. 신영준은 이런 엉터리 단어장을 ‘3년에 걸친 대작업’이라고 선전했다.(영어 단어를 제대로 공부하는 법은 여기서 볼 수 있다.)

<빅보카> 서문에서 신영준은 마치 11억 개의 단어로 구성된 코퍼스를 직접 돌려서 2만 단어를 추려낸 것처럼 썼지만, 실은 인터넷에 공개된 빈도 순위 단어 리스트를 복붙한 것이었다. 파생어들끼리 묶어서 정리하는 작업은 앞에서 살펴본 것처럼 졸속으로 이루어졌다. 신영준은 이런 엉터리 단어장을 ‘3년에 걸친 대작업’이라고 선전했다.

(영어 단어를 제대로 공부하는 법은 여기서 볼 수 있다.)

단어의 뜻만 무작정 외우는 방식은 절대 좋은 교재라고 할 수 없는데, <빅보카>는 그걸 논할 수준도 못된다. 목적에 따라 코퍼스를 갖추고 그걸 조정해가며 단어 리스트를 뽑는 것이 단어장 집필의 기본인데, 신영준은 코퍼스를 다루기는커녕 기존 리스트를 복붙하는 것도 제대로 못해서 엉터리로 만들었기 때문이다.

bigvoca.jpg

<빅보카>는 그 뜻풀이조차 네이버/다음 영어 사전에서 무단 도용했다. 도서사기감시단에서 <빅보카>에 수록된 8,000개 단어의 뜻풀이를 전수조사한 결과, 적어도 83%를 네이버/다음 사전에서 복붙한 것으로 드러났다.

네이버는 상당한 전재료를 내고 옥스포드 사전의 뜻풀이를 제공하고 있다. 누구나 찾아보는 것은 가능하지만, 이것을 저작권자의 허락 없이 상업적으로 이용하는 것은 명백한 저작권 침해다. 옥스포드에 확인 결과, 신영준은 전재 허락을 구한 적도 없었다.

(신영준이 네이버 사전을 도용한 사실은 ‘빅보카 퀴즈 앱’에서 더욱 확실하게 드러난다.)

fig15_2.png

3. 대중 기만

언어학/영어학 전공자들이 빅데이타(코퍼스)를 분석한지 최소한 20년은 지났다. 그런데 <빅보카>를 ‘국내 최초의 빅데이타 어휘집’이라고 선전하니 전문가들의 비판이 이어지게 마련이다.

논쟁이 시작되면 밑천이 뻔한 신영준은 매번 얼마 버티지 못하고 나가 떨어졌지만, 다음과 같은 수법으로 그것을 감췄다.

  1. 전문가 A와의 논쟁에서 금세 발린다.

  2. 당장은 승복하는 척한다.

  3. 곧 A를 차단하고 그의 댓글을 삭제한 다음, 자신의 글을 수정해 지적당한 문제점을 감춘다.

  4. 전문가 B가 다른 문제점을 지적한다.

  5. A한테서 주워들은 얘기를 꺼내 뭔가 아는 체 해보지만, 한 발 더 들어가면 역시 쳐발린다.

  6. 승복하는 척한다.

  7. B를 차단하고 그의 댓글을 삭제한 다음, 자신의 글을 수정해 지적당한 문제점을 감춘다.

  8. n명의 전문가를 모두 차단할 때까지 이를 반복

fig11-1-2.png

또한, 정당한 비판을 <빅보카>의 상업적 성공에 배아파하는 동종업계 종사자의 밥그릇 싸움으로 몰아갔고, 엉뚱한 전문 용어를 들먹이며 대중을 호도했다.

신영준의 페이스북 2016년 8월 14일자 포스팅에서 캡쳐

신영준의 페이스북 2016년 8월 14일자 포스팅에서 캡쳐

특히, 신영준이 전가의 보도처럼 써먹은 말이 “멱법칙에 따라 우선 순위를 뽑았다”는 것이다. 그런데, 어떠한 자연어 말뭉치에 나타나는 단어들이라도 빈도 순위대로 나열하면 멱법칙 분포를 따른다는 것을 이미 1937년에 조지 킹슬리 지프가 발견했다 (지프의 법칙). 즉, 신영준의 말은 만유인력의 법칙에 따라 공이 날아가도록 했다는 말처럼 공허한 얘기다. 뭔가 있어보이는 ‘멱법칙’이라는 네이밍을 통해 대중을 기만한 것이다.

fig12.png

4. 멱법칙, 엔그램, 단어장

고영성이 쓴 추천사에는 <빅보카>의 창제 이념이 담겨 있다. 그런데 이 추천사 자체가 <빅데이터 인문학: 진격의 서막>을 그대로 베낀 것이다.

fig13.png

에레즈 에이든과 장바티스트 미셸이 공저한<Uncharted: Big Data as a Lens on Human Culture>는 2013년 12월에 미국에 출간됐고, 우리나라에는 <빅데이터 인문학: 진격의서막>이라는 제목으로 2015년 1월에 번역 출간됐다. 즉, <빅보카>는 물론이고 <빅데이타 단어장>보다도 훨씬 앞선 것이다.

뿐만 아니라 <빅데이터 인문학: 진격의 서막>에는 멱법칙을 근거로 엔그램을 사용해서 단어장을 만드는 과정이 자세히 소개돼 있다.

<빅데이터 인문학: 진격의 서막>의 목차:
멱법칙을 근거로 엔그램을 사용해 DIY 사전을 만든다. 어디서 많이 듣던 얘기 아닌가?

에이든과 미셸의 연구가 소개된 이후로 이를 재현하고 응용하는 각종 프로젝트가 진행됐고 보고서/데이터셋/코드들도 많이 공개돼 있다. 예를 들면, 8000개의 단어로 트위터, 블로그, 뉴스 등 상용 텍스트의 90%가 커버된다는 것도 2015년 이전에 이미 잘 알려져 있었다.

즉, 신영준은 이미 업계에 잘 알려진 단어장 제작 기법을 제대로 흉내내지도 못하고 아무렇게나 만든 단어장을 팔면서, 자신이 대단한 걸 처음 만든 것인 양 사기를 친 것이다.

신영준이 ‘내가 이 분야에 워낙 무지해서 선행 연구의 존재를 몰랐다’고 변명할 여지조차도 고영성의 추천사 덕분에 사라졌다.

또한, 고영성은 베껴 쓴 추천사를 그대로 <일취월장>에 복붙하기도 했다. 물론 출처 표시는 하지 않았다.

신영준은 이런 엉터리 단어장을 이렇게 광고했다.

"2016년 7월, 3년만의 작업이 드디어 끝났다. 삼성에 다니며 새벽에 30분 일찍 일어나 작업했다. 퇴근하고 작업하고 주말에 작업하고, 휴가 가서도 작업했다. 삼성을 그만두며 하루 12시간 이상 매일 작업했다. 진짜 통계에 근거한 제대로 된 우선 순위 단어장을 만들고 싶었다. 대한민국의 미래를 위해서, 대한민국의 희망을 위해서, 그리고 대한민국에서 살아갈 다음 세대인, 내 사랑스런 딸 OO를 위해 <빅보카>는 공학박사로서 내가 할 수 있는 최선의 일이었다..."


Previous
Previous

트리플 크라운

Next
Next

신영준 vs MBC