cat tag


너의 학습비용을 우리는 내지 않겠다와 질문있습니다 차이나는 클라스 내맘대로 뉴스논평

http://news.zum.com/articles/54792905?cm=news_section_top&r=1&thumb=1
<마우스 우클릭후 새탭에서 열기를 해주세요>
<사생활 침해가 아니라는 기사이지만 핀트가 조금 어긋났네요>

어제와 달리 오늘은 회사들의 반박 기사가 났어요.

하지만 의미없는 반박이에요. 네이버가 왜 우리 사생활 정보를 동의없이 수집하고 개인정보보호법은 왜 비식별 빅데이터의 경우 우리의 사생활 정보를 동의없이 수집,활용,판매가 가능하도록 되어 있냐는 것이에요. 비식별화해도 식별화하는 기술로 간단히 식별되는데 말이지요.

여기서 중요한 것은 네이버가 하청 업체에 명령어 단위로 끊든, 서약서를 받든, 결국 네이버가 우리의 사생활 정보를 수집했다는 것이에요. 우리의 정보를 네이버에게서 보호받지 못하는 것이지요. 이것을 다른 회사가 했다고 너희도 해도 된다는 것도 말이 안되는 것이지요.

예전부터 주장했지만 학습하려면 돈주고 테스터들 뽑아서 그 테스터들에게 데이터 받아서 진행해야죠. 기업들을 위해서 우리의 사생활 정보를 퍼주는 현재의 개인정보보호법도 문제이고 기업들은 그런 상황에서 악용하고 있는 것도 문제이지요. 악용하면서 저런 인공지능 학습이라고 하는데, 우리가 인공지능 학습에 악용되어야 하는 이유는 무엇일까요? 기업들이 돈쓰기 싫은 거고 우리 정보 팔면 돈이 되기 때문이지요. 이런 지원을 할 필요가 없지요.

게다가 기업제품 향상에 우리가 왜 비용을 내게 만드는 지 이해할수 없어요. 그것을 사생활 정보로 말이지요. 이런 부분 개선이 필요하고 개인정보보호법은 지금보다 더 강화해야 합니다. 지금 개인정보보호법은 있으나 마나한 상태이지요.

오늘 질문있습니다. 차이나는 클라스라는 TV 프로그램에서 인공지능에 대한 것을 했는데 이 프로그램에서 틀린내용이 꽤 있고, 설명이 부족한 것이 있어서 제가 공부한 인공지능과 빅데이터에 관한 정보를 작성해 보고 싶습니다.

방송내용을 먼저 작성하고 → 표시 후에 잘못된 것을 수정하거나 추가 설명이 붙는 형식입니다.

검색어로 임신을 예측해서 임신중 사용하는 제품 쿠폰 보낸 것
→ 임신이라는 주제가 꽤 자극적이지요. 그런데 TV에서는 3가지 검색어를 사용하면 임신을 했다고 판단하는데 그 3가지 검색어를 하는 사람 모두가 임신한 것이 아니라는 것이지요. 보편성과 특수성은 달라요. 사람은 보편성도 가지고 있지만 특수성도 가지고 있지요 그래서 특수성에서는 일반적인 규칙으로 3가지 검색어라는 부분에서 임신을 확정할수 없습니다. 미성년자에게 임신중 사용하는 제품 쿠폰이 언제라도 날아들수 있는 위험이 있지요. 단순히 표본 하나가 맞았다고 그것이 100%를 의미하는 것은 아니에요.
최근 3년간 데이터가 그전의 데이터양보다 더 많이 늘어났다.
→ 도대체 우리 사생활 정보를 얼마나 모았기에 이렇게 많이 늘어났을까요? 비식별 빅데이터를 허락하니 아예 마구잡이로 모으고 있는 것이지요. 우리의 사생활이 완전히 털리고 있다고 생각해도 됩니다. 이젠 CCTV나 IoT제품에 의해서 안전한 곳이 거의 없어요. 뭐가 그리 궁금한지 모르겠어요 >_<;;;
여러분의 말을 텍스트화
→ 아래 자세히 설명하겠지만 빅데이터로 학습하는 인공지능이 100% 완벽도가 아니에요. 그래서 텍스트 안되는 것중에 일부를 모아서 다시 테스트로 해서 학습을 시키지요. 그 학습이라는 것도 단순한 법칙을 만들 뿐 인간의 학습과는 달라요
인공지능 전문가 알고리즘 실패
→ 인공지능의 제작 방식은 많아요. 방송중에 금성 세탁기가 나왔는데 퍼지이론과 전문가 알고리즘은 같은거에요. 그 금성 세탁기 퍼지이론을 쓰고 전문가 알고리즘 쓴 거죠. 인공지능이 그런 거에요. 매우 느린 속도로 발전하고 있어요. 그런데 전문가 알고리즘이 끝난 것처럼 방송했는데 아직도 사용되고 발전하고 있어요. 전문가 알고리즘은 게임제작에많이 쓰이고, 아직도 에어컨 등에 쓰이고 있습니다. 25도 맞추었는데 처음에 강하게 나오다가 25도에 가까워지면 바람이 약해지는 것등은 전문가 알고리즘으로 만든거에요.(프로그래머나 개발자들이 인공지능 방식을 쓰는데 만들면서도 인공지능 방식을 사용하는지 모르는 사람들도 많더라...) 퍼지라는 말이 들어가면 전문가 알고리즘이 99% 이상 쓰인거에요. 인공지능 제작 방식이 아주 많으며 지금도 연구자들은 더 좋게 개발하는 수 많은 빅데이터를 사용하지 않고 학습도 안하는 인공지능 방식들이 아주아주 많습니다.
국민의 마음을 더 읽어야 한다
→ 표현의 자유가 없다면 이건 안될거에요. 그러나 행태론의 문제로 힘든 점이 많아요. 사람을 어떤 행동을 했다는 것으로 법칙을 만드는 빅데이터로 학습하는 인공지능은 사람이 왜 그 행동을 했는지는 모르므로 국민의 마음을 정확히 읽는 것은 불가능하다가 맞습니다. 또한 우리가 빅데이터 교란을 시키기 위해서 가짜 행동을 하는 것도 잡아내기 힘들 거에요.
알파고와 귀납. 연역...빅데이터 학습 한계
→ 이 방송에서는 연역으로 했는데 안되어서 귀납을 했다고 되어 있지만, 실제로는 전문가 알고리즘 이전부터 귀납을 먼저하고 그 다음에 연역으로 하는 편이지요.(한 분야만 하면 보통 귀납과 연역이 계속 번갈아가면서 나타나면서 발전했다가 맞아요. 보통 귀납이 먼저고 그 다음이 연역 다시 귀납 다시 연역..이런씩이죠 어떤 새로운 조건을 발견하면 귀납으로 먼저 나오고 필사적으로 연역을 찾아내는 방식이에요. 이때 연역으로 돌아올때는 수학자들이 활약하는 경우가 많고요^^) 귀납이 만들기 휠씬 쉬운데 계산량이 많아요. 연역으로 하면 계산량이 줄고 답의 신뢰성이 더 높아져요. 하지만 연역적으로 하는데 일정한 사건이 일어나는 법칙을 찾는 것은 쉬운 일은 아니에요. 인간이 먼저 연역적 법칙을 찾아야 하지요. 이게 문제에요.
수도쿠의 답을 찾아봅시다. 여기에서 빈칸에 1~9사이에 들어가지요. (1,1) 좌표에 4을 넣고 다음칸(1,2)에 5를 넣고. 4는 (1,1)에 써서못들어가니까요. 그다음에(1,3) 6을 넣어서 모순이 생기면 다음에는 465 순으로 넣어보고 하는 씩으로 차례차례 하는 방법으로, 이렇게 해서 모순이 없는 상태를 찾으면 답이 되죠. 이런 것이 귀납이에요. 만들기 정말 쉽죠? 프로그래밍 처음 배운 사람에게 한두달 뒤에 수도쿠 답찾는 프로그램 만들어보라라고 한다면 이렇게 그냥 만들거에요. 즉, 여러분도 프로그래밍 한두달만 배우면 인공지능 개발자^^. 이것이 인공지능 아니라고 말한다면 인공지능 개발자 아니에요. 트리 알고리즘이라고 명칭까지 있어요. 심지어 이 트리 알고리즘은 인공지능이 세계 체스 챔피언을 이길때도 쓰였어요.
그런데 사람들은 1~9까지 넣어보지 않고 답을 찾잖아요. 빈칸에 왜 1이 들어가야하는지? 혹은 여긴 8또는 9 밖에 못들어가는지? 를 확인해서 문제를 풀죠. 이것이 연역입니다. 이렇게 만들면 귀납보다 연산량이 줄고 신뢰하는 답이 나오는데, 모든 법칙을 찾기가 어려워요.
알파고가 기보를 모아서 하는데, 이것은 귀납적인데. 귀납은 원래 계산량이 더 많죠. 그런데 알파고가 쓴 것은 가지치기라는 개념이 있는데, 가지치기를 공격적으로 한거에요. 가지치기라는 것이 (1,2)에 4를 넣을 수 없으니 5를 넣는다고 했잖아요. 이때 원래는 여기도 4를 넣어봐야 하지요. 4를 넣으면 1~9까지 한번만 쓸수 있다는 원칙에 어긋나니 할 필요가 없는거죠. 이런것을 가지치기라고 합니다. 공격적이라는 말이 붙었죠. 그 공격적이라는 말은 답을 100% 정확도로 찾는 것을 포기하고 계산량이 많은 것은 검색하지 않은 상태에서 최고로 좋은 것을 찾겠다는 것이에요. 그래서 대부분의 인공지능이 100%로 답을 찾을려고 하는데 알파고같은 경우는 100%가 아니여서 인간 평균보다 좋다. 이런말을 하는 것이에요. 귀납으로 법칙을 찾아서 그 법칙에 따라서 연역으로 해결해요. 그러나 이 방식의 문제는 그 법칙이 엉망이다. 신뢰할 수 없다 같은 것이지요. 신뢰성이 떨어지는 이유도 너무 많아요.
빠른 배송
→ 우리가 물건을 살때 일정한 주기가 있다는 씩으로 설명했는데, 우리가 물건을 살때 한곳에서만 사진 않잖아요. 빠른 배송을 하더라도 집에 오는 길에 마트에서 하나 살수도 있고 그렇지요. 예측에는 환경변수를 제대로 적용되지 않아서 법칙이 정확하다 할지라도, 환경에 의해서 사람들은 다른 행동을 해서 안맞을 수 있다는 것이에요. 계속 쓰던 물건을 다른 대체제로 바꿀수도 있고요. 사람의 행태는 항상 맞는 법칙성을 가지지 않아요.
추천
→ 추천서비스가 정확하다고 방송했는데, 전혀 그렇지 않지요. 정확도가 낮아요. 여러분에게 추천한다고 항상 그 추천을 선택했나요? 아니지요. 무시한 추천도 너무 많을 정도로 정확하지 않아요. 정보검색에 도움을 준다고 방송했는데 천만해요. 여러분이 보고 싶은 정보가 아니라 보길 강요당하는 것이에요. 게다가 이런것을 하기 위해서는 여러분 사생활 데이터를 어디에선가 수집했다는 것을 의미합니다. 개인정보보호법이 지금 엉망이니까요. 게다가 이런 부분은 행정학에서 사람들이 자신의 주장을 하고 서로 의견을 교환해야 하는데 그런 부분을 막음으로써 사회적으로 매우 좋지 않은 현상입니다.
추천에서 가끔 의외적인 것을 보여준다.
→ 이것은 1970년대 부터 쓰였던 제가 가장 좋아하는 진화론 알고리즘 설명입니다. 오늘 나오신 분이 인공지능 역사는 모르시는 듯 합니다. 진화론 알고리즘은 미분으로 설명하면 최고점 최저점은 f'(x)=0인 점이지요. f'(x)=0인점을 찾았는데 그것이 최고점인지 최저점인지는 모르죠. 극대, 극소는 맞지만요. 그래서 x값을 가끔 바꾸어서 그것이 최고,최저를 확인해 보는 것이에요. 다른 곳에 또 극대, 극소가 있는가를 확인해서 찾아본다 같은 말이지요. 그래서 의외적인것을 한번씩 시도해봐요. 이 방식으로 비디오 게임이 나온것이 있는데 역시 인간을 절대 깰수 없는 게임이 나와버렸지요. 어쨌든 이 부분은 진화론 알고리즘 설명이에요. 진화론 알고리즘은 아직도 NASA에서 쓰고 있고 많은 곳에서 활용되며 저도 자주 쓰는 알고리즘입니다. 물런 진화론 알고리즘은 값을 교배시키고 돌연변이를 만들고 하면서 답을 찾는것이고 위는 의외성 부분을 간단하게 미분으로 설명한거에요. 빅데이터도 안쓰고 학습도 안해요.
이직할 사람의 예측
→ 역시 인간의 행동의 공통점을 뽑아서는 특수성 문제나 행태론 문제와 겹치죠. A,B가 어떤 행동을 했다고 다음 행동을 A,B가 똑같은 행동을 하는 것은 아니에요. 빅데이터로 학습하는 인공지능이 사람에 대해서 예측하는 것은 불가능합니다.
AI 면접제도와 공정성
→ 빅데이터로 학습하더라도 변수는 개발자가 정하고 빅데이터가 다르면 그 변수에 따른 관계식도 다르게 나와요. 빅데이터를 속이거나 변수를 바꾸면 결과도 바뀌지요. AI로 면접보더라도 공정성이라고는 개뿔도 없고, 변수가 맞고 빅데이터를 아무리 많이 모아도 결과식을 뽑는 과정에도 문제가 있어요. 망하고 싶으면 AI로 면접봐도 됩니다. 이것은 사람보다 더 공정성이 없어요. 개발자가 전 직원을 뽑는 것과 같아요. 면접에서 특정 생각을 가진 사람만 뽑겠다는 것부터가 이미 면접의 필요성이 없고, 면접 자체가 없어지는 것이 맞겠지만, 쉽게는 안없어질 거에요. 하지만 AI로 한다고 공정성이 생기는 것은 말도 안된다는 것이며, 그것은 특정한 사람들만 합격하기 때문에 조직은 환경에 매우 적응하기 어려워지는 형태가 됩니다. 유전자 다양성이라고 하는데, 조직에서도 유전자가 많지 않으면, 생물종에서 DNA가 많지 않으면 전염병 하나에 멸종하듯 조직도 마찬가지에요. 특정 환경에서 그냥 망할 수 있지요. 사람이 면접볼때랑도 비슷해요. 단 AI로 하면 더 빠를 거에요. 국방부에서는 빨리 생각을 바꾸는 것을 추천드립니다. 국방부가 아니었다면 민원냈을 거에요. 우리의 피같은 세금은 쓸데없는 곳에 낭비하지 말라고 말이지요. 단, 국방부는 예외로 두겠어요. 국방부 만큼은 4차 산업 혁명을 넓은 범위에서 생각하더라도 좀 쓰일만한 분야에요. 예를들어 민간에서 드론 활용은 지금 기대의 1%도 안되겠지만, 국방분야에서는 100% 이상의 효과가 나올 수 있으니까요. 100% 이상의 효과가 안나오더라도 사람이 죽는 것보단 기계가 부서지는 것이 좋잖아요. 그러나 역시나 AI면접은 좀 효과가 없을 듯 보입니다만 민간에 충격을 줄만한 부분은 아니며 군대에서 필요한 인재는 사회에서 필요한 인재와 많은 차이가 있으며 개성이나 창의성보다는 명령과 복종이 중요한 분야이고 어차피 전쟁나면 미군이 최신 무기로 해결할 것이니까요. 우리 국방부를 무시하는 것은 아니고 미군의 최신 무기의 위력에 북한이 이겨내지 쉽지 않을 것이란 뜻이에요.
판매자 소비자 관계
→ 판매자가 소비자의 사생활을 악용하고 있을 뿐입니다. 당장 중단하는 것이 좋습니다. 어떤 물건을 샀는가도 소비자의 사생활입니다.
My Data. 자기 정보 자기 결정권
→ 자기 정보 자기 결정권은 대한민국 헌법 17조이지요. My Data 개념은 일단 자신의 데이터가 안전한듯 보이지만 그것을 사용하는 프로그램 자체가 벌써 사생활 침해한 데이터로 만들어진 것이에요.
공공분야 사용
→ 아쉽지만 한국에서 공익 목적으로 사용하는 것은 허가되어 있습니다. 반대할수 없어요. 그러니 국가만 빅데이터 사용하고 기업에게 권한을 주지 말고, 개인정보보호법을 보완해야 합니다.
범죄자 예측
→ 빅데이터로 학습하는 인공지능은 자체 결함으로 100%가 안될때가 많아요. 인권침해에요. 공익과도 거리가 멀어요. 일반인을 범죄자 취급하는 것이 공익일 수 없고 빅데이터로 학습하는 인공지능으로 특정인이 미래에 범죄를 저지른다를 100%로 예측이 불가능합니다. 어떤 변수가 범죄를 일으키는 변수인가를 공개하라고 해보세요. 신제도론의 정보공개만 사용해도 바로 알것을 먼길로 돌아가시지 않기를 바랍니다.
심야버스 통신량으로 결정
→ 왜 개인 통신한 사생활을 수집했는지 이해할수가 없어요. 택시기사에게 수집했다면 더 좋은 결과인 것이 분명하고 빅데이터가 없더라도 진화론 알고리즘으로도 해결할 수 있는 문제였습니다. 방법에서는 동의할 수 없어요. 특히나 민간기업과 합작했다는 점에서. 국가에서 국가의 수집도구로 공익적으로만 사용하고 폐기했다면 인정했지만요. 민간기업도 이 사생활 정보를 공유하게 되었으니까요. 우리 사생활 정보를 기업이 공유해서는 안됩니다.
폭우에 사용된 것
→ 일기예보는 지금도 정확도가 100% 가 아니에요. 정확히 몇시에 비가 내리기 시작하고 몇시까지 비가 내린다는 모르며 태풍 경로도 확실하지 않아요. 하지만 인간이 아닌 이상 물리학등에서는 100%가 될 수는 있어요. 이것은 물리 법칙으로 일어나니까요. 물런 나비효과 때문에 변수조차 다 모르고 관계식 정확도도 100%가 되기 어렵겠지만요. 일기예보가 의사결정나무분석으로 예측이 되는가? 하는 문제의 답은 생각안해봤어요. 어쨌든 인간의 사생활이 아니라면 빅데이터로 학습하는 인공지능의 사용에 반대하진 않아요. 오히려 이 분야 100% 되기 전까지 사생활 분야에서 빅데이터로 학습하는 인공지능은 보류되어야 합니다.
데이터가 부족해서 안맞나요? 목적에 맞는 데이터 필요
→ 빅데이터로 학습하는 인공지능의 문제는 많은데, ① 결과식을 도출하는 과정에서 결함. 의사결정나무분석과 비슷한데 이것은 모든 것을 예측하는 수단은 되지 못하는 방식 ② 개발자가 정하는 변수의 정확도와 계산량 문제로 변수의 설정 제한. 어떤 사건에 대해서 개발자가 그 사건이 일어나는 모든 변수를 알지 못해요 ③ 인간의 가치는 많은데 보통 효율성만으로 답을 구하는 문제. 가치 문제 해결이 어려움 등 많은 문제가 있어요. 빅데이터도 중요한 문제이긴 하지요. 그런데 목적에 맞는 빅데이터가 부족하다고 하는데, 뻔히 안되는 이유를 알면서 빅데이터탓을 하면서 우리의 사생활을 더 악용하고 싶은 이유이지요. 우리 데이터를 왜 그렇게 가져가려 하는냐? 하는 것이지요. 지금도 데이터는 엄청나지만 제대로 된 결과는 별로 없어요. 앞으로도 그럴 것이고요. 이제 우리 사생활은 그만 빼가야 하는 것이 아닐까? 싶어요.
빅데이터 활용 순위
→ 빅데이터로 학습하는 인공지능 안하면 더 빨리 인공지능 분야를 앞서갈수 있어요. 이 순위는 더 내리고, 다른 방식을 개발하는 것이 시행착오를 줄여서 더 좋은 결과를 가져올 것입니다.
우리나라 개인정보보호법은 세지만 처벌은 약하다
→ 우리나라 개인정보보호법은 빅데이터와 관련해서는 거의 있으나 마나한 법이에요. 교수시면 재식별화 안되다고 거짓말하셔서는 안되지 않나요? 지금도 재식별화 된다는 것을 많은 사람들이 알고 있는데, 방송에서 그러시면 안되잖아요. 넓게 봐서 지금 개인정보보호법에서 비식별화를 다시 식별화 했을때 즉시 삭제 구문을 적용한 말로 해석하겠습니다. 지금 우리나라 개인정보보호법은 식물법이나 다름없어서 우리를 보호하지 못해서 처음 링크된 기사같은 것이 나오는 것이고, 네이버 처벌도 안받아요. 비식별화해서 수집했다는 이유로 말이지요. 그러나 언제나 네이버가 마음만 먹으면 한국 밖으로 나가서 재식별화하면 우리 개인정보는 다 털린 것이에요. 한국 내에서는 재식별화하면 바로 폐기해야 하지만, 한국 밖으로 나가면 얘기가 달라지는 걸요. 물런 네이버는 하청주고 해서 비난 피하겠지만요. 지금도 일어나는 일일수도 있어요. 우리나라 개인정보보호법은 빨리 강해져야 하고 비식별 빅데이터를 국가가 다 삭제해야 합니다. 지금까지 국가가 법을 잘못만들어서 우리 사생활 정보를 유출시킨 것이니까요.
계류중인 완화된 개인정보보호법 개정안
→ 국회의원님들 제발 부탁입니다. 더 이상 금수저들을 위한 법률을 통과시키지는 말아주세요. 흙수저들 힘들어요.
데이터 사이언티스트
→ 미국에서는 사생활 보호에 위협을 느끼는 사람들이 50%정도 되고, 계속 상승하는 상태에요. 사생활 보호에 위협을 느끼는 사람들이 많으면 이 직업은 끝나는 것이에요. 또한 행정학에서 행태론이 실패로 끝났고, 과학적으로 사람의 행동은 유전자에 의해서 결정되지만 환경에 의해서도 결정되기 때문에 과거 행동의 법칙이 미래에 적용되지 않아요. 결국 없어질 직업입니다. 10년안에 없어질 것으로 예상되므로 이 직업을 선택하는 것은 위험합니다.

● 해결책
→ 빅데이터의 위험성에 대해서 경고한 미국의 보안전문가는 자신의 행동에서 의지와 다른 행동을 조금씩 해서 빅데이터를 교란시키는 것이 좋다고 말해줍니다. 검색에서 쓸데없는 것좀 검색하고 자신의 뜻과 다른 글도 가끔씩 쓰고 평소와 다른 자신이 좋아하지 않는 곳에도 산책가는 등으로 말이지요. 이렇게 교란시키면 사생활 정보가 틀려지기 때문에 교란이 되지요. 가끔씩 몇번 하는 것 만으로 충분히 도움이 됩니다.
→ Tor 같은 것을 쓰세요. 개인맞춤에 당하지 않게 되거나 인터넷에서 개인정보 수집을 막을 수 있습니다. 단, 쿠키는 자주 지워주어야 합니다. Tor쓰고 계정 접속하면 당연히 수집됩니다만 Tor쓰는 것이 안전합니다.

이상 오늘 차이나는 클라스는 개인정보보호법을 통과시키기 위한 방송으로 잘못된 정보가 많았어요. 그래서 좀 길게 작성해 봤습니다. 오늘 글은 글을 다시 돌아보면서 문장이 어색하거나 오탈자 수정을 해야 하는데, 하지 않아서 글을 읽을때 조금 껄끄럽게 작성된 문장이 있을지도 모르겠어요. 너무 길어서 수정은 못했는데 읽기 껄끄러운 문장구조를 가진 문장이 나왔다면 그 점은 양해 부탁드립니다(__)