최근 수정 시각 : 2024-12-03 10:53:00

빅 데이터 프로세싱

데이터분석에서 넘어옴

[[컴퓨터공학|컴퓨터 과학 & 공학
Computer Science & Engineering
]]
[ 펼치기 · 접기 ]
||<tablebgcolor=#fff,#1c1d1f><tablecolor=#373a3c,#ddd><colbgcolor=#0066DC><colcolor=white> 기반 학문 || 수학( 해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학( 환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학( 형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학 ||
하드웨어 구성 SoC · CPU · GPU( 그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
기술 기계어 · 어셈블리어 · C/ C++ · C# · Java · Python · BIOS · 절차적 프로그래밍 · 객체 지향 프로그래밍 · 해킹 · ROT13 · 일회용 비밀번호 · 사물인터넷 · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · NERF · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시( SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화 · 하드웨어 가속
연구

기타
논리 회로( 보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 운영 체제 · 데이터베이스 · 프로그래밍 언어{ 컴파일러( 어셈블러 · JIT) · 인터프리터 · 유형 이론 · 파싱 · 링커 · 난해한 프로그래밍 언어} · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩( 유니코드 · MBCS) · 네트워크 · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도( 최적화) · 소프트웨어 개발 방법론 · 디자인 패턴 · 정보처리이론 · 재귀 이론 · 자연어 처리( 기계 번역 · 음성인식) · 버전 ( 버전 관리 시스템 · Git · GitHub)

1. 개요2. 상세
2.1. 한국
3. 관련 자격증4. 빅 데이터 프로세싱 기술5. 개인정보 침해 우려6. 기타7. 관련 문서8. 관련 기업

1. 개요

Big data processing

디지털 시대에서 폭증하는 '방대한 양의 데이터(big data)'를 관리하고 분석해서 유용한 정보로 사용하는 기술.

2. 상세

과거에는 알 수 없었던 매우 사소한 정보[1]까지도 디지털 정보로 기록되는 정보화 시대에서는 너무나도 정보의 양이 많아졌다. 거기에 더해 단순한 문자 데이터에서 벗어나 녹음, 사진, 동영상 등 데이터의 종류가 다양해지고 데이터의 용량 자체도 큰 폭으로 늘어났다. 이런 빅 데이터는 기존의 기술이나 도구로는 원활한 수집과 처리가 불가능할 정도로 성질이 달라졌으므로 빅 데이터에서 유용한 정보를 추합하거나 가치를 뽑아내기 위해서 고안된 기술이 바로 빅 데이터 프로세싱이다. 빅데이터 프로세싱의 의미를 직관적으로 설명한 영상

본래 빅 데이터 프로세싱이란 경제 가치를 창출해 낼 수 있는 설문조사 결과 모음으로 정의되며 빅 데이터에서 돈이 될 만한 것을 뽑아내는 기술로 정의되었다. 그러나 빅 데이터 기술이 대중에게 유명해진 지금은 경제 분야에 국한되어 쓰이지 않는 용어가 되었다. 관련 업체들이 난립하는 상황에서 대형 벤더에서는 솔루션 업체들을 인수하여 솔루션을 강화하고자 하는 실정이다. 사람들의 마음 속을 어느 정도 계량화해서 데이터로 만들어 응용하는 것이 가능하다 보니 주요 대기업들 사이에서 독자적인 빅 데이터 응용 모델 만들기가 대유행 중이다. 유엔에서도 이와 관련하여 빅 데이터를 국제개발 및 사회발전에 활용하기 위해 BD4D(Big Data for Development)라는 개념도 만들었다. 대표적인 것이 유엔 글로벌 펄스(UN Global Pulse).

빅 데이터의 특징을 규모 (대용량), 다양성, 속도, 정확성, 가치로 보아 3V, 4V, 5V 등으로 표현하기도 한다. 3V 문서 참조.

대용량 데이터를 가지고 있으면 자료 관리 기술과 자료 분석 기술이 필요하다. 자료 관리 기술은 hadoop 등을 이용한다. 자료 분석 기술로는 통계학, 기계학습, 인공신경망, 데이터 마이닝 등을 이용한다.

편의상 줄여서 "빅데이터"라고도 부르기도 한다.

2.1. 한국

2015년 미국에서는 이미 380억 달러 (38조원) 규모의 시장이 형성되어 있다. 한국 시장의 150배다. 국내 시장은 데이터 수집 영역만 과포화되어 있으며, 그 대신 서비스 관리 플랫폼( SMP) 및 데이터 가공 영역, 데이터 통합 영역 등은 빈약하다.

그런데 문제는 국내 업계에서 별다른 성과 없이 빅 데이터 논의가 사그라드는 조짐이 보인다는 것이다. 이는 국내에서는 " CRM → 소프트웨어 시스템 구축 → 하둡 → 빅 데이터 → 사물인터넷 인공지능 & 딥러닝"같은 식으로 돌아가면서 구호만 반복하고 있기 때문이라는 분석도 있다. 즉 데이터 활용의 현황을 파악하고 통찰을 얻지 못하고 있기 때문에 시간 낭비만 하고 있다는 게 데이터 업계의 푸념이다. 이는 국내 데이터 시장이 여태까지 서비스 제공 측면에서 데이터를 바라본 이유가 크다. 온라인 서비스를 제공하는 데이터와 분석 측면에서 운용되는 데이터는 마땅히 구분되어야 함에도 불구하고 양쪽의 장점만 취하고자 분석데이터에 실시간성 데이터 반영을 요구하거나 사용자가 원하는 거대한 집계 데이터를 무조건 빠르게 제공하는데 초점을 두고 있어 정작 데이터가 마땅히 활용되어야 할 분야에서는 활용되지 못하고 있는 실정이다. 특히 한국에서는 거의 논의가 되지 않는 데이터 가공, 통합은 인공지능을 이루는 토대가 되는 분야임에도 불구하고, 결과물에만 주목해온 결과 데이터 업계를 지탱하는 엔지니어들은 점차 줄어들고 있는 실정이다.

국내 IT 사업자 중 삼성SDS는 '브라이틱스AI', SK C&C는 'AccuInsight+'라는 데이터 수집/분석/AI 모델링이 가능한 플랫폼을 출시하였으나, 국내 데이터 솔루션의 시장 점유 수준은 지켜보아야 할 일.

2020년 7월 정부는 한국판 뉴딜 정책을 발표 했는데, 10대 과제 중 디지털 뉴딜 분야의 하나가 '데이터 댐'이다. 데이터 댐 사업은 디지털 전환을 선도하기 위해 공공 데이터를 민간이 활용할 수 있게 하는 것이 골자다.

3. 관련 자격증

4. 빅 데이터 프로세싱 기술

파일:top-analytics-data-science-machine-learning-software-2015-2017.jpg

5. 개인정보 침해 우려

분명한 것은 필요에 따라 익명으로 활동하거나 남아 있을 자유의 박탈은 편리의 증대나 경제적 부가가치의 생산으로 보상될 수 있는 문제가 아니라는 것이다. 평소 잘 인식하지 못하지만, 익명으로 숨어 있을 권리는 프라이버시의 문제를 넘어 민주주의의 근간이기도 하다. 우리는 개인보다 집단으로 저항한다. 그리고 군중 속에서 훨씬 더 잘 저항한다. 따라서 개인정보를 기업의 이윤추구와 정보권력의 통제 욕망에 무방비로 맡기는 것은 현대 산업사회에서 인간의 실존을 뿌리부터 흔드는 재앙이다. 출처
몇 년 동안 대중을 몰래 감시해온 저희로서는 수많은 사람들이 자발적으로 자신의 거주지와 종교적 정치적 견해, 순서대로 정리한 친구 목록, 이메일 주소, 전화번호, 자신이 찍힌 수백 장의 사진, 현재 하고 있는 활동 정보를 공개하고 있다니 놀랍기 그지 없습니다. CIA로서는 꿈에 그리던 일이지요.
미국의 풍자언론 ' The Onion'에서 만들어낸 가상의 CIA 부국장인 크리스토퍼 사르틴스키가 한 발언. 어디까지나 풍자로 실존인물이 아니다.[5][6]

미국의 슈퍼마켓 체인점 타깃에 한 중년 남성이 찾아와 항의했다. 딸에게 배송된 광고물에 임신부를 대상으로 한 상품만이 추천상품으로 실려 있었기 때문이다. 결혼도 하지않은 딸에게 임신을 권유하는 것도 아니고 광고지가 왜 이러냐고 항의하는 남성에게 직원은 사과를 했다. 하지만 다음날 그 남성은 슈퍼에 전화를 걸어 직원에게 사과했다. 여고생 딸이 임신 중이었으나 아버지에게 비밀로 한 것. 빅 데이터는 아버지도 모르는 딸의 임신을 기업이 먼저 알게 해준 것이다. 이 일화는 뉴욕 타임스의 2012년 기사에서 소개되었는데, 이후 빅 데이터의 유용성과 위험성을 동시에 언급할 때 쓰는 예시 이야기 중 하나로 흔히 언급되고 있다. #

빅 데이터는 종종 조지 오웰의 빅 브라더와도 관련되어 언급되곤 하는데, 빅 데이터는 데이터베이스 관련 기술명이며 빅 브라더는 국가권력의 비합법적인 사회 감시체계를 말하는 것으로 서로 다른 개념이다.

빅 데이터를 이용해 사람들을 분석, 예상, 유도하는 기술은 나날히 발전하고 있다. 독재 정부의 손에 의해 국민을 통제하는 디스토피아에서 빅데이터는 효율적으로 사람을 감시하고 평가하고 유도해나가는 밑거름이 될 것이다. 지금도 "데이터 권력", "정보 권력" 이라 불리는 빅 데이터가 절대적 권력자의 손에 들어가고 국민의 정보를 지속적으로 얻는 순간 사실상 사회의 완벽한 통제가 가능해진다. "빅 데이터는 가장 유능한 게슈타포보다도 정보력이 좋다" 는 말이 데이터 전문가들 사이에 돌 정도다. 딱히 독재자가 아니어도 민간기업이나 선거유세 때 개인정보를 구매하는 것은 이제 드문 일이 아니다. 우리나라 선거 때도 문자가 날아오고, 영국회사가 페이스북을 통해 5000만 명의 개인정보를 얻는다. 이를 어떻게 이용할지는 정보를 가진 이들에게 온전히 맡겨져 있다.

데이터의 양이 지나치게 늘어난 사회에 살다 보니, 당연하게도 빅 데이터의 치명적 약점으로 사생활 침해개인정보 유출의 문제가 발생할 수 있다. Facebook/논란과 문제점에도 잘 적혀 있다. 게다가 사회가 감당하기 어려울 만큼 데이터가 폭증하고 있는데 이걸 관리할 전문인력이 없다는 것도 문제이다. 데이터를 분석하던 회사가 망해 버리면 그 데이터는 어디로 가느냐도 문제. 역으로 다른 곳으로 정보가 흘러들어가 개인을 상세히 분석가능한 정보를 사기업이나 조직이 확보하고 이용할 가능성도 있다. 이러다 보니 또 일각에서는 소위 "데이터 다이어트" 라는 것까지도 제안하고 있는 상태.

빅 데이터는 많은 데이터를 모으는 것이 우선적이고 이 때문에 많은 개인정보 사용 동의자들이 필요하다. 거대한 기업일수록 더 많은 개인정보를 얻을 수 있고, 이러한 데이터 격차는 줄어들지 않는다.즉 대기업과 선두주자가 압도적으로 유리하게 판이 만들어지는 것. '누가 어느 것을 좋아하니까 뭘 제공해야 한다는 것'은 온전히 개인정보에 기반하기에 그게 없는 후발주자들은 어떻게 할 수가 없다. 이는 데이터 독점에 가까운 형식이 되기 쉽다. 빅 데이터 규제 반대측이 데이터 우위로 인한 독점이 가속화된다고 할 정도로 이는 기업들에게 심각한 문제.

개인식별이 불가능(비식별화de-identification)한 개인정보를 수집하는 것에도 방심하면 안 된다. 여러 기업들에게서 얻은 성별, 나이, 국적, 선호하는 것들 등을 중심으로 특정인을 식별하는 것(재식별화re-identification)은 크게 어려운 일은 아니다. 특히 한국은 주민등록번호가 있기에 이런 조금 구멍난 정보들로 개인을 재구성하는 것에 무리가 없다는 지적을 받고 있다. 게다가 이미 유출된 개인정보가 엄청난 상황이니 기업들이 가진 개인정보가 아니어도 한사람의 상세한 개인정보를 짜맞추는 것은 쉬운 일이다.

CCTV 등 동의하지 않은 정보수집 장치를 통해 개인의 동선 등의 개인정보를 파악할 수도 있고 이에 대한 제약은 미진하다.

6. 기타

2017년 겨울부터 빅 데이터를 소재로 한 낚시가 유행하기 시작했다. 자세한 내용은 빅데이터 드립 문서로.

7. 관련 문서

8. 관련 기업



[1] 각 개인의 GPS를 통한 이동 경로, 방문한 사업장이나 외식 기록, 인터넷 검색 기록 등. [2] 조사방법론과 기초통계에 대한 지식, 데이터 분석법을 습득할 수는 있으나 사용되는 프로그램인 SPSS가 빅데이터에 적합한 프로그램은 아니다. [3] 민간자격증으로서 이 자격증 하나만으로 전문적으로 빅데이터를 다룰 수 있는 것은 아니나, 빅데이터 관련 스펙을 쌓는 데에는 도움이 된다. [4] 정확히는 머신러닝 처리 도구다. [5] 영어 위키백과의 CIA역대 부국장 명단에는 이사람의 이름이 없다. 풍자 언론에서 풍자하기 위해 등장한 가상의 인물이다. # [6] 심지어 이 발언은 훗날 EBS의 특집 다큐멘터리인 "위 약관에 동의합니다"에서도 인용되었다. #