오라클, ‘오라클 클라우드 데이터 사이언스 플랫폼’ 발표

협력 기반의 머신러닝 모델 개발과 교육, 관리 및 구축 등 지원

[디지털경제뉴스 박시현 기자] 오라클이 기업의 데이터 사이언스 활용을 지원하는 ‘오라클 클라우드 데이터 사이언스 플랫폼(Oracle Cloud Data Science Platform)’을 출시했다.

이 플랫폼의 핵심 솔루션은 ‘오라클 클라우드 인프라스트럭처 데이터 사이언스(Oracle Cloud Infrastructure Data Science)’이다. 이 솔루션은 데이터 사이언스들이 기업 내에서 협력 기반으로 머신러닝 모델 개발과 교육, 관리 및 구축 등을 할 수 있도록 해준다.

◆‘오라클 클라우드 인프라스트럭처 데이터 사이언스’가 핵심 솔루션 = 오라클 클라우드 인프라스트럭처 데이터 사이언스는 개별 데이터 과학자(Data Scientist)에 중점을 두는 다른 솔루션과는 달리 기업 내 공유 프로젝트와 모델 카탈로그, 팀 보안정책, 재현성 및 감사성(auditability) 등 데이터 사이언스 조직이 다루는 주요 기능에 집중하는 것이 특징이다.

또한 자동 머신러닝(AutoML) 알고리즘 선택과 튜닝, 모델 평가 및 모델 설명기능을 통해 최적의 데이터세트틀 자동으로 선택해준다.

기업은 비즈니스 혁신을 도모할 수 있는 거대한 양의 잠재적 데이터를 보유하고 있음에도 극히 그 일부만 이를 파악하거나 활용하고 있다. 이는 기업 내 데이터 사이언스 조직이 올바른 데이터에 접근해 머신러닝 모델을 효과적으로 개발하고 구축할 수 있는 도구가 없었기 때문으로 분석된다.

그 결과, 이러한 모델 개발에 장시간이 소요됨은 물론, 정확도와 안정성의 요건을 충족하지 못해 실제 업무 환경에까지 적용하지 못하는 경우가 대다수였다.

그렉 파블릭(Greg Pavlik) 오라클 데이터 및 AI서비스 제품 개발 부문 수석부사장은 “성공적인 데이터 사이언스 프로젝트 수행을 위해서는 효과적인 머신러닝 모델이 그 기반임에도, 다양하고 방대한 양의 데이터가 그 동안 기업들의 발목을 잡아왔다”라며, “이번 오라클 클라우드 인프라스트럭처 데이터 사이언스는 개별 데이터 과학자의 전체 업무를 자동화해 개인 생산성을 증대할 뿐만 아니라 관련 팀 간의 강력한 협력을 지원한다. 이를 통해 데이터 사이언스 프로젝트가 실질적으로 기업의 비즈니스 가치로 직결될 수 있도록 한다”라고 밝혔다.

◆데이터 사이언스 팀과 개별 데이터 과학자용으로 설계 = 오라클 클라우드 인프라스트럭처 데이터 사이언스는 데이터 사이언스 워크플로우 자동화와 시간 절약 및 오류 최소화 등의 효과를 구현한다.

▲AutoML 자동화 알고리즘 선택 및 튜닝: 복수 알고리즘 및 하이퍼파라미터 (hyperparameter) 구성을 위한 테스트 진행 프로세스를 자동화한다. 정확도 결과를 체크하고 사용을 위해 선택된 최적 모델과 구성을 확정한다.

데이터 과학자들의 작업 시간을 대폭 절감하고, 모든 데이터 과학자들이 가장 숙련된 실행전문가의 수준과 동일한 결과를 달성할 수 있도록 설계됐다.

▲자동화된 예측형 특징(predictive feature) 선택: 방대한 양의 데이터세트로부터 자동적으로 주요 예측형 특징들을 식별함으로써 데이터에 대한 도메인 지식을 활용해 특징을 만들어내는 과정을 단순화한다.

▲모델 평가: 새로운 데이터에 대해 모델이 얼마나 좋은 성능을 보일지 평가하기 위한 종합적인 평가 매트릭스와 시각화 기능들을 포함한다. 시간에 따라 실제 데이터 활용을 위해 가장 최적의 모델에 순위를 매기는 것 또한 가능하다. 모델 평가는 기초 성능을 넘어, 예측할 수 있는 기본 행동을 고려하고 비용 모델을 활용해 결과도출에 있어 거짓 양성(false positives)과 거짓 음성(false negatives)의 다양한 영향들이 서로 통합될 수 있도록 한다.

▲모델 설명: 오라클 클라우드 인프라스트럭처 데이터 사이언스에는 예측결과를 도출하는데 있어 상대적인 가중치와 관련 평가 요소들의 중요성을 설명해 주는 기능이 자동화돼 있다.

이는 머신러닝 모델 알고리즘 설명 기능이 상업적으로 적용된 최초의 사례다. 예를 들어 데이터 과학자가 탑재된 범죄 방지 모델을 활용하면 이러한 범죄를 유발하는 요인들에 대해 설명할 수 있게 된다. 이를 기반으로 필요한 비즈니스 과정을 수정해 나가거나 보호 장치 또한 적용할 수 있다.

◆데이터 과학자들의 협업으로 성공적인 머신러닝 모델 구축 가속화 = 효과적인 머신러닝 모델을 실제 생산 환경에 성공적으로 도입하기 위해서는 단순히 전담 요원들의 배치보다는, 함께 협업할 수 있는 팀 단위의 데이터 과학자들이 필요하다.

▲프로젝트 공유 기능: 사용자가 데이터 및 노트북 작업을 포함한 팀의 업무를 보다 안정적으로 구성 및 공유하고, 문서, 프로그램, 웹 페이지 등 특정 형태의 정보 집합이나 관련 변화를 기록하고 관리하는 버전 컨트롤(version control) 업무를 가능케 한다.

▲모델 카탈로그: 팀원들이 이미 설계된 모델들과 부산물로 생성된 여러 아티팩트들(artifacts)을 안정적으로 공유하고 이들을 수정 및 활용하도록 한다.

▲팀 기반의 보안 정책: 오라클 클라우드 인프라스트럭처 아이덴티티 및 엑세스 관리(Oracle Cloud Infrastructure Identity and Access Management) 솔루션과 완벽히 통합됨으로써 사용자가 모델, 코드 및 데이터에 접근하는 것을 보다 효과적으로 관리할 수 있다.

▲재생산성과 감사성: 기업이 관련한 모든 자산을 추적해 팀원들의 부재 시에도 모든 머신러닝 모델들이 재생산되고 심사될 수 있도록 한다.

기업들은 오라클 클라우드 인프라스트럭처 데이터 사이언스 솔루션을 통해 성공적인 머신러닝 모델 구축을 가속화하고, 긍정적인 비즈니스 결과를 도출하기 위한 예측 분석성능과 대기업 수준의 결과를 창출할 수 있다.

◆종합적인 데이터 및 머신러닝 서비스 = 오라클 클라우드 데이터 사이언스 플랫폼은 모두 7가지의 새로운 서비스로 구성돼 있다. 데이터 과학에 기반한 결과도출을 가속화하고 개선하도록 설계된 이 플랫폼은 전 방위적인 경험 제공을 목표로 한다.

▲오라클 클라우드 인프라스트럭처 데이터 사이언스: 사용자가 파이썬(Python)을 포함해 텐서플로(TensorFlow), 케라스(Keras), 주피터(Jupyter)와 같은 다양한 오픈소스 도구들을 활용해 오라클 클라우드 상에서 새로운 머신러닝 모델을 설계, 훈련 및 관리하도록 돕는다.

▲오라클 자율운영 데이터베이스 상에서의 강력하고 새로운 머신러닝 역량: 사용자는 파이썬과 자동화된 머신러닝 기능에 대한 새로운 지원과 함께 오라클 자율운영 데이터베이스와 통합된 머신러닝 알고리즘을 활용할 수 있다.

오라클 클라우드 인프라스트럭처 데이터 사이언스와의 향후 통합은 데이터 과학자들이 여러 오픈소스와 데이터베이스 내 확장 가능한 알고리즘을 모두 사용해 머신러닝 모델을 개발할 수 있도록 지원한다.

특히 오라클 데이터베이스 상에서 알고리즘을 데이터와 접목함으로써 데이터세트를 준비하고 이동하는데 소모되는 시간을 단축해 더욱 빨리 결과를 도출할 수 있도록 한다.

▲오라클 클라우드 인프라스트럭처 데이터 카탈로그: 오라클 클라우드 상에서 데이터를 발견하고 구성하며, 활용하고 추적할 수 있다. 비즈니스 용어집 또한 내장돼 있어 활용목적에 맞는 신뢰 가능한 데이터를 발견하고 그룹화 및 조직화하며 이를 공유하도록 지원하는 데이터 큐레이션 과정을 지원한다.

▲오라클 빅데이터 서비스: 다른 하둡 기능들보다 훨씬 간소화된 방법으로 관리할 수 있는 클라우데라 하둡(Cloudera Hadoop) 기능 또한 제공한다.

한 번의 클릭만으로도 하둡 클러스터가 지속적으로 운영될 수 있도록 할 뿐만 아니라 보안 기능도 실행할 수 있다. 또한 스파크(Spark)를 위한 머신러닝 기능도 포함하고 있어 기업이 하나의 제품과 최소한의 데이터 이동으로도 메모리 상에서 해당 기능을 사용할 수 있도록 한다.

▲오라클 클라우드 SQL: HDFS, Hive, Kafka, NoSQL, 오브젝트 스토리지 상에서 SQL 쿼리를 제공한다.

오라클 클라우드 SQL은 사용자와 애플리케이션, 분석 도구가 오라클 데이터베이스와 다른 데이터 스토어에 있는 데이터간의 업무를 손쉽게 처리할 수 있도록 하는 프로그래밍 언어다. 푸시 다운, 스케일 아웃(push-down, scale-out: 기존의 데이터를 밀어내고 새로운 데이터를 유입해 확장하는 방식) 프로세스를 통해 데이터 이동을 최소화하는 혜택 또한 누릴 수 있다.

▲오라클 클라우드 인프라스트럭처 데이터 플로우: 완전 관리형 빅데이터 서비스로, 사용자가 특정 인프라스트럭처를 구축하거나 관리하지 않고도 아파치 스파크(Apache Spark)를 실행할 수 있도록 한다.

이를 통해 기업들은 빅데이터와 AI 관련 애플리케이션을 더욱 빨리 제공할 수 있다. 하둡이나 다른 스파크 서비스들과 경쟁하는 것과 달리, 단일 윈도우에서 모든 스파크 관련 업무 경로를 모니터링함으로써 비용이 많이 들어가는 업무 식별과 문제 해결을 더욱 쉽게 할 수 있도록 지원한다.

▲데이터 사이언스를 위한 오라클 클라우드 인프라스트럭처 가상머신: 하루에 30달러 금액만으로 IDEs, 노트북 및 프레임워크가 15분 내 가동될 수 있는 사전 구성된 GPU 기반의 환경을 제공한다.

◆성공사례: 애그로스카우트, 아이덴TV = 애그로스카우트(AgroScout)는 초기 단계의 농작물 질병 감지와 이를 통한 작물 재배 개선, 살충제 사용의 축소로 수익 창출의 증대에 집중하고 있다.

애그로스카우트의 창업자이자 CEO인 심차 쇼어(Simcha Shore)는 “우리의 비전은 전 세계 인력의 30%를 차지하는 5억개 농장에서 일하는 10억 명 이상의 농부들이 현대의 농업경영을 더욱 경제적으로 접근하도록 돕는 것이다. 이를 위해 농부들이 저비용의 드론과 핸드폰 및 수작업 등으로 보내오는 정보(input)를 토대로, 클라우드와 AI 기반의 지속가능한 농업경영 방식을 수행해 나가고자 한다”라고 밝혔다.

그는 이어 “유입되는 데이터와 회사의 자체적인 AI 기반의 솔루션을 통해 정확성과 결정을 내리는데 적합한 규모로 데이터를 변환하는 것이 이러한 비전 실행에 핵심이다”라며 “속도, 스케일, 민첩성 등의 요소를 보유한 오라클 클라우드는 이러한 꿈을 실현하도록 도와줬다. 오라클 클라우드 인프라스트럭처 데이터 사이언스 도입 후 비용 절감과 비즈니스 효율성을 높이고, 보다 빨리 전 세계 시장에서 입지를 늘려갈 수 있었다”고 밝혔다.

또 다른 고객사인 아이덴TV(IDenTV)는 컴퓨터 비전과 자동화된 음성 인식, 텍스트 시맨틱 분류에 의한 AI 기반의 고급 영상 분석 서비스를 제공하는 기업이다.

아이덴TV의 창업자이자 COO인 암로 쉬하다(Amro Shihadah)는 “오라클 클라우드 인프라스트럭처 데이터 사이언스를 통해 데이터 사이언스 관련 노력들을 더욱 확장하고, 이전에 경험할 수 없었던 비즈니스 가치를 더욱 빨리 제공할 수 있게 됐다”고 말했다.

그의 설명에 따르면 아이덴TV의 데이터 사이언스 팀은 복잡한 데이터의 위치나 접근성 메커니즘에 대해 걱정하지 않고도 보다 완벽하게 데이터에 접근할 수 있다.

또한 텐서플로우, 케라스, 주피터 노트북 등 다양한 오픈소스 역량을 활용하면서 머신러닝 모델 트레이닝과 도입 관련 업무들을 간소화할 수 있어 엄청난 양의 비용절감은 물론, 빠르게 결과를 도출할 수 있는 환경을 갖추게 됐다.

박시현 기자 다른기사 보기