당신이 밖으로 시작할 때, 당신은 아마 파이썬 또는 스칼라와 스파크를 사용하는 것에 대해 많이 읽을 수 있습니다. 포럼에 그것에 대 한 몇 가지 토론 이 있다. 이러한 예제는 Spark API에 대한 간략한 개요를 제공합니다. Spark는 임의의 Java 또는 Python 개체를 포함하는 분산 데이터 집합의 개념을 기반으로 합니다. 외부 데이터에서 데이터 집합을 만든 다음 병렬 작업을 적용합니다. 스파크 API의 구성 블록은 RDD API입니다. RDD API에는 이전 데이터 집합을 기반으로 새 데이터 집합을 정의하는 변환과 클러스터에서 실행하는 작업을 시작하는 작업의 두 가지 유형이 있습니다. Spark의 RDD API 외에도 데이터프레임 API 및 머신 러닝 API와 같은 고급 API가 제공됩니다. 이러한 고급 API는 특정 데이터 작업을 수행하는 간결한 방법을 제공합니다. 이 페이지에서는 RDD API를 사용하는 예제와 높은 수준의 API를 사용하는 예제를 보여 드리겠습니다. 그런 다음 “다운로드” 폴더에 표시되는 디렉터리를 언타닝해야 합니다.

다음으로, tartarred되지 않은 폴더를 /usr/local/spark로 이동합니다. 거대한 커뮤니티 지원: 파이썬은 수천 개의 가상 및 물리적 위치에서 온라인및 오프라인으로 상호 작용하는 수백만 명의 개발자와 함께 글로벌 커뮤니티를 보유하고 있습니다. 클러스터 페이지에는 스파크 클러스터에 대한 자세한 정보가 제공됩니다 . 스파크 SQL을 사용하여 기존 Hive 설치에서 데이터를 읽을 수도 있습니다. Python과 같은 프로그래밍 언어 내에서 SQL을 실행하면 결과가 DataFrame으로 반환됩니다. JDBC/ODBC를 사용하여 SQL 인터페이스와 상호 작용할 수도 있습니다. 이 두 가지 예는 아래 자습서에서 다룹니다. 이 변환 작업은 데이터 집합에서 일부 요소를 제거하려는 경우에 사용할 수 있습니다.

이러한 요소를 stop_words라고 합니다. 우리는 stop_words의 우리 자신의 집합을 정의합니다. 예를 들어 데이터베이스에서 일부 요소를 제거합니다. 스크린샷을 참조하여 방법을 확인할 수 있습니다. 이 예제에서는 레이블 및 특징 벡터의 데이터 집합을 수행합니다. 로지스틱 회귀 알고리즘을 사용하여 피처 벡터에서 레이블을 예측하는 방법을 배웁니다. 파이썬과 스칼라 중 하나를 선택한 후, 아파치 스파크와 함께 그 중 하나를 사용하려는 경우, 다음 단계는 설치입니다. PySpark의 설치 및 구성부터 살펴보겠습니다. 정적으로 입력 된 스파크 데이터 세트에는 파이썬에 많은 장소가 없습니다. 이에 대한 자세한 내용은 나중에 확인할 수 있습니다. 병렬 처리는 데이터를 여러 병렬 파티션으로 나누어 작업이 수행되는 모든 분산 시스템의 주요 기능입니다.