일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 데이터 분석
- konlpy
- SQL
- numpy
- Udemy
- Tableau
- iNT
- Word Cloud
- Okt
- 태블로
- 크롤링
- pyspark
- 파이썬
- scikit-learn
- 시각화
- 머신러닝
- 데이터
- 인공지능
- input
- 데이터분석
- 형태소분석기
- selenium
- Python
- pandas
- ionehotencoding
Archives
- Today
- Total
목록pyspark (1)
반전공자

토마스 드라마브, 데니 리의 "PySpark 배우기"를 보고 배워나가는 과정을 기록한 글입니다 ♪ 데이터프레임 - 관계형 DB의 테이블에서 칼럼 이름으로 구성된 변경 불가능한 분산 데이터 컬렉션 - 분산된 데이터 컬렉션에 구조체를 씌움으로써 스파크 사용자는 스파크 SQL로 구조적 데이터를 쿼리하거나 람다 대신 표현함수 사용 가능 - 데이터를 구조적으로 바꾸면서 스파크 엔진의 스파크 쿼리 성능이 크게 향상! 파이썬에서의 RDD 커뮤니케이션 - 모든 RDD 트랜스포메이션은 최초에 파이썬 RDD 자바 객체로 매핑된다. - 작업들이 스파크 워커에 푸시됐을 떄, 파이썬 RDD 객체는 파이썬이 처리할 코드와 데이터를 보내기 위해 파이프로 파이썬 subprocess를 실행 - 정리하자면,,, PySpark 드라이버 ..
데이터분석/PySpark
2023. 3. 10. 23:41