일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 갈비스테이크
- 웹스크랩
- 강남데이트
- to_json
- 강남 녘
- 코딩생활
- iloc
- webscrap
- pandas
- pivot_table
- kafka설치
- select_related()
- read_excel
- Join
- find_all()
- findall()
- keras
- read_table
- groupby
- TensorFlow
- to_html
- select_one()
- 녘
- read_fwf
- read_csv
- to_csv
- find()
- topic생성
- DataFrame
- to_excel
- Today
- Total
목록프로그래밍 (8)
자드's
Hadoop 데이터 엔지니어를 위해 첫 발을 디뎌본다 Hadoop - 여러대의 컴퓨터 클러스터에서 대용량 데이터를 분산처리하는 프레임워크 HDFS(분산 파일 시스템) = 여러개의 컴퓨터를 하나로 묶어 대용량 데이터를 처리 Map Reduce = 저장된 분산파일을 분산된 서버의 CPU와 메모리를 사용해 분석 Zoo Keeper = 하둡의 서브프로젝트를 관리하는 것 ( 분산 서버 관리자 ) 등으로 구성 되어있음. 분산 리소스 관리 Yarn - 맵리듀스, 하이브, 스파크 등 Yarn에서 작업 실행 데이터수집 kafka ( 실시간 데이터 스트리밍 ) : 데이터 실시간 관리 분산 시스템, 대용량 이벤트 처리 데이터 저장 HBase ( 분산 데이터 베이스 ) : 구글의 Bigtable 기반 비관계형DB, 하둡과 H..
Beautiful Soup 데이터 분석을 하기 위해서 데이터들을 수집해야한다 웹이라는 정보의 바다에서 궁금한 데이터가 있어 분석을 하고싶다면 먼저 데이터를 불러오는 것이 우선 업무이다 데이터들을 불러오는 데에 사용하는 것이 Beautiful Soup이다. 알아보도록 하자 Beautiful Soup 을 이용한 웹스크랩의 기본 먼저 Beautiful Soup 라이브러리를 사용하기 전에 설치가 필요하다 아나콘다 설치가 되어있기 때문에 따로 설치하지 않았지만 만약, 설치가 되어있지 않다면 pip install beautifulsoup4, pip install requests 를 입력해 설치 해주도록 하자 먼저 이용 전에 각각의 방법의 장단점을 살펴보자 스크랩을 원하는 페이지의 소스를 받아오면 처음엔 String..
개요 구글이 2011년에 개발을 시작하여 2015년에 오픈 소스로 공개한 기계학습 라이브러리. 딥러닝과 기계학습 분야를 일반인들도 사용하기 쉽도록 다양한 기능들을 제공한다. 출처 : 나무위키 다양한 Deep Learning Framework가 있지만 TensorFlow 기반으로 Keras 라이브러리를 사용해서 딥러닝 설계를 하는 것을 목표로 하고있다. 역시 아나콘다가 설치되어있다는 기준으로 설치방법을 설명하겠음. 설치 방법 텐서플로 2의 등장으로 설치방법이 간결해졌다. CPU와 GPU를 따로 설치해야했던 1버전과 다르게 pip install tensorflow 만으로 둘 다 설치가 된다. Anaconda 프롬프트에서 설치를 시작하자. 지원 사양 설치에 앞서, Window용 TensorFlow는 비주얼 스..
DataFrame : File input / output 작성한 DataFrame을 파일로 저장하거나 작성된 파일을 불러와서 DataFrame으로 저장하는 일은 데이터 분석에서 필수 업무 중의 하나이다 오늘은 몇몇 형태의 파일을 불러오거나 저장하는 방법을 알아보자 CSV(.csv)파일 불러오기 : read_csv( ) pandas.read_csv( ' 경로 ' ) 형식으로 사용이 가능하다 편의상 pandas를 pd로 축약해서 쓰고있다 import pandas as pd from pandas.tests.frame.methods.test_sort_values import ascending df = pd.read_csv("../testdata/ex1.csv") print(df,type(df)) print() ..