목록Database/Data Engineering (18)
eunzae's develog
Orange에서 Oracle DB를 연결하기 위한 순서는 다음과 같다. 1. Oracle Instant Client 설치 https://www.oracle.com/database/technologies/instant-client/downloads.html - Basic, SQL*PLUS 두 가지 설치 후 한 폴더로 합치기 - 32bit로 설치해야 함(안 그러면 오류남) - instantclient_21_11 C드라이브에 이동(경로에 한글명이 없도록) 2. 환경변수 설정(경로가 'C:\instantclient_21_11'라는 가정 하에) ORACLE_HOME = C:\instantclient_21_11 TNS_ADMIN = C:\instantclient_21_11 NLS_LANG = KOREAN_KOREA..
- DB(Aginity)에서 테이블 삭제 및 생성 1) 테이블명 오른쪽마우스 - script - DDL to new query window 2) 설정한 데이터베이스 확인 3) 생성할 Table명으로 DDL create script 수정 4) 전체 실행 - Datastage(컬럼 추가 없을 시) 1) JOB 사본 작성 2) 쿼리 수정 3) Target Table명 수정 4) 컴파일 및 실행 - Datastage(컬럼 추가 있을 시) 1) JOB 사본 작성 2) SRC단계 ETL 쿼리 수정 3) TF 단계(OUT과 IN의 중간 단계)클릭하여 추가된 컬럼에 해당하는 OUT행, IN행 추가해주고 열 자동일치 버튼 클릭 4) TGT단계 Target Table명 수정 5) 컴파일 및 실행
1. Administrator Client 접속 2. 프로젝트 선택 - 특성 - 일반 - 환경 3. 병렬 - 사용자 정의 에서 이름, 유형, 프롬프트, 값 설정 파라미터 사용할 때 #$파라미터명# id, pw 같은 커넥터를 파라미터로 연결할 때에는 데이터스테이지 디자이너에서 파라미터 세트 설정해야 함

AWS의 관계형 데이터베이스 서비스(RDBMS): 그 외 비관계형데이터베이스 - 대용량쓰기 처리가 가능한 NoSQL을 위한 다이나모DB, Document DB, Key Space DB - 캐시기반인 REDIS, 시계열DB 등 그 중 AWS의 전통적인 RDBMS(관계형 데이터베이스 서비스) RDS DB를 프리티어로 생성 후 Mysql workbench를 통해 연결을 해보겠습니다. 1. AWS 접속 후 RDS 서비스에 접속해줍니다. 2. RDS 서비스에 접속이 되었다면, 데이터 베이스 생성을 진행합니다. 리전이 서울로 설정되어 있는지도 함께 확인 해주세요. 3. 엔진 유형: MySQL을 선택해줍니다. 4. DB 인스턴스 식별자, 마스터사용자 이름, 마스터 암호를 설정합니다. 5. 퍼블릭 액세스를 허용하고, ..

1. IAM으로 Admin 계정을 부여해준 후, S3 리스트를 확인해보니 파일이 없음. 2. 버킷 생성(S3에 이미 존재하는 버킷이름으로 생성했을 시 오류남) export bucketname=eunjae-fd-dataclass # bucketname 변수에 생성할 버킷 이름 넣어주기 aws s3 mb s3://$bucketname --region ap-northeast-2 # 서울지역 버킷 생성 3. AWS S3 관리 페이지 접속하여 생성 확인

AWS EC2 Admin 권한 부여를 해보자. 1. 검색에서 'IAM' 검색 후 접속 2. 좌측 메뉴에서 액세스관리 - 역할, 역할 만들기 클릭 3. 다음 클릭 4. AdministratorAccess 체크 5. 태그 추가 6. 역할 이름 설정 후 역할 만들기 클릭 7. 역할 확인 8. ECS 인스턴스 페이지 접속, 작업 - 보안 - IAM 역할 수정 9. 아까 등록해준 EC2Admin 설정 10. EC2 접속 후 Admin만 할 수 있는 명령어로 확인 aws s3 ls 11. 오류메시지가 나오지 않는다면 설정 완료.
https://tech.socarcorp.kr/data/2021/12/28/data-engineering-team-onboarding.html 쏘카 신입 데이터 엔지니어 디니의 4개월 회고 안녕하세요! 쏘카 데이터 엔지니어링 팀의 디니입니다. 저는 2021년 8월에 쏘카 데이터 엔지니어링 팀에 신입 데이터 엔지니어로 입사했습니다. 지난 4개월간 데이터 엔지니어링 팀에서 경험하며 tech.socarcorp.kr

웹 서버의 액세스 로그로 데이터셋을 만들어보았다. 1. 웹 서버 액세스 로그 파일 다운로드 회사의 웹 서버 액세스 로그는 보안 상 사용할 수 없어서... 구글링으로 예제 데이터를 구했다. 예제데이터: https://www.kaggle.com/eliasdabbas/web-server-access-logs Web Server Access Logs A sample of web server logs file www.kaggle.com 2. 코드 작성 import pandas as pd import re # 로그를 읽어와서 각 행에 매치하도록 정규식 작성 pattern = re.compile('(^\S+) - - \[(.*)] "(\S+ \S+) \S+" (\S+) (\S+)') # 데이터 예시: 4.36.149..

데이터 파이프라인 구축을 해보기 위해서 EC2 프리티어를 생성했다. EC2란? Amazon ec2(Amazon Elastic Compute Cloud) 인스턴스: 가상 컴퓨팅 환경 Amazon 머신 이미지(AMI): 서버에 필요한 운영체제와 여러 소프트웨어들이 적절히 구성된 상태로 제공되는 템플릿으로 인스턴스를 쉽게 만들 수 있습니다. 인스턴스 유형: 인스턴스를 위한 CPU, 메모리, 스토리지, 네트워킹 용량의 여러 가지 구성 제공 키 페어를 사용하여 인스턴스 로그인 정보 보호(AWS는 퍼블릭 키를 저장하고 사용자는 개인 키를 안전한 장소에 보관하는 방식) 인스턴스 스토어 볼륨: 임시 데이터를 저장하는 스토리지 볼륨으로 인스턴스 중단, 최대 절전 모드로 전환 또는 종료 시 삭제됨 Amazon Elasti..