[SAA] Advanced Storage on AWS

SMALL

1. AWS Snow family

  • 보안성이 뛰어난 휴대 가능한 장치들로, 엣지에서 데이터를 수집하고 처리하거나 AWS 안팎으로 데이터를 마이그레이션 할 수 잇는 솔루션

  • 오프라인 장치를 사용하여 데이터 마이그레이션 수행, 네트워크를 통한 데이터 전송이 일주일이 넘게 걸린다면 Snowball 장치를 추가해야 함

  • 데이터 마이그레이션: SnowCone, Snowball Edge, snowmobile

  • 엣지 컴퓨팅: Snowcone, Snowball Edge

  • 네트워크를 통한 데이터 전송의 문제점

    • 시간이 오래 걸림
    • 제한된 연결성
    • 제한된 대역폭
    • 높은 네트워크 비용
    • 대역폭 공유 문제(라인을 최대로 활용할 수 없음)
    • 연결의 안정성
  • Data Migrations

    • Snowball Edge (for data transfers)

      • 물리적 데이터 이동 솔루션(TB 또는 PB 단위의 데이터를 AWS 안팎으로 전송)
      • 네트워크를 통한 데이터 이동 대안(네트워크 비용 청구)
      • 데이터 전송 작업별로 비용 청구
      • 블록 스토리지 및 Amazon S3 호환 객체 스토리지 제공
      • Snowball edge Storage Optimized: 블록 볼륨응로 사용할 수 있도록 80 TB HDD 용량을 제공하거나 S3 호환 객체 스토리지 제공
      • Snowball Edge Compute Optimized: 블록 볼륨으로 사용할 수 있도록 42 TB HDD 또는 28TB NVMe 용량을 제공하거나 S3 호환 객체 스토리지 제공
      • 사용사례: 대용량 클라우드 마이그레이션, 데이터 센서 폐쇄, 재해 복구
      • AWS Snowcone & Snowcone SSD
      • 작고 휴댇가능한 컴퓨팅 장치로 어디에서나 사용 가능하며 견고하고 안전하며 가확한 환경에 견딜 수 있음
      • 가벼움(4.5 파운드, 2.1kg)
      • 엣지 컴퓨팅, 스토리지 및 덷이터 전송용 장치
      • snowcone: 8TB HDD 스토리지
      • snowcone ssd: 14 TB SSD 스토리지
      • snowball 사용이 적합하지 않은 공간 제한 환경에서 snowcone 사용
      • 배터리, 케이블은 직접 준비
      • aws 오프라인으로 다시 전송하거나 네트워크에 연결해서 AWS DataSync를 사용하여 데이터 재전송
    • AWS Snowmobile

      • 엑사바이트(1EB = 1,000PB = 1,000,000TB)의 데이터 전송

      • 각 Snowmobile은 100PB의 용량을 가지고 있으며 병렬로 여러대 사용 가능, 대량의 데이터 전송에 적합

      • 온도 조절이 가능하며 GPS와 연중무휴 영상 감시 등 고급 보안 시설을 제공

      • 10PB 이상의 데이터를 전송해야 할 경우 Snowball보다 우수한 성능을 제공

        Snowcone & Snowcone SSD Snowball Edge storage Optimized Snowmobile
        Storage Capacity 8TB HDD 14TB SSD 80TB usable < 100 PB
        Migration Size Up to 24TB, online & offline Up to petabytes, offlinee Up to exabytes, offline
        DataSync agent pre-installed
        Storage Clustering Up to 15 nodes
      • Snow Family - Usage Process

          1. AWS 콘솔에서 Snowball 장치의 배송 요청
          1. 서버에 Snowball Client 또는 AWS OpsHub 설치
          1. Snowball을 서버에 연결하고 클라이언트를 사용하여 파일 복사
          1. 작업 완료 후 장치를 반송 (올바른 AWS 시설로 이동0
          1. 데이터는 S3 버킷에 롣드
          1. Snowball은 완전히 삭제도딤
  • Edge Computing

    • 데이터가 엣지 로케이션에서 생성ㄷ될 때 데이터를 처리하는 컴퓨팅 패러다임
      • 엣지 로케이션은 인터넷이 없는 곳이나 클라우드에서 멀리 있는 곳 어디든 해당될 수 있음. ex) 도로에 있는 트럭, 해상의 배, 지하의 채광소 등
      • 이러한 장소는 인터넷 접속이 제한적이거나 전혀 없을 수 있으며, 컴퓨팅 자원에 쉽게 액세스 할 수 없는 경우가 많음
    • 이를 해결하기 위해 Snowball Edge나 Snowcore과 같은 장치를 사용하여 엣지 컴퓨팅을 수행
    • 사례: 데이터 전처리, 클라우드로 보내지 않고 엣지에서 머신 러닝 하는 경우, 사전 미디어 스트림 트랜스 코딩 등
    • 필요한 경우 장치를 AWS로 다시 전송하여 데이터 전송 등의 작업을 할 수 있음
    • Snow Family - Edge Computing
      • Snowcone & Snowcone SSD(smaller)
        • 2개의 CPU, 4GB의 메모리, 유선 혹은 무선 액세스
        • USB-C 전원을 사용하여 전원 공급 또는 선택적 배터리 사용 가능
      • Snowball Edge - Compute Optimized
        • 104개의 가상 CPU, 416 GiB의 RAM
        • 선택적 GPU (비디오 처리 또는 머신러닝에 유용)
        • 28TB NVMe 또는 42TB HDD의 사용 가능한 스토리지
      • Snowball Edge - Storage Optimized
        • 최대 40개의 vCPU, 80GB의 RAM, 80TB의 스토리지
        • 객체 스토리지 클러스트링 가능
        • All : EC2 인스턴스 및 AWS Lambda 함수 실행 가능 (AWS IoT Greengrass 사용)
        • 장기 배포 옵션: 1년 및 3년 할인된 가격 설정
  • AWS OpsHub

    • 예전에는 Snow 제품군을 사용하기 위하여 cli (명령줄 인터페이스 도구)를 사용해야 했으며, 방식또한 어려웟음
    • 현재는 AWS OpsHub(컴퓨터 또는 노트북에 설치하는 소프트웨어)을 사용하여 Snow 장치를 관리할 수 있음
    • 단일 장치 또는 클러스터 장치의 잠금 해제 및 구성
    • 파일 전송
    • Snow 장치에서 실행되는 인스턴스의 시작 및 관리
    • 장치 매트릭(저장 용량, 장치에서 활성화된 인스턴스 등) 모니터링
    • AWS 호환 서비스 실행 가능(ex: Amazon EC2 Instance, AWS DataSync, Network. File System(NFS))
  • Solution Architecturee: Snowball into Glacier

    • Snowball을 통해 데이터를 직접적으로 Glacier에 가져올 수는 없음, Amazon S3를 사용하여 수명주기 정책을 생성하여 Amazon Clacier로 객체를 전환할 수 있음
    • Snowball이 Amazon S3로 데이터를 가져오면 S3의 수명주기 정책을 통해 해당 데이터가 Amazon Glacier로 전환됨

2. Amazon FSx

  • 타사 고성능 파일 시스템을 실행
  • AWS에서 제공하는 완전 관리형 서비스
    • RDS에서 AWS에 MySQL이나 Postgres를 실행하는 것곽 같은 개념, RDS -> FSx, 파일 시스템을 실행한다는 점이 다름
  • 종류
    • Amazon FSX for Windows (File Server)
      • FSx for Windows는 완전 관리형 Windows 파일 시스템 공유 드라이브
      • SMB 프로토콜과 Windows NTFS를 지원
      • Microsoft Active Directory 통합을 지원하므로, ACL(Access Control List)로 사용자 할당량을 추가하여 액세스 제어 가능
      • Linux EC2 Instance에 마운트 가능
      • Microsoft의 분산 파일 시스템(Distributed File System, DFS) 네임스페이스를 지원(파일 시스템 그룹화)
      • Scale up to 10s of GB/s, millions of IOPS, 100s PB of data
      • storage options
        • SSD: 지연시간이 짧아야 하는 워크로드(데이터베이스, 미디어 처리, 데이터 분석 등)
        • HDD: 넓은 스펙트럼의 워크로드(홈 디렉토리, 콘텐츠 관리 시스템 등)
      • 온프레미스 인프라(VPN 또는 Direct Connect)에서도 액세스 가능
      • 고가용성을 위해 다중 AZ로 구성 가능
      • 데이터는 매일 S3로 백업됨
    • Amazon FSx for Lustre
      • Lustre는 원래 대규모 컴퓨팅을 위한 분산파일 시스템으로 쓰여짐
      • Lustre 는 "Linux" + "Cluster"
      • 머신 러닝, High Performance Computing(HPC), 고성능 연산에 쓰임
      • 동영상 처리, 금융 모델링, 전자 설계 자동화 등 다양한 분야에서 사용
      • Scales up to 100s GB/s, milions of IOPS, sub-ms latencies
      • storage options
        • SSD: 낮은 지연시간 및 IOPS 집약적인 워크로드
        • HDD: 처리량 집약적인 워크로드, 크고 순차적인 파일 작업에 적합
      • Amazon S3와 원활한 통합을 제공(Seamless integration with S3)
        • FSx를 통해 S3를 파일 시스템처럼 "읽을 수" 잇음
        • FSx의 연산 출력값을 다시 S3로 기록할 수 있음
      • VPN 혹은 직접 연결을 통해 온프레미스 서버에서 사용 가능
      • File System Deployment Options
        • Scratch File System
          • 임시 스토리지
          • 데이터가 복제되지 않음(기저 서버가 오작동하면 파일이 모두 유실됨)
          • 높은 버스트(6배 더 빠름, TiB당 200MBps)
          • 용도: 단기 처리 데이터, 비용 최적화
        • Persistent File System
          • 장기 스토리지
          • 데이터가 같은 가용 영역 내에 복제(AZ간이 아닌 동일한 AZ내에서만 복제)
          • 기저 서버가 오작동 했을 때 몇 분 내에 해당 파일을 교체할 수 있음
          • 용도: 장기 처리, 민감한 데이터
    • Amazon FSx for NetAPP ONTAP
      • AWS의 관리형 NetApp ONTAB 파일 시스템
      • NFS, SMB, iSCSI 프로토콜과 호환
      • ONTAP이나 NAS에서 실행중인 워크로드를 AWS로 이전 가능
      • 다양한 운영체제에서 사용 가능(Linux, Windows, MacOS, VMware Cloud on AWS, Amazon Workspaces & AppStream2.0, Amazon EC2, ECS and. EKS)
      • 스토리지는 자동으로 확장 및 축소됨(Auto Scailing)
      • 스냅샷, 복제, 데이터 압축및 데이터 중복 제거 기능 지원
      • 비용이 적게 듦
      • 지정 시간 복제 기능을 통한 즉각적인 복제(새로운 워크로드 테스트에 유용)
    • Amazon FSx for OpenZFS
      • AWS의 관리형 OpenZFS 파일 시스템
      • 여러 버전의 NFS 프로토콜과 호환 가능(v3, v4, v4.1, v4.2)
      • ZFS에서 실행되는 워크로드를 내부적으로 AWS로 옮길 때 사용
      • 다양한 운영체제에서 사용 가능(Linux, Windows, MacOS, VMware Cloud on AWS, Amazon Workspaces & AppStream2.0, Amazon EC2, ECS and. EKS)
      • < 0.5ms 지연 시간으로 최대 1,000,000 IOPS 가능
      • 스냅샷, 데이터 압축 지원
      • 비용이 적게 들지만 데이터 중복 제거 기능은 없음
      • 지정 시간 복제 기능을 통한 즉각적인 복제(새로운 워크로드 테스트에 유용)

3. AWS Storage Gateway

  • AWS는 "Hybrid Cloud"를 권장하는데 이는 일부 인프라는 AWS 클라우드에 있고 나머지는 온프레미스에 두는 방식을 뜻함. 여러 이유가 있을 수 있는데, 클라우드 마이그레이션이 오래 걸리거나 보안 또는 규정 준수 요건이 있거나 IT전략 때문일 것이다.
  • S3는 EFS/NFS와 달리 독점 스토리지가 기술이다. 그렇다면 이 S3 데이터를 온프레미스에 두려면 어떻게 해야할까? 바로 AWS Storage Gateway를 사용하여 S3와 온프레미스 인프라를 연결하면 된다.
  • AWS Storage Gateway
    • 온프레미스 데이터와 클라우드 데이터 간의 연결을 제공
    • 사례: 재해 복구, 백업 및 복원, 계층화된 스토리지, 온프레미스 캐시 및 파일 액세스 지연 시간 감소
    • 유형
      • S3 File Gateway
        • NFS 및 SMB 프로토콜을 사용하여 구성된 S3 버킷에 액세스 할 수 있음
        • 최근에 사용된 데이터는 파일 게이트웨이에 캐시로 저장됨
          • 전체 S3 버킷이 아닌 최근에 사용한 파일만 파일 게이트 웨이에 있음
        • S3 Standard, S3 Standard IA, S3 One Zone A, S3 Intelligent Tiering 지원
        • 각 파일 게이트웨이에 대한 IAM Role을 사용하여 버킷 액세스 설정
        • SMB 프로토콜을 사용하는 경우에는 사용자 인증을 위해 Active Directory(AD)와 통일해야 함
      • FSx File Gateway
        • Amazon FSx for Windows 파일 서버에 대한 네이티브 액세스 제공
        • 자주 액세스하는 데이터를 위한 로컬 캐시
        • 파일 게이트웨이에서 Windows 네이티브인 SMB, NTFS, Active Directory등 호환 가능
        • 그룹 파일 공유 및 온프레미스를 연결할 홈 디렉토리에 유용
      • Volume Gateway
        • iSCSI 프로토콜을 사용하여 S3를 백업으로 하는 블록 스토리지
        • 온프레미스 볼륨 복원에 도움이 되는 ESB 스냅샷을 지원
        • Cached Volumes: 최근 데이터 액세스 시 지연 시간이 낮음
        • Stored Volumes: 전체 데이터 셋이 온프레미스에 있으며 주기적으로 S3 백업
      • Tape Gateway
        • 일부 회사들은 물리적 테이프를 사용한 백업 프로세스를 가지고 있음
        • Tape Gateway를 사용하면 회사들은 테이프 대신 클라우드를 활용해 데이터를 백업할 수 있게 된다.
        • Amazon S3 및 Glacier를 백업으로 하는 가상 테이프 라이브러리(Virtual Tape Library, VTL)
        • 테이프 기반 프로세스의 기존 백업 데이터를 iSCSI 인터페이스를 사용하여 백업
        • 업계를 선도하는 백업 소프트웨어 밴더가 사용하는 서비스
      • Storage Gateway - Hardware appliance
        • Storage Gateway를 사용하려면 온프레미스 가상화가 필요
        • 온프레미스에 서버가 없는 경우, Storage Gateway 하드웨어 어플라이언스를 사용할 수 있음
        • amazon.com 에서 구매 가능
        • 미니 서버가 될 하드웨어 어플라이언스를 인프라에 설치한 후, 파일 게이트웨이, 볼륨 게이트웨이, 혹은 테이프 게이트웨이로 설정하면 됨
        • 제대로 작동하기 위해서는 충분한 CPU, 메모리, 네트워크, SSD 캐시 리소스가 필요함
        • 소규모 데이터 센터의 일일 NFS 백업처럼 가상화가 없는 경우 상당히 유용함

4. AWS Transfeer Family

  • AWS 전송 제품군: Amazon S3 또는 EFS 안팎으로의 파일(데이터) 전송을 위한 완전 관리형 서비스
  • S3 APIs나 EFS 네트워크 파일 시스템을 사용하지 않고 FTP 프로토콜만 사용함
  • 지원하는 프로토콜
    • AWS Transfer for FTP (File Transfer Protocol)
    • AWS Transfer for FTPS (File Transfer Protocol over SSL)
    • AWS Transfer for SFTP (Secure File Transfer Protocol)
  • 완전 관리되는 인프라, 확장성, 안정성, 고가용성(다중AZ)
  • 시간당 프로비저닝된 엔드포인트별 비용과 데이터 전송량(GB)에 따라 요금 지불
  • 사용자의 자격 증명을 서비스 내에서 저장 및 관리 기능
  • 기존 인증 시스템과 통합 가능(Microsoft Active Directory, LDAP, Okta, Amazon Cognito, 사용자 지정 소스)
  • 사례: 파일 공유, 공개 데이터셋 공유, CRM, ERP 등

5. AWS DataSync

  • 대용량의 데이터를 한 곳에서 다른 곳으로 옮김
  • 온프레미스 / 다른 클라우드에서 AWS로 데이터 이동(NFS, SMB, HDFS, S3 API emd) - DataSync 에이전트 필요
  • AWS 서비스 간 데이터 이동(다른 스토리지 서비스 간) - 에이전트 필요 X
  • 다음으로 동기화 가능
    • Amazon S3 (Glacier를 포함한 모든 스토리지 클래스
    • Amazon EFS
    • Amazon FSx (Windows, Lustre, NetApp, OpenZFS 등)
  • 복제 작업은 지속적이지 않고, 일정에 따라 실행됨. 매시간, 매일, 매주 실행되도록 지정 가능
  • 파일 권한 및 메타데이터 보존(NFS POSIX, SMB 등)
  • 에이전트 하나의 태스크는 초당 10 Gbps를 사용할 수 있으며 대역폭 제한을 설정할 수 있음

Summary - Storage Comparison

  • S3: 객체 스토리지, 대부분의 AWS와 연결 가능
  • S3 Glacier: 객체 아카이브 스토리지
  • EBS Volumes: 한 번에 한 개의 EC2 인스턴스에만 스토리지를 연결할 때에는 EBS 볼륨 사용
  • Instance Storage: EC2 인스턴스에 직접 연결된 물리적 스토리지 (고 IOPS)
  • EFS: Linux 인스턴스용 네트워크 파일 시스템, 다중 가용 영역 간 마운트 하며 POSIX 파일 시스템 사용
  • FSx for Windows: Windows 서버용 네트워크 파일시스템, Windows와의 원활한 호환성과 통합 기능 제공
  • FSx for Lustre: 고성능 병렬 분산 파일 시스템, HPC에서 계산 집약적인 워크로드에 적합
  • FSx for NetApp ONTAP: 관리형 NetApp ONTAP 파일 시스템, 다양한 운영체제와의 높은 호환성 제공
  • FSx for OpenZFS: 관리형 ZFS 파일 시스템, Linux에 대한 원활한 호환성과 데이터 관리 기능 제공
  • Storage Gateway: 온프레미스 환경과 AWS 간의 연결을 제공하는 하이브리드 스토리지 서비스, S3 및 FSx 파일 게이트웨이, 볼륨 게이트웨이(캐시 및 저장), 테이프 게이트웨이를 제공
  • Transfer Family: FTP, FTPS, SFTP 프로토콜을 사용하여 Amazon S3 또는 Amazon EFS 위에서 파일 전송을 제공하는 완전 관리형 서비스
  • Data Sync: 온프레미스 시스템과 AWS 또는 AWS 서비스 간의 예약 및 자동화된 데이터 전송을 지원하는 서비스
  • Snowcone, Snowball, Snowmobile: 대량의 데이터를 클라우드로 물리적으로 안전하고 효율적으로 이동하기 위한 장치
  • Database: 특정 워크로드에 대해 특화된 서비스, 인ㄷ덱스 및 쿼리 등의 기능 제공
LIST

'develop > AWS' 카테고리의 다른 글

[SAA] Serverless  (1) 2024.06.18
[SAA] Container: ECS, Fargate, ECR, EKS  (0) 2024.06.17
[SAA] Global Infrastructure  (1) 2024.05.10
[SAA] S3 보안  (0) 2024.05.09
[SAA] S3  (0) 2024.05.08