sudo reboot --force forced-recovery
[sudo] password for nvidia: [패스워드]
Rebooting with argument 'forced-recovery'.

 

1. 볼타 스트리밍 멀티 프로세서

 

  - 새로운 Volta SM은 이전 세대보다 훨씬 더 에너지 효율적이며 동일한 전력 범위에서 주요 성능 향상을 가능하게합니다. Volta SM에는 다음이 포함됩니다.

  1. INT8 / FP16 / FP32 딥 러닝 텐서 작업을 위해 특별히 제작 된 새로운 프로그래밍 가능 Tensor 코어 IMMA 및 HMMA 명령어는 정수 및 혼합 정밀도 행렬 곱셈 및 누산 연산을 가속화합니다.
  2. 더 높은 성능과 더 낮은 대기 시간을위한 향상된 L1 데이터 캐시
  3. 더 간단한 디코딩 및 감소 된 명령 지연을위한 간소화 된 명령 세트
  4. 더 높은 클럭과 더 높은 전력 효율성

Volta 아키텍처는 또한 차세대 메모리 하위 시스템과 향상된 통합 메모리 및 주소 변환 서비스를 통합하여 메모리 대역폭을 늘리고 활용도를 향상시켜 효율성을 높입니다.

 

 2. 그래픽 처리 클러스터

  - GPC (Graphics Processing Cluster)는 컴퓨팅, 래스터 화, 음영 처리 및 텍스처링을위한 전용 하드웨어 블록입니다. 대부분의 GPU 핵심 그래픽 기능은 GPC 내에서 수행됩니다. 이는 4 개의 TPC (텍스처 처리 클러스터)로 구성되며 각 TPC에는 2 개의 SM 유닛과 1 개의 래스터 엔진이 포함됩니다. SM 유닛은 병렬로 많은 스레드에서 명령을 생성, 관리, 예약 및 실행합니다. 래스터 연산자 (ROP)는 계속해서 L2 캐시 슬라이스 및 메모리 컨트롤러와 정렬됩니다. SM 지오메트리와 픽셀 처리 성능은 고급 사용자 인터페이스 렌더링에 매우 적합합니다. Volta GPU의 효율성은 전력이 제한된 환경의 장치에서 이러한 성능을 가능하게합니다.

각 SM은 4 개의 개별 처리 블록 (SMP라고 함)으로 분할되고 각 SMP에는 자체 명령 버퍼, 스케줄러, CUDA 코어 및 Tensor 코어가 포함됩니다. 각 SMP 내에서 CUDA 코어는 픽셀 / 버텍스 / 지오메트리 셰이딩 및 물리 / 계산 계산을 수행하고 각 Tensor 코어는 혼합 정밀도 FMA (Fused Multiply-Add) 수학 연산을 수행하기 위해 4x4x4 매트릭스 처리 배열을 제공합니다. 텍스처 단위는 텍스처 필터링을 수행하고 단위를로드 / 저장하고 데이터를 메모리에 저장합니다. 특수 기능 단위 (SFU)는 초월 및 그래픽 보간 명령을 처리합니다. 마지막으로 PolyMorph Engine은 정점 가져 오기, 테셀레이션, 뷰포트 변환, 속성 설정 및 스트림 출력을 처리합니다.

 

 > 특징

  • 512 코어
  • 엔드 투 엔드 무손실 압축
  • 타일 캐싱
  • OpenGL 4.6, OpenGL ES 3.2 및 Vulkan 1.0
  • ATSC (Adaptive Scalable Texture Compression) LDR 프로파일이 지원됩니다.
  • DirectX 12 준수
  • CUDA 지원
  • 반복 혼합, ROP OpenGL-ES 혼합 모드
  • 3D 클래스의 2D BLIT는 채널 전환을 방지합니다.
  • 2D 색상 압축
  • 일정한 색상은 SM 우회를 렌더링합니다.
  • 2x, 4x, 8x MSAA (컬러 및 Z 압축 포함)
  • 2의 거듭 제곱이 아닌 3D 텍스처, FP16 텍스처 필터링
  • FP16 셰이더 지원
  • 기하학 및 정점 속성 인스 턴싱
  • 병렬 픽셀 처리
  • Early-z reject : 가려진 픽셀의 빠른 거부는 전력과 대역폭을 절약하면서 픽셀 셰이더 및 텍스처 성능에 대한 승수 역할을합니다.
  • 비디오 보호 영역
  • 절전 : 전력의 선형 확장을위한 여러 레벨의 클록 게이팅

 

  - NVIDIA의 딥 러닝 가속기 (NVDLA)는 컨볼 루션 신경망 (CNN)에서 추론 작업을 가속화하는 하드웨어 설계입니다. 

NVIDIA Open NVDLA 라이센스에 따라 사용할 수있는 오픈 소스 프로젝트 입니다.

CNN에 대한 대부분의 계산은 동일한 수학적 연산을 사용하며 컨볼 루션, 활성화, 풀링, 정규화 및 완전 연결의 5 가지 기본 계층 유형으로 그룹화 할 수 있습니다. 이러한 작업에는 매우 예측 가능한 메모리 액세스 패턴이 있으므로 이러한 패턴을 활용하는 애플리케이션 별 하드웨어를 사용하면 속도를 크게 높일 수 있습니다.

NVDLA 하드웨어는 간단하고 유연하며 강력한 추론 가속화 솔루션을 제공합니다. 

 

 > 구성품

 

  - Jetson Xavier에 구현 된 코어는 NVDLA의 "헤드리스"구현입니다. 즉, NVDLA 하드웨어의 단위 별 관리가 메인 시스템 프로세서에서 발생합니다. 각 NVDLA 코어에는 다음 구성 요소가 있습니다.

 

  1. Convolution Core – 회선 계층에 최적화 된 고성능 엔진. 두 가지 데이터 세트, 즉 일정한 오프라인 학습 가중치와 입력 특성 데이터에서 작동합니다. 고효율로 다양한 크기의 컨볼 루션을 하드웨어에 매핑 할 수 있습니다.
  2. 단일 데이터 포인트 프로세서 – 활성화 기능을위한 단일 포인트 조회 엔진. SDP (Single Data Point Processor)를 사용하면 개별 데이터 포인트에 선형 및 비선형 함수를 모두 적용 할 수 있습니다. SDP는 룩업 테이블을 사용하여 시그 모이 드 또는 쌍곡선 탄젠트와 같은 비선형 함수와 바이어스 및 스케일링 작업이있는 일반적인 선형 함수를 구현합니다.
  3. Planar Data Processor – 풀링을위한 평면 평균 엔진. PDP (Planar Data Processor)는 CNN 응용 프로그램에서 일반적인 특정 공간 작업을 지원합니다. 다양한 풀 그룹 크기를 지원하도록 런타임에 구성 할 수 있으며 최대 풀링, 최소 풀링 및 평균 풀링의 세 가지 풀링 기능을 지원합니다.
  4. 교차 채널 데이터 프로세서 – 고급 정규화 기능을위한 다중 채널 평균화 엔진. 교차 채널 데이터 프로세서 (CDP)는 공간 차원이 아닌 채널 차원에서 작동하는 특수 정규화 기능인 로컬 응답 정규화 기능을 적용하기 위해 구축 된 특수 장치입니다.
  5. 데이터 재구성 엔진 – 텐서 재구성 및 복사 작업을위한 메모리 대 메모리 변환 가속화. 데이터 모양 변경 엔진은 데이터 형식 변환 (예 : 분할 또는 슬라이스, 병합, 축소, 모양 변경)을 수행합니다.
  6. 브리지 DMA – 연결되지 않은 두 메모리 시스템간에 데이터를 이동하는 가속 경로입니다. 브리지 DMA (BDMA) 모듈은 시스템 DRAM과 전용 메모리 인터페이스간에 데이터를 이동하기위한 데이터 복사 엔진을 제공합니다.

 

> 소프트웨어 디자인

  - NVDLA 소프트웨어 디자인은 컴파일 도구 (모델 변환)와 런타임 환경 (NVDLA에서 네트워크를로드하고 실행하는 런타임 소프트웨어)의 두 그룹으로 그룹화됩니다.

 

L4T 멀티미디어 API를 통해 일부 HD 오디오-비디오 하위 시스템 구성 요소를 사용할 수 있습니다. 현재 소프트웨어가 지원되지 않는 유일한 구성 요소는 오디오 처리 엔진입니다.

 

 > 2x 다중 표준 비디오 인코더

  - Xavier는 NVIDIA Multi-Standard Video Encoder를 사용하여 다양한 코딩 표준의 인코딩을위한 하드웨어 가속을 통합합니다.

 

 > 2x 다중 표준 비디오 디코더

  - Xavier는 NVIDIA Multi-Standard Video Decoder를 사용하여 다양한 코딩 표준을 디코딩하기위한 하드웨어 가속을 통합합니다.

 

 > JPG 처리블록 

   - 특징

  • JPEG 코덱 (채널당 8/12 비트)
  • JPEG2000 코덱 (채널당 8-16 비트)

 

 > 오디오 처리엔진 (APE)

  - APE (Audio Processing Engine)는 ULP (Ultra Low Power) 오디오 처리를 가능하게하는 전용 오디오 클로킹이있는 독립형 장치입니다. 전용 프로그래밍 가능 오디오 프로세서 (ARM Cortex A9 with NEON)로 구성됩니다. HDA (High Definition Audio) 컨트롤러는 HDMI 인터페이스에 대한 다중 채널 오디오 경로를 제공합니다.

APE는 CPU 사용량을 가능한 한 낮게 유지하기 위해 하드웨어에 오디오 필터를 구현하는 데 사용할 수있는 처리 장치입니다. 그러나 실제로 오디오 처리를 위해 사용자 응용 프로그램 공간에서 Cortex A9에 액세스 할 수있는 방법이 없습니다. NVIDIA는 향후이 장치에 대한 소프트웨어 지원을 제공 할 계획입니다.

 

  - 특징

  • 96KB 오디오 RAM
  • 짧은 대기 시간 음성 처리
  • 오디오 허브 (AHUB)
  • 4 x I2S 스테레오 / TDM I / O
  • DMIC
  • DSPK
  • 다중 채널 입력 / 출력
  • 디지털 오디오 믹서 : 10-in / 5-out
           - 스트림 당 최대 8 개 채널
           - 동시 다중 스트림
           - 유연한 스트림 라우팅
  • 다중 대역 동적 범위 압축 (DRC)
           - 최대 3 개의 밴드
           - 조정 가능한 니 포인트가있는 사용자 정의 가능한 DRC 곡선
           - 최대 192kHz, 32 비트 샘플, 8 개 채널
  • 파라 메트릭 이퀄라이저 : 최대 12 개 대역
  • 저 지연 샘플링 속도 변환 (SRC) 및 고품질 비동기 샘플링 속도 변환 (ASRC)

 

- 구성품

 

 

 

 - Inter - IC Sound (I2S) 컨트롤러

 

I2S 컨트롤러는 전이중, 양방향 및 단일 방향 지점 간 직렬 인터페이스를 구현합니다. 컴팩트 디스크 플레이어, 디지털 오디오 테이프 장치, 디지털 사운드 프로세서, 모뎀, Bluetooth 칩 등과 같은 I2S 호환 제품과 인터페이스 할 수 있습니다. Xavier 시리즈 모듈은 클럭 속도를 지원하는 I 2 S / PCM 인터페이스와 함께 최대 24.576MHz인 4개의 I2S 오디오 출력을 지원합니다. 

 

 특징

  • 마스터 및 슬레이브 모드 모두에서 지원되는 기본 I2S 모드 (I2S, RJM, LJM 및 DSP).
  • 마스터 및 슬레이브 모드 모두에서 short (1 비트 클록 폭) 및 long-fsync (2 비트 클록 폭)를 사용하는 PCM 모드.
  • Tx 및 Rx 모두에 대해 독립적 인 슬롯 선택이 가능한 네트워크 (전화 통신) 모드
  • 다양한 슬롯 및 슬롯 선택에 유연성이있는 TDM 모드.
  • 전송을 위해 규정 된 슬롯 외부에서 High-z를 드라이브 아웃하는 기능
  • 외부 입력 / 출력 스트림에 대한 흐름 제어

 

 

 

  - 디지털 MIC (DMIC) 컨트롤러

DMIC 컨트롤러는 PDM 기반 입력 장치와 인터페이스하는 데 사용됩니다. DMIC 컨트롤러는 PDM (Pulse Density Modulation) 신호를 PCM (Pulse Code Modulation) 신호로 변환합니다.

 

 특징

  • 샘플 속도 지원 : 8kHz-48kHz
  • 입력 PCM 비트 폭 : 16-24 비트
  • 오버 샘플링 비율 : 64, 128, 256

 

 

  - 디지털 스피커 (DSPK) 컨트롤러

PDM 전송 블록은 다중 비트 PCM 오디오 입력을 오버 샘플링 된 1 비트 PDM 출력으로 변환합니다. 모노 또는 스테레오 오디오는 데이터 / 클럭 쌍 (I2S 인터페이스)을 통해 외부 코덱으로 전송됩니다. 블록은 보간 기 뒤에 델타-시그마 변조기 (DSM)로 구성됩니다.

 

 특징 

  • 샘플 속도 지원 : 8 – 48kHz
  • 입력 PCM 비트 폭 : 16 – 24 비트
  • 오버 샘플링 비율 : 64, 128, 256
  • 통과 대역 주파수 응답 : 10Hz – 20kHz 범위에서 <= 0.5dB 피크-피크
  • THD + N : <= -80dB @ -10dBFS
  • 동적 범위 :> = 105dB

 

 

- HDA(High Definication Audio)

 

APE 외에도 Xavier 시리즈 모듈은 산업 표준 HDA (High Definition Audio) 컨트롤러를 구현합니다. "인텔 고품질 오디오 사양 개정 1.0a"를 준수합니다. 이 컨트롤러는 HDMI 인터페이스에 대한 다중 채널 오디오 경로를 제공합니다. 다중 입력 및 출력 스트림이 지원됩니다.

 

 특징

  • HDMI 1.3a 및 DP1.1 지원
  • HDMI / DP와 함께 사용하기 위해 최대 4 개의 오디오 스트림 지원
  • 1,2,4 [a] SDO 라인에서 오디오 스트라이핑 지원
  • 8 개 채널에 대해 최대 208μs의 최대 지연 시간으로 DVFS 지원
  • 4 개의 내부 오디오 코덱 지원
  • 오디오 형식 지원 - 비 압축 오디오 (LPCM) : 32 / 44.1 / 48 / 88.2 / 96 / 176.4 / 192 [b] kHz에서 16/20/24 비트

                                - 압축 오디오 형식 : AC3, DTS5.1, MPEG1, MPEG2, MP3, DD +, MPEG2 / 4 AAC, TrueHD, DTS-HD

 

 1. Gsteamer는 오픈 소스 멀티미디어 프레임 워크입니다.
  - nvarguscamera src 
   nvarguscamera src는 ISP를 사용하여 이미지를 보이는 형식으로 변경하기 때문에 카메라가 Bayer 형식의 이미지를 생성할 때 사용됩니다.

 -> ISP 바이엘에서 yuv

 

-> nvarguscamera src 도로

- v4l2src

    v4l2src는 카메라에서 제공하는 형식으로 이미지를 캡쳐하며 카메라가 가시형식을 사용할 때 사용됩니다.

  -> v4l2src 도로

 

2. Gstreamer 디스플레이

    Gstreamer는 2개가 nvolverlaysink 및 xvimagesink인 디스플레이 이미지에 대해 서로 다른 명령을 제공합니다.

 

  - nvoverlaysink : NVMM 메모리를 사용해야하지만 일반 메모리를 사용할 수도 있을 때 사용됩니다. 

                        이 명령은 화면 버퍼에 직접 기록합니다.

 

  - xvimagesink  : 일반 메모리를 사용해야 할 때 사용됩니다.

                        이 명령은 출력이 있는 화면을 엽니다.

+ Recent posts