1. Ban quản trị diễn diễn ra mục tiêu vì một diễn đàn sạch để hướng tới một mội trường internet sạch, chúng tôi nghiêm cấm tất cả mọi hành vi SPAM trên diễn đàn: post bài không đúng chuyên mục, comment bừa bãi và đăng tải nội dung vi phạm pháp luật. Chúng tôi sẽ không thông báo mà xóa tất cả các bài viết liên quan đồng thời Ban nick vĩnh viễn.
    Dismiss Notice

Nâng cao những sáng kiến AI / DL mang Hệ thống Dell EMC Isilon, PowerSwitch và NVIDIA DGX

Thảo luận trong 'Cần bán' bắt đầu bởi tienmanh90, 29 Tháng mười 2020.

  1. tienmanh90

    tienmanh90 Member

    Trong vài năm qua, Dell Technologies và NVIDIA đã giúp các người dùng chung của chúng tôi theo dõi nhanh những sáng kiến Trí tuệ nhân tạo và Học sâu của họ. Đối có những người muốn tận dụng ngăn xếp phần cứng và phần mềm đã được xác thực trước cho DL, chúng tôi cung cấp Giải pháp sẵn sàng cho AI: Học sâu với NVIDIA của Dell EMC , cũng có tính năng lưu trữ Dell EMC Isilon All-Flash. Đối với những đơn vị thích xây dựng biện pháp của riêng họ, chúng tôi chế tạo dòng Dell EMC PowerEdge C siêu dày đặc , mang GPU NVIDIA V100 Tensor Core, cho phép mở mang các giải pháp AI từ bốn đến hàng trăm GPU trên mỗi cụm. Chúng tôi cũng cung cấp máy chủ Dell EMC DSS 8440 , hỗ trợ tối đa 10 NVIDIAV100 GPU hoặc 16 NVIDIA T4 tensor lõi GPU . Sự hiệp tác của chúng tôi được xây dựng dựa trên triết lý phân phối sự linh hoạt và sự lựa tìm sáng suốt trên 1 danh mục đầu tư rộng lớn, kết hợp giữa máy tính nâng cao tốc GPU rẻ nhất, bộ nhớ mở rộng và mạng.

    Để phân phối cho các tổ chức sự linh hoạt hơn nữa trong phương pháp họ triển khai AI từ hộp cát đến chế tạo với hiệu suất đột phá cho AI quy mô lớn, Dell Technologies và NVIDIA gần đây đã cộng tác trên 1 kiến trúc tham chiếu mới cho khối lượng công tác AI và DL kết hợp Dell EMC Isilon F800 tất cả- flash mở rộng quy mô NAS, công tắc Dell EMC PowerSwitch S5232F-ON và hệ thống NVIDIA DGX-2.

    Các thành phần chính của kiến trúc tham chiếu bao gồm:

    • Bộ lưu trữ NAS hoàn toàn flash Dell EMC Isilon cung cấp quy mô (lên tới 58 PB), hiệu suất (lên đến 945 GB / s) và song song (lên đến hàng triệu kết nối) để cái bỏ nút thắt cổ chai I / O lưu trữ giữ toàn bộ những lớp tính toán đói dữ liệu được phân phối để tăng tốc khối lượng công tác AI trên quy mô lớn. Một cụm Isilon duy nhất với thể chứa 1 tầng toàn flash để với hiệu suất cao và 1 tầng HDD để với chi phí thấp hơn và các tệp với thể được tự động đi lại qua những tầng để logic hóa hiệu suất và tầm giá trong suốt vòng đời vững mạnh AI.
    • Các PowerSwitch S5232F-ON là 1 công tắc với 32 QSFP28 cổng sở hữu thể chế tạo 40 GbE và 100 kết nối GbE 1 RU. Dòng này hỗ trợ RDMA qua Ethernet tập trung (RoCE), cho phép GPU giao tế có NIC trực tiếp trên bus PCIe mà ko cần CPU. Cả RoCE v1 và v2 đều được hỗ trợ.
    • Hệ thống NVIDIA DGX-2 bao gồm phần cứng và phần mềm tích hợp gần như được xây dựng nhằm mục đích tăng trưởng AI và tập huấn hiệu suất cao trên quy mô lớn. Mỗi hệ thống DGX-2 được phân phối năng lượng bởi 16 GPU NVIDIA V100 Tensor Core được kết nối có nhau bằng kỹ thuật NVIDIA NVSwitch, sản xuất kết cấu băng thông cực cao, độ trễ phải chăng cho giao thiệp giữa các GPU.
    >>> Xem thêm: bán máy trạm HP Z6 G4 tại hà nội


    Phương pháp điểm chuẩn

    Để xác thực kiến trúc tham chiếu mới, chúng tôi đã chạy những điểm chuẩn phân chiếc hình ảnh theo tiêu chuẩn ngành bằng cách tiêu dùng tập dữ liệu 22 TB để mô phỏng khối lượng công tác tập huấn trong thế giới thực. Chúng tôi đã dùng ba hệ thống DGX-2 (tổng số 48 GPU) và tám nút Isilon F800 được kết nối phê chuẩn một cặp công tắc PowerSwitch S5232F-ON. Các điểm chuẩn khác nhau từ TensorFlow Benchmarkskho lưu trữ đã được thực thi. Bộ tiêu chuẩn này thực hành huấn luyện mạng nơ-ron tích hợp phân cái hình ảnh (CNN) trên những hình ảnh được gắn nhãn. Về cơ bản, hệ thống tậu hiểu xem 1 hình ảnh sở hữu đựng mèo, chó, ô tô, xe lửa, v.v. Tập dữ liệu hình ảnh ILSVRC2012 nức tiếng (thường được gọi là ImageNet) đã được sử dụng hay không. Tập dữ liệu này đựng khoảng 1,3 triệu hình ảnh huấn luyện trong 148 GB. Bộ dữ liệu này thường được các nhà nghiên cứu DL sử dụng cho những nghiên cứu so sánh và đo điểm chuẩn. Để ước lượng hiệu suất của kiến trúc tham chiếu này cho những tập dữ liệu to hơn rộng rãi 148 GB, tập dữ liệu đã được nhân đôi 150 lần, tạo ra 1 tập dữ liệu 22 TB.

    Để xác định xem mạng hoặc bộ nhớ có tác động đến hiệu suất hay không, chúng tôi đã chạy các điểm chuẩn y chang nhau trên tập dữ liệu gốc 148 GB. Sau kỷ nguyên đầu tiên, mọi tập dữ liệu được lưu vào bộ nhớ đệm trong hệ thống DGX-2 và các lần chạy tiếp theo ko sở hữu I / O lưu trữ. Các kết quả này được gắn nhãn Linux Cache trong phần tiếp theo.

    Kết quả điểm chuẩn

    Dựa trên việc tiêu dùng mạng trung bình 15 giây cho những liên kết mạng RoCE, có vẻ như các kết liên đã sử dụng ít hơn 80 MB / giây (640 Mbps) trong ResNet-50. Tuy nhiên, điều này là vô cùng sai lầm. Chúng tôi đã đo việc tiêu dùng mạng với độ xác thực mili giây và vẽ biểu đồ trong hình bên dưới. Điều này cho thấy mức nâng cao đột biến định kỳ lên đến 60 Gbps trên mỗi kết liên trên mỗi hướng. Đối có VGG-16, chúng tôi đo được đỉnh là 80 Gbps (không được hiển thị).Điểm chuẩn lưu trữ TensorFlow

    Để hiểu các ngừng của Isilon khi được dùng mang TensorFlow, 1 ứng dụng TensorFlow đã được tạo ( TensorFlow Storage Benchmark ) chỉ đọc các tệp TFRecord (cùng một ứng dụng được tiêu dùng để đào tạo). Không có tiền xử lý cũng như tính toán GPU được thực hiện. Công việc duy nhất được thực hiện là đếm số byte trong mỗi TFRecord. Ứng dụng này cũng sở hữu tùy sắm đồng bộ hóa hầu hết trình đọc sau mỗi đợt ghi, buộc chúng phải đi cùng tốc độ. Tùy chọn này đã được kích hoạt để mô phỏng thấp hơn khối lượng công việc đào tạo DL hoặc ML.

    Với khối lượng công việc chỉ lưu trữ này, tốc độ đọc tối đa thu được từ tám nút Isilon là 24,772 MB / giây. Vì Isilon đã được chứng minh là mở mang tới 252 nút, thông lượng bổ sung mang thể đạt được chỉ đơn giản bằng phương pháp thêm các nút Isilon.

    Phần kết luận

    Dưới đây là 1 số phát hiện chính từ thí điểm của chúng tôi về kiến trúc tham chiếu hệ thống Isilon, PowerSwitch và NVIDIA DGX-2:

    • Đạt được kết quả hiệu suất hấp dẫn trên các điểm chuẩn DL tiêu chuẩn của ngành từ 16 đến 48 GPU mà ko bị suy giảm thông lượng hoặc hiệu suất
    • Khả năng mở rộng tuyến tính từ 16 đến 48 GPU trong khi vẫn giữ các GPU được chốt ở mức sử dụng> 97%
    • Hệ thống Isilon F800 với thể chế tạo hơn 24 GB / giây đọc đồng bộ , đây là tiêu biểu của khối lượng công tác tập huấn DL hoặc ML
    Các giải pháp DL dựa trên Dell EMC Isilon phân phối dung lượng, hiệu suất và tính đồng thời cao để cái bỏ tắc nghẽn lưu trữ I / O cho AI. Điều này cung ứng nền móng cứng cáp cho những biện pháp DL cấp doanh nghiệp, quy mô lớn, sẵn sàng phân phối mang kiến trúc mở mang quy mô chứng cứ trong mai sau đáp ứng nhu cầu AI của bạn ngày nay.
     

Chia sẻ trang này

Users Viewing Thread (Users: 0, Guests: 0)

XenForo Add-ons by Brivium ™ © 2012-2013 Brivium LLC.