Giải pháp xếp hạng và tính toán song song trên nền tảng Apache Spark

Apache Spark (gọi tắt Spark) là một trong những công nghệ hot nhất năm 2015, đến mức nhiều người cho rằng nó sẽ là sự thay thế Apache Hadoop trong tương lai. Bài viết này sẽ tập trung mô tả tổng quan về Spark, so sánh nó với Hadoop để đưa ra câu trả lời.

Trong những năm trở lại đây, khi nói về dữ liệu lớn người ta nghĩ ngay đến Apache Hadoop, công nghệ được viết bởi Doug Cutting dựa trên GFS (Google File System) và MapReduce của Google vào năm 2005. Tháng Tư năm 2008, Hadoop trở thành hệ thống nhanh nhất để sắp xếp (sort) 1 terabyte dữ liệu, khi mất 209 giây chạy trên cluster gồm 910 nodes, đánh bại kỷ lục cũ là 297 giây. Tháng 11 năm 2008, Google thông báo hệ thống MapReduce của họ chỉ cần 68 giây để sắp xếp 1 terabyte dữ liệu. Đến tháng 5 năm 2009, Yahoo sử dụng Hadoop chỉ cần 62 giây để làm việc tương tự. Từ đó đến nay, cả một hệ sinh thái đã được xây dựng lấy Hadoop làm nòng cốt để giải quyết những bài toán về dữ liệu lớn…
Mời bạn đọc thêm tại link: http://repository.vnu.edu.vn/handle/VNU_123/17411
Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s