Apache Hadoop là gì?

Apache Hadoop là tên của một tập hợp các thuật toán dữ liệu lớn, lưu trữ phân tán và phần mềm xử lý phân tán được tạo bởi Quỹ phần mềm Apache. Nó được thiết kế để hỗ trợ các ứng dụng dịch vụ dữ liệu khối lượng lớn; tự động xử lý các lỗi phần cứng mà không mất dịch vụ.

Hadoop sử dụng một hệ thống tệp phân tán được gọi là HDFS và phần mềm để xử lý các tập dữ liệu lớn được gọi là MapReduce. Các tệp cực lớn được chia thành từng mảnh, thường là 64 hoặc 128 MB mỗi tệp. Phần mềm này hầu hết được viết bằng Java, với một số mã cấp thấp hơn được viết bằng C.

Máy chủ Apache, Dữ liệu lớn, Dịch vụ, Điều khoản phần mềm