Tất cả
Công ty

Bài viết liên quan

Xem tất cả
10 tính năng trên Apache Spark anh em nên biết

10 tính năng trên Apache Spark anh em nên biết

Apache Spark là một công cụ đa ngôn ngữ cho phép xử lý dữ liệu, khoa học dữ liệu (data science) và học máy (machine learning) trên các node đơn (single-node machines) hoặc trên clusters. Không chỉ đơn giản như vậy, Apache Spark còn có nhiều hơn các tính năng hay ho. Vậy anh em cùng lướt qua xem 10 tính năng nổi bật trong Apache Spark là gì? 1. Fault tolerance Tính năng đầu tiên của Apache Spark là Fault tolerance. Fault tolerance ở đây anh em có thể hiểu là khả năng chịu lỗi, khả năng xử lý lỗi. Apache Spark ngay từ khi bắt đầu đã được thiết kế để hanler lỗi từ các worker nodes. Spark đạt được khả năng này nhờ vào sử dụng DAG và RDD (Resilient Distributed Datasets). DAG ở đây chứa tất cả các bước (step) cần thiết để hoàn thành một task. Tất cả đều được ghi lại. Chính vì vậy, khi xảy ra lỗi ở nodes worker nào đó, ta có thể tái hiện lỗi từ DAG đã lưu hiện có. 2. Dynamic In Nature Tính năng thứ hai của [...]

Đọc thêm
Giới thiệu thư viện Apache Commons Chain

Giới thiệu thư viện Apache Commons Chain

Bài viết được sự cho phép của tác giả Nguyễn Hữu Khanh 1. Apache Commons Chain là gì? Apache Commons Chain là một framework, một thư viện mã nguồn mở của Apache. Nó cung cấp API cho phép chúng ta dễ dàng cài đặt các xử lý tuân theo Chain of Responsibility (COR) pattern. Chain of Responsiblity cho phép một đối tượng gửi một yêu cầu nhưng không biết đối tượng nào sẽ nhận và xử lý nó. Điều này được thực hiện bằng cách kết nối các đối tượng nhận yêu cầu thành một chuỗi (chain) và gửi yêu cầu theo chuỗi đó cho đến khi có một đối tượng xử lý nó. Chain of Responsibility Pattern hoạt động như một danh sách liên kết (Linked list) với việc đệ quy duyệt qua các phần tử (recursive traversal). 2. Cài đặt thư viện Apache Commons Chain Thêm thư viện vào project vào project maven: <!-- https://mvnrepository.com/artifact/commons-chain/commons-chain --> <dependency> <groupId>commons-chain</groupId> <artifactId>commons-chain</artifactId> <version& [...]

Đọc thêm
Nginx và Apache là gì? So sánh Nginx và Apache

Nginx và Apache là gì? So sánh Nginx và Apache

Bài viết được sự cho phép của tác giả Lê Chí Dũng I. Giới thiệu 1. Apache là gì? Apache HTTP Server, hay thường được gọi là Apache là phần mềm web server được sử dụng nhiều nhất trên thế giới. Ban đầu được dựa trên NCSA HTTPd server. Apache bắt đầu được phát triển vào khoảng đầu năm 1995 khi NCSA bị đình trệ và đóng 1 vai trò quan trọng trong sự phát triển ban đầu của World Wide Web, nhanh chóng vượt qua NCSA HTTPd như HTTP server ưu thế và trở nên phổ biến nhất kể từ tháng 4/1996. Vào năm 2009, nó trở thành phần mềm web server đầu tiên phục vụ hơn 100 triệu website. Apache được phát triển và duy trì bởi 1 cộng đồng mở của các nhà phát triển dưới sự bảo trợ của Apache Software Foundation. Thường được sử dụng trên hệ thống giống Unix (thường là Linux), ngoài ra còn hỗ trợ rộng rãi các hệ điều hành khác bao gồm eComStation, Microsoft Windows, NetWare, OpenVMS, OS/2 và TPF. Apache là miễn phí và là [...]

Đọc thêm
Làm việc với Apache Kafka Topic sử dụng CLI

Làm việc với Apache Kafka Topic sử dụng CLI

Bài viết được sự cho phép của tác giả Nguyễn Hữu Khanh Sau khi cài đặt Apache Kafka, các bạn có thể sử dụng công cụ Apache Kafka CLI để làm việc với topic trong Apache Kafka server. [irp posts="35520" name="Apache Kafka là gì?"] [irp posts="46000" name="Cài đặt Apache Kafka sử dụng Docker Compose"] Xem thêm việc làm AngularJS hấp dẫn trên TopDev Tạo mới topic Chúng ta sẽ sử dụng tập tin kafka-topics.sh của Apache Kafka CLI để làm việc với topic trong Apache Kafka server. Để tạo mới một topic, các bạn có thể sử dụng câu lệnh với cú pháp như sau: kafka-topics.sh --create --topic <topic_name> --bootstrap-server <kafka_server> --partitions <partition_number> --replication-factor <replication_number> Trong đó: topic_name là tên topic mà chúng ta cần tạo kafka_server là địa chỉ Apache Kafka server với định dạng host:port partition_number là số lượng partitions mà chúng ta cần tạo replication_number là số lượng replicate mà chúng ta muốn cho mỗi partition. Giá trị của tham số này sẽ phụ thuộc vào số lượng Apache [...]

Đọc thêm