Bài viết được sự cho phép của tác giả Kiên Nguyễn
Quay trở lại với chuỗi bài Java Stream, hôm nay do đang không có task nên mình tranh thủ viết bài (kẻo nhàn cư vi bất thiện
Lúc đầu thì tính là không viết dài, nhưng vì giật tít bài viết ghê quá, nên mình sẽ cố gắng viết hết tất cả, từ khái quát, bản chất cho tới hiệu năng, ….
Tuy hơi dài nhưng chắc là cũng đáng để đọc, mục tiêu của mình khi viết bài này là mong rằng chỉ đọc only bài này, các bạn đã thật sự hiểu sâu, nắm chắc về mặt bản chất của Stream, qua đó từ từ trở thành Senior Java Developer.
Viết có hay ho gì không mà PR ghê thế?. Bố đọc mà không hiểu lại close mẹ tab bây giờ!
Úi, đừng close tab mà tội nghiệp em nó, vào bài ngay đây.
Xem thêm nhiều việc làm Java hấp dẫn trên TopDev
1. Stream là gì?
1.1 Một câu chuyện nhỏ và định nghĩa.
Chuyện rằng ngày nảy ngày nay, ở phường 3, quận Tân Bình có thằng Tèo, nhà giàu tổ bố, nhà cực nhiều xe, nó có một List 10 chiếc xe với thông tin ngày bảo hành gần nhất.
Đến hạn bảo dưỡng, vì đ*o lành nghề IT nên Tèo nhờ Tồ (kỹ sư công nghệ thông tắc hệ thống thoát nước) kiểm tra xem xe nào đến hạn bảo hành.
Với số lượng 10 chiếc, Tồ nhanh trí sử dụng Iterator next() kiểm tra trên từng chiếc xe, mọi việc đơn giản, Tồ lụm 2 củ.
Qua hôm sau, thằng Tí kế bên kêu thằng Tồ tới làm vố này to, Tồ nhanh chân đề máy tới nhà Tí, vừa mới xem cái List thằng Tí đưa ra, nó loạng quạng, chân đứng không vững (10.000.000 xe). Hóa ra, bố thằng Tí làm chủ bãi xe phế liệu, bố nó không bảo trì mà muốn kiếm xe chưa hết hạn lưu thông.
Máy yếu, sử dụng Iterator next() thì chắc là không ổn. Đang ngồi suy nghĩ miên man, sực một giọng nói vang lên phía sau lưng Tồ, “lẹ đi mày, tao còn có việc đi nữa”.
Bí quá, làm sao nhanh được?, Tồ tự hỏi. Bỗng nhiên sực nhớ KieBlog có bài về sờ trim, Tồ nhanh trí đọc bài, bật máy lên dùng ngay Parallel Stream. Vụt, kết quả xuất hiện rồi sao?, sao nhanh vậy được?, Tồ tự hỏi.
Kết quả có thật, nhưng xui vl, không còn chiếc nào còn hạn bảo hành, Tí đưa Tồ 20k rồi nói “CÚTTTTTT”
Tồ thật không may, tuy nhiên tồ cũng đã hiểu và biết cách sử dụng sờ trim, tối đó Tồ ngủ ngon lắm. HÃY NHƯ TỒ.
Vậy stream là gì?. Định nghĩa đơn giản như sau:
“Nguồn” ở đây là danh sách xe của Tèo và Tí. còn các “hoạt động tổng hợp” ở đây là phương thức filter (hôm này – ngày bảo hành gần nhất > 10) giúp tìm ra các xe hết hạn lưu thông.
>>> Xem thêm: Tìm hiểu về đối tượng String trong Java
1.2 Các đặc điểm của stream.
- Source: dữ liệu nguồn có thể là từ Array, List, I/O
- Tự động lặp lại phương thức đối với các phần tử có được từ collection.
- Hỗ trợ các phương thức như filter, map, limit, reduce, find, match, …
1.3 Có gì hơn collection?
1. No Storage – không lưu trữ
Giải nghĩa: Collection là một cấu trúc dữ liệu (có thể là ArrayList, LinekedList), còn stream thì chỉ như là công cụ xử lí. Nếu ta có danh sách 10 tên tội phạm thì collection sẽ trực tiếp lưu các phần tử vào ArrayList, còn stream chỉ giúp ta filter() những tên tội phạm ma túy, sort() theo thứ tự ngày phạm tội, …
Stream không trực tiếp lưu trữ những phần tử này, nó luôn cần source (dữ liệu đầu vào) để xử lí.
2. Functional in nature.
Giải nghĩa:
Giả sử ta có một colection 10 pornstar name, vì thích hàng còn mới nên ta sử dụng stream để lọc bớt các cô có số lượng phim đóng lớn hơn 5, kết quả stream cho ra 3 cô. Mặc dù kết quả stream là 3, nhưng nó không tác động tới dữ liệu collection, dữ liệu ở trong collection vẫn bất biến là 10. Đây chính là ý muốn nói của functional in nature.
Kể sơ thì 10 cái tên này gồm: R*** takizawa, S*** aoi …. Ẹc, đang nói về stream, lạc cmn đề.
3. Lazy seeking – hoạt động trung gian luôn lười biếng
Giải nghĩa:
Ví dụ:
List xeSang = DanhSáchXe.stream()
.filter(xe : LàXeSang());
Sở dĩ ta dùng từ lười biếng vì stream filter lọc ra xe sang chỉ tuần tự gọi ra khi terminal operation (collect()) được gọi. Nếu terminal chưa gọi, các bước như filter chỉ là những bước riêng lẻ, thực hiện trên từng thể hiện của stream.
Nếu vẫn chưa hiểu, các bạn đọc tiếp tới mục 4, tham khảo thêm câu hỏi này.
4. Possibly unbounded – có thể không giới hạn.
5. Consumable – Bị hủy sau một lần sử dụng.
2. Khởi tạo stream như thế nào?
Một số cách để khởi tạo một đối tượng stream:
- Khởi tạo từ một Collections với số lượng phần tử giới hạn (thông qua stream() và parallelStream()).
- Thông qua Array, phương thức Arrays.stream(Object[]);
- Thông qua Factory Init như, Stream.of(Object[]), IntStream.range(int, int) or Stream.iterate(Object, UnaryOperator);
- Bằng BufferedReader.lines();
- Qua Files.
- Bằng cách sử dụng phương thức Random.ints();, khởi tạo dãy số ngẫu nhiên.
2.1 Chuyển từ collections sang stream như thế nào?
Ở Java 8, phương thức stream() đã được thêm sẵn vào interface của collection, vì vậy rất dễ dàng để chuyển đổi từ collection sang stream.
Có 2 phương thức chuyển đổi là:
- stream() : trả về một luồng tuần tự với source là collection.
- parallelStream() : trả về một luồng song song với source là collection.
Collection sẽ có thêm 2 phương thức này trong interface.
Hình dưới: stream và parallel stream chạy trên 4 cores, thời gian khi sử dụng parallel là ít hơn hẳn.
Tuy nhiên, có một điểm lưu ý để không nhầm lẫn trong việc chuyển đổi này là:
Được hiểu rằng:
3. Một số phương thức chính.
3.1 Intermediate operation (phương thức trung gian).
Stream có 5 phương thức trung gian chính là: filter(), map(), limit(), sorted(), distinct()
3.2 Terminal operations (phương thức đầu cuối).
Có 3 phương thức trung gian là: forEach(), count() và collect()
Tại sao lại có 2 nhóm phương thức này?, có phải sẽ thực hiện hết tất cả các phương thức trung gian rồi mới thực hiện phương thức cuối hay không?. Chi tiết sẽ được giải thích ở mục 4.
>>> Xem thêm: Các phần mềm giả lập Java dành cho máy tính tốt nhất
4. Bản chất stream có gì?
Vì hoạt động theo phương thức pipelined (ống). Stream trong Java chia thành 3 công việc (operations) chính, cũng có thể nói rằng 3 thành phần (components) này giúp stream hoạt động. Ngoài ra, thứ tự thực hiện trong stream cũng cụ thể, rõ ràng và theo tuần tự (sequence).
Ở mỗi (operations) sẽ có một công việc nhất định phải làm, sau khi đã xong ở công đoạn này, sẽ tiếp tục tới công đoạn khác cho tới khi hoàn tất.
4.1 Ba thành phần của stream.
Bất kì công việc nào có liên quan với Java API Stream đều phải có ba thành phần sau:
- Source (thành phần nguồn – có thể linh động)
- Intermediate operation (thành phần trung gian – có thể có 1 hoặc nhiều)
- Terminal operation (thành phần cuối – thường chỉ có một mà thôi)
Ba thành phần này sắp xếp với nhau theo thứ tự để tạo thành một luồng stream.
Với các thành phần như vậy, ta sẽ đi sâu tìm hiểu xem chức năng của từng thành phần như thế nào, thứ tự thực hiện ra sao ở mục kế sau đây.
4.2 Chức năng của từng thành phần là gì?
- Source: được hiểu là dữ liệu đầu vào: có thể là một mảng (array), một danh sách (list) hoặc một stream được tạo ra bằng phương thức generate() , đầu vào ở đây có thể linh động theo yêu cầu cụ thể.
- Intermediate operation là một hoạt động trung gian, hoạt động này gọi trên từng items của Stream. Như đã nêu ở mục số 3, stream có 5 phương thức trung gian là: Stream.map(), Stream.filter() , Stream.limit(). Sở dĩ gọi là trung gian vì sau bước này, ta chưa thể có stream output, các phương thức này chỉ là phương thức hỗ trợ xử lí để có output. Ví dụ như 2 method filter() và sorted() chỉ giúp lọc và sắp xếp chuỗi stream đầu vào, nếu không có bước cuối cùng (terminal), ta chưa thể có một stream hoàn chỉnh.
- Terminal operation, là hoạt động cuối cùng của đường ống (pipelined). Sở dĩ gọi nó là terminal vì sau khi thực hiện, ta không thể sử dụng lại stream. Bước cuối cùng này có trách nhiệm trả về ‘output’. Bước cuối cùng này có thể trả về từng đối tượng (forEach()), độ dài stream (count()) hoặc một collections (collect()).
Một khi đã thực hiện tới bước cuối cùng (terminal), không thể quay trở lại thực hiện một hoạt động trung gian nào khác.
Tiện đây trích luôn câu nói nổi tiếng của thanh niên Heraclitus:
Tới giờ mình vẫn chưa hiểu được ý nghĩa thâm sâu của câu nói này. Mình nghĩ có 3 khả năng:
- Thứ nhất: Có thể là cha này viết cho tương lai (hiện tại ô nhiễm môi trường bây giờ – tắm lần 1 là ghẻ đầy người vào da liễu).
- Thứ hai: Cũng có khi là lời dặn dò cho các chị em thích tắm tiên (lần thứ 2 có thể bị hiếp).
- Cuối cùng: Cha này lần đầu tiên tắm sông bị đuối nước tưởng đâu chết, may nhờ có người cứu, từ đó ai rủ đi tắm sông cũng không dám nữa. Để che mắt thiên hạ thì viết ra câu này.
Thôi chết, lại lạc cmn đề
4.3 Ví dụ minh họa.
Lý thuyết là vậy, đọc buồn ngủ quá, vì vậy, để có cái nhìn khách quan và thực tiễn, ta sẽ thử xem xét ví dụ:
Hình dung Stream như một dây chuyền lắp ráp ô tô, với đầu vào là 10 khung xe, nếu ta viết Stream:
Intermediate operation có 2 bước:
- Bước 1: Lọc ra các xe là xe sang, thông qua Stream.filter() và function isXeSang, hàm này có thể kiểm tra giá tiền > 3 tỷ chẳng hạn.
- Bước 2: Giới hạn số xe lấy ra là 2. Terminal operation trường hợp này lại trả về từng đối tượng (item) trong Stream (Stream.forEach()), in ra danh sách 2 xe (Lamborghini reventon và Roll royce phantom drophead coupe).
5. Parallel stream là gì?. Nghe đồn xử lí đa luồng ghê lắm!
5.1 Parallel stream là gì?
Mình sẽ trích dẫn một đoạn nhỏ từ cuốn Java 8 in Action
Giải nghĩa:
Lấy ví dụ khi thực hiện phép cộng: 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8. Khi sử dụng parrallel stream sẽ chia thành 2 chunks, mỗi chunk sẽ chạy trên một thread riêng biệt. Thứ tự thực hiện như sau:
5.2 Có gì hơn sequential stream và iterator?


Cùng xem hình sau:
Đầu tiên, khi xử lí dữ liệu không quá lớn (<15000 elements), sự khác biệt giữa Iterator, Sequential Stream và Parallel Stream là quá ít (chỉ chừng 0.1s), quá nhanh để có thể cảm nhận. Tuy nhiên, khi dữ liệu (>40000 elements), sự khác biệt về thời gian xử lí có thể thấy rõ (chênh nhau 0.5s).
Vì vậy, khi xử lí với dữ liệu lớn, sử dụng Parallel Stream sẽ tăng hiệu năng đáng kể.
6. Một số câu hỏi mở
- Có thật sự có khác biệt về peformance giữa Sequential Stream và Iterator hay không?
- Luôn dùng Parallel Stream có phải là phương án tốt?
- Tại sao Stream lại là lazy, không lazy thì ảnh hường gì?
- Nếu xử lí đã luồng ở Parallel Stream có hiệu năng tốt, có thể ứng dụng nó vào đâu? – có thể là dùng khi JDBC query dữ liệu.
Bài viết gốc được đăng tải tại kieblog.vn
Có thể bạn quan tâm:
- Java Stream – Collectors và Statistics
- Tuốt tuồn tuột về Java 8 – những thay đổi lớn!
- Hiểu hơn về cách hoạt động của JavaScript Engine
Xem thêm Việc làm IT hấp dẫn trên TopDev