Web Scraping với Scrapy -Phần 1

362

Ai,Machine Learning đang là xu thế hot trong kỉ nguyên công nghệ 4.0. Để có thể làm việc với nó thì một trong những thứ quan trọng hàng đầu đó là data,với lượng data càng lớn và tính xác thực càng cao,thì càng tốt cho việc huấn luyện. Trong bài viết này mình xin được giới thiệu cách thu thập data với Scrapy.

Cài đặt

Yêu cầu đầu tiên để sử dụng Scrapy đó là phải cài Python3 và Scrapy (tất nhiên rồi ^^ ) .

Python3

1.Mở terminal và nhập vào lệnh

 

2.Install python 3.6 bằng lệnh

 

Scrapy

1.Install Scrapy bằng lệnh

 

Viết chương trình đầu tiên

Trong bài viết này mình sẽ dùng trang web https://9to5mac.com/ để demo cho việc Scraping.

Khởi tạo Project

1.Mở terminal,khởi tạo Project Scrapy đầu tiên bằng lệnh

 

2.Dùng cd để trỏ đến Project ,sau đó khởi tạo Spider bằng lệnh

 

ở đây mình đặt là :

 

Viết code cho Spider đầu tiên

1.Các bạn dùng IDE mở project lên,mở file Spider trong thư mục spiders .

2.Để bắt đầu mình sẽ import object Request bằng cú pháp :

 

3.Bắt đầu request bằng việc khởi tạo method start_requests.

 

Hàm callback parse_info sẽ chứa object là response của trang html.

Tạo method parse_info

 

Sau đó chúng ta chạy Spider bằng lệnh :

 

Như chúng ta thấy ở hình dưới ,Data đã được scrape về

Kết luận

Ô kê bạn ơi,qua bài viết này mình đã giới thiệu qua về Scrapy,bài viết tiếp theo mình sẽ giới thiệu về engine bên dưới của nó,cảm ơn mọi người đã quan tâm

TopDev via Viblo

SHARE