Crawler Data With Python Using The Beautiful Soup Library From Website kenh14.vn

in #crawler6 years ago (edited)

Python khá mạnh về việc request các yêu cầu GET/POST hơn PHP trong mảng crawler data .Trong bài viết này, tôi sẽ hướng dẫn cho các bạn cách sử dụng thư viện Beautiful Soup và các thư viện cần thiết để crawler từ một website theo chỉ định của mình. Trong bài viêt này tôi crawler data từ website kenh14.vn . Một thư viện như là Beautiful Soup được Python hỗ trợ sẽ giúp cho các bạn trong việc trích xuất dữ liệu từ các tập tin HTML.

Cài đặt

Đầu tiên các bạn có thể cài đặt Beautiful Soup bằng lệnh pip trong Command Prompt(cmd) của window mà bạn đang sử dụng. Thư viện này, nó đều được làm việc trên cả python 2 và python 3.
Capture.PNG

Tiếp theo các bạn cài đặt thêm các thư viện như request(pip install requests),codecs(pip install codecs),json(pip install json),lxml(pip install lxml) và làm tương tự như trên.

Lấy tiêu đề, mô tả ngắn, nội dung, ngày đăng

Đầu tiên các bạn sẽ import các thư viện như trong hình.

1.PNG

Ở đây mình sẽ lấy nội dung từ category và sau đó là vào sub-category để lấy các nội dung như mình cần như tiêu đề, nội dung,..

4.PNG
Tiếp theo các bạn sẽ việc một hàm main để chạy như hình sau:
5.PNG

3.PNG

Phân tích HTML để lấy các nội dung mà các bạn cần. 2.PNG

Mình dựa vào HTML mình phân tích để mình viết một hàm để lấy các thông tin như tiêu đề, mô tả ngắn, nội dung ngày đăng trong chi tiết của mỗi category.

6.PNG

Ở đây tôi sử dụng trình biên dịch Sublimetext 3 để biên dịch, để biên dịch được tôi đã cài packges python 3. Sau đó tôi bấm tổ hợp phím Ctrl + B để chạy chương trình.

Và đây là kết quả của chương trình cuối cùng.

7.PNG

Sort:  

@ancao, I gave you an upvote on your first post! Please give me a follow and I will give you a follow in return!

Please also take a moment to read this post regarding bad behavior on Steemit.

thank you for the votes for me. I also voted for your post

Chúc mừng @ancao, bạn đã nhận được một upvote từ ancao. Tôi là con bot của cộng đồng Việt Nam trên Steemit. Tôi được tạo ra bởi nhân chứng @quochuy và được uỷ quyền, tín nhiệm bởi các thành viên Việt Nam, hôm nay tôi vote cho bài của bạn để ủng hộ bạn. Tôi hi vọng sẽ được thấy nhiều bài viết hay từ bạn.

Để phát triển và ủng hộ con bot, xin bạn hãy dành ít thời gian upvote comment này.

Chúc bạn vui vẻ, và hẹn gặp lại một ngày gần đây.

Coin Marketplace

STEEM 0.19
TRX 0.14
JST 0.030
BTC 62784.34
ETH 3337.95
USDT 1.00
SBD 2.47