របៀបទាញយកអត្ថបទលើអុីនធឺណិត​ ដោយស្វ័យប្រវត្តិជាមួយនឹង Python & Scrapy

in #cambodia7 years ago

scrapy-python.jpg

Python គឺជាភាសាកុំព្យូទ័រមួយដែលមានលក្ខណៈពិសេសគឺសំបូរទៅដោយកម្មវិធីមានស្រាប់ជាច្រើនដែលបន្ថែមនូវមុខងារផ្សេងៗធ្វើឲ្យ ភាសាមួយនេះកាន់តែមានឥទ្ធិពល និងមានភាពងាយស្រួល។ ជាក់ស្តែង Scrapy ជាកម្មវិធីមួយរបស់ Python ដែលអនុញ្ញាត្តិឲ្យអ្នកប្រើប្រាស់អាចទាញយកនូវមាតិការផ្សេងៗដែលមាននៅលើគេហទំព័រ ដោយស្វ័យប្រវត្តិ។ អត្ថបទនឹងបង្ហាញលោកអ្នកអំពីវិធីដំឡើង និងប្រើប្រាស់ Scrapy ដើម្បីទាញយកនូវ ឈ្មោះ និងលេខទូរស័ព្ទរបស់ធនាគារពាណិជ្ជកម្មទាំងអស់នៅក្នុងប្រទេសកម្ពុជា ពីគេហទំព័រ ធនាគារជាតិនៃកម្ពុជា

តម្រូវការៈ

  • Python 2.7
  • ចំណេះដឹងមូលដ្ឋានអំពី CSS Selector ឬ XPath ។
  • កម្មវិធីកែអត្ថបទ (Text Editor) ។ ប្រសិនបើលោកអ្នកមិនទាន់មានកម្មវិធីប្រភេទនេះទេ យើងខ្ញុំសូមណែនាំកម្មវិធី Atom ដែលអាចទាញយកមកប្រើប្រាស់បានដោយឥតគិតថ្លៃតាមរយៈតំណនេះ

ការតំឡើងៈ

ចំពោះអ្នកប្រើប្រាស់ប្រព័ន្ធប្រតិបត្តិការ Windows សូមចូលទៅ Command Prompt រួចវាយនូវ Command ដូចខាងក្រោម រួចសូមរង់ចាំរហូតដល់ Command ទី១ដំណើរការចប់ ទើបបញ្ចូលនូវ Command ទី២។

scrapychange.png

ចំពោះប្រព័ន្ធប្រតិបត្តិការ Linux Ubuntu សូមចូលទៅកាន់ Terminal រួចវាយនូវ Command ដូចខាងក្រោម រួចសូមរង់ចាំរហូតដល់ Command ទី១ដំណើរការចប់ ទើបបញ្ចូលនូវ Command ទី២។

scrapy-2.png

ចំពោះប្រព័ន្ធប្រតិបត្តិការ OSX សូមចូលទៅកាន់ Terminal រួចវាយនូវ Command ដូចខាងក្រោមៈ

scrapy-3.png

ការប្រើប្រាស់ៈ

ដើម្បីចាប់ផ្តើម Project ថ្មីមួយដែលមានឈ្មោះថា “techfree” សូមចូលទៅកាន់ Command Prompt ឬ Terminal រួចជ្រើសរើសកន្លែងដែលលោកអ្នកចង់រក្សាទុក Project បន្ទាប់មកសូមវាយ Command ដូចខាងក្រោមៈ

scrapy-4.png

បន្ទាប់មកលោកអ្នកនឹងទទួលបាន Folder មួយដែលមាន File មួយចំនួនក្នុងនោះរួចជាស្រេច។

សូមស្វែងរកនៅក្នុង Folder “techfree” ដែលស្ថិតនៅក្នុង Folder ដែលមានឈ្មោះ “techfree” ខាងដើម រួចបើកនូវ File ដែលមានឈ្មោះថា items.py តាមរយៈកម្មវិធីកែអត្ថបទណាមួយដែលលោកអ្នកមាន។ រួចធ្វើការកែតម្រូវដូចខាងក្រោម បន្ទាប់មកសូមរក្សាទុក។

scrapy-5.png

នៅក្នុង Folder “spider” សូមបង្កើត File ថ្មីមួយដែលមានឈ្មោះថា “techfree_spider.py” ។ បន្ទាប់មកសូមកែតម្រូវ File នោះដូចខាងក្រោមៈ

scrapy-6.png

  • name គឺសំដៅលើឈ្មោះកម្មវិធីរបស់យើង។
  • allowed_domains គឹជាការកំណត់ដែលឲ្យកម្មវិធីនេះអាចទាញយកមាតិការតែពី Domain ដែលបានកំណត់តែប៉ុណ្ណោះ។
  • start_urls គឹជាដំណរទៅកាន់ទំព័រដែលយើងចង់យកមាតិការ។

ដើម្បីសាកល្បងដំណើរការកូដខាងលើ សូមចូលទៅកាន់ Folder “techfree” តាមរយៈ Command Prompt ឬ Terminal របស់អ្នក រួចវាយនូវពាក្យបញ្ជាដូចខាងក្រោមៈ

scrapy-7.png

  • ចំណាំ techfree គឺឈ្មោះកម្មវិធីដែលយើងបានកំណត់នៅខាងលើ មិនមែនជាពាក្យបញ្ជាទេ។

បន្ទាប់ពី Run កូដខាងលើហើយ លោកអ្នកនឹងទទួលបានលទ្ធផលដូចរូបខាងក្រោមនេះ

scrapy.jpg

ប្រភពៈ

  1. Scrapy 1.1 Documentation. Scrapy

ប្រភពដើម

Coin Marketplace

STEEM 0.19
TRX 0.16
JST 0.030
BTC 65573.59
ETH 2645.55
USDT 1.00
SBD 2.86