steemKR 크롤링 하기

in #kr-newbie7 years ago

안녕하세요. 뉴비 ferozah 입니다.
며칠전 @youngbinlee 님의 구글시트 강좌5 IMPORTXML로 하는 더 파워풀한 웹크롤링(https://steemit.com/kr/@youngbinlee/5-importxml) 강좌를 접하고 구글 스프레드 시트의 엄청난 기능을 알게 되어 어제 밤 늦게 까지 이것저것 해 보았습니다.

Steemkr.com의 최신글 페이지를 xpath를 이용해서 구글 스프레드 시트로 가지고 왔습니다.

먼저 크롬 브라우저의 검사 기능을 통해서 div class="PostSummary_footer" 를 설정하고 해당 클래스의 모든 링크를 가져오게 해봤습니다.

image.png

구글 스프레트 시트에는 아래와 같이 입력했습니다.
A1에는 https://steemkr.com/created/kr 의 URL이 있구요.
IMPORTxml(A1, "//div[@class='PostSummary__footer']//a/@href")

image.png

완전히 깔끔하게 나오진 않았지만 나름 중복 값을 제거하고 정렬을 시켜보니, tag 정보와 그래도 어느 정도 쓸만한 정보들이 나왔습니다.

@youngbinlee 님께서 숙제 내주셨던 빗썸 공지사항 크롤링에 도전해 보았는데요

공지사항 제목을 읽어오는 부분 : =IMPORTXML("http://bithumb.cafe/notice","//*[@class='entry-title']/a")

공지 사항 내용을 읽어오는 부분 : =IMPORTXML("http://bithumb.cafe/notice","//p/text()")

공지 사항의 링크를 읽어오는 부분 : =IMPORTXML("http://bithumb.cafe/notice","//h3/a/@href")

각각 위와 같이 작성을 했습니다.
결과는 아래와 같습니다. 나오긴 했는데 줄이 좀 안 맞네요. TT

image.png

파이썬이나 같은프로그래밍 지식 없이도 크롤링이 가능하다고 알게 된게 가장 큰 수확이었던거 같습니다.


최근에 데이터분석에 많이 쓰이는 'R'을 공부하고 있습니다. 혹시나 해서 R 크롤링으로 검색해 보니 엄청나게 많은 예제 소스들이 검색되었습니다. 해당 소스들을 응용해서 steemkr 사이트를 크롤링 해 볼 수 있지 않을까 하여 여러 차례 삽질을 통해 간단하게 15분 마다 최신글들에서 '글 제목'을 추출하는 크롤러를 만들었습니다.

소스는 아래와 같습니다.

image.png

steemkr.com/created/kr 페이지를 15분 주기로 불러와서 제목을 추출하고 추후의 분석을 위해 steem_test.csv 파일에 차곡차곡 쌓아 둡니다. 이렇게 보면 아주 간단한 소스인데 처음해보는거라 다른 R 유저 분들의 소스를 이해하고 응용하다 보니 시간이 꽤나 걸렸던 거 같습니다.

steemKR 데이터분석을 통해 앞으로 스티미언 분들에게 조금이라도 기여해 보고자 하는 마음으로 시작해 보았네요.^^

감사합니다!

Sort:  

스스로 홍보하는 프로젝트에서 나왔습니다.
오늘도 좋은글 잘 읽었습니다.
오늘도 화이팅입니다.!

tumble님 찾아와주셔서 감사합니다! 뉴비에게 힘을 주시네요! 화이팅하겠습니다!

안녕하세요.
글 잘 읽었습니다^^
보팅하고 갑니다.

badasori님 보팅 및 댓글 감사합니다! 새해 복 많이 받으세요!^^

와 대단하세요!! 잘보고 갑니다^^
/ 다니의 뉴비 지원 프로젝트(1월 1주)

기대합니다:)

찾아와주셔서 감사합니다!^^
새해 복 많이 받으세요~!

크흡.. 저는 잘 모르겠어요 ㅠㅠ 뭔가 어려워 보이는...
화이팅입니다~ㅎㅎㅎ

저도 사실 배우고 있답니다^^ 이렇게 찾아와 주셔서 감사합니다!

오! +_+ 제 글 읽고 참여해주셔서 감사드려요 ^0^/

포스팅해주신 내용 정말 많은 도움이 되었습니다! 감사합니다!

좋은 꿀 팁 감사합니다.^^

This post has received a 0.38 % upvote from thanks to: @ferozah.
For more information, click here!!!!
Send minimum 0.010 SBD to bid for votes.

Before sending a transfer to @minnowhelper, verify that your publication meets these conditions (http://www.minnowhelper.com/conditions.php). After the transfer is made, no claims will be received.


The Minnowhelper team is still looking for investors (Minimum 10 SP), if you are interested in this, read the conditions of how to invest click here!!!
ROI Calculator for Investors click here!!!

해보고싶은 것들이 많네요!! 정보 감사합니다.

Coin Marketplace

STEEM 0.20
TRX 0.14
JST 0.030
BTC 68168.17
ETH 3256.43
USDT 1.00
SBD 2.67