Naver News Library
A simple Python library to scrape naver news with multi-threaded downloading.
Dependencies
- requests
- lxml
Usage
import navernews
l_article = []
from datetime import datetime
str_sid1 = '101'
#start from 2016/4/14 and go back to 2016/4/14
dt_org = datetime(2016,4,15)
dt_end = datetime(2016,4,14)
def mongo_callback(article, article_id):
l_article.append((article_id,article))
navernews.download_naver_news_date_range(str_sid1, dt_org, dt_end, mongo_callback)
Output:
2016-04-14
324/324 100.00%
2016-04-13
247/247 100.00%
article_id, article = l_article[0]
print article['textv1']
Output:
20๋ ๊ตญํ์์ ์ ๊ฑฐ ๊ฒฐ๊ณผ ์ ๋ ฅ ์ ์น์ธ๋ค์ ํฌ๋น๊ฐ ์๊ฐ๋ฆฌ๋ฉด์ 14์ผ ๊ด๋ จ ํ ๋ง์ฃผ๋ ์๋์ ์ณค๋ค. ์์์ ๋ฐ์ด๋๋ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋ ๋๋ถ์ด๋ฏผ์ฃผ๋น๊ณผ ๊ตญ๋ฏผ์๋น ๊ด๋ จ์ฃผ๋ ๊ธ๋ฑํ๊ณ , ์ฐธํจํ ์๋๋ฆฌ๋น ๊ด๋ จ์ฃผ๋ ๊ธ๋ฝํ๋ค.
์ด๋ ๊ฐ์ฅ ๋์ ๋ ์ข ๋ชฉ์ ์์ฒ ์ ํ ๋ง์ฃผ์๋ค. ๊ตญ๋ฏผ์๋น ์์ฒ ์ ๊ณต๋๋ํ๊ฐ ์ค๋ฆฝํ ์๋ฉ์ ์ฃผ๊ฐ๋ ์ฅ์ด ์์ํ์๋ง์ 21% ์ด์ ์น์์๋ค. ์ดํ ์ฐจ์ต ๋ฌผ๋์ด ์์น๋ถ์ ๋ฐ๋ฉํด ์ ๋ ๋ณด๋ค 1.71%๋ง ์ค๋ฅธ ์ฑ ๋ง๊ฐํ๋ค. ์ญ์ ์์ฒ ์ ํ ๋ง์ฃผ๋ก ๊ผฝํ๋ ์จ๋์ ์์ ๋ค๋ฏ๋ฉํฐ๋ฏธ๋์ด๋ ์ฅ ์ด๋ฐ ๊ฐ๊ฐ 17%, 15% ์ฌ๋๋ค. ๊ทธ๋ฌ๋ ๊ฐ์๋ก ์ฃผ๊ฐ๊ฐ ๋น ์ ธ ๊ฐ๊ฐ 0.74%, -6.18%์ ๋ฑ๋ฝ๋ฅ ๋ก ์ฅ์ ๋ง์ณค๋ค.
๋๋ฏผ์ฃผ์ โ๋ฌธ์ฌ์ธ ํ ๋ง์ฃผโ๋ ๋๋ถ๋ถ ํฐ ํญ์ผ๋ก ์์นํ๋ค. ์ฐ๋ฆฌ๋คํด๋ธ๋ ์ธ ์ฃผ๊ฐ๊ฐ 15%๋ ์ฌ๋๊ณ ์ฐ๋ฆฌ๋ค์ ์ฝ, ์์ด์ํผ ๋ฑ๋ 2โผ5% ์์นํ๋ค.
๋ฐ๋ฉด ์๋๋ฆฌ๋น ๊น๋ฌด์ฑ ๋ํ์ ๋ถ์น์ด ์ค๋ฆฝํ ์ ๋ฐฉ์ ์ฃผ๊ฐ๋ 18.65%๋ ๋น ์ก๋ค. ์์ผ์ด(-20.4%), ๋์งํ์กฐ์ (-18.59%), ์กฐ์ผ์๋ฏธ๋(-17.09%) ๋ฑ ๋ค๋ฅธ ๊น๋ฌด์ฑ ํ ๋ง์ฃผ๋ค๋ ๊ธ๋ฝ์ธ๋ฅผ ๋น์๋ค.
ํํธ ์ด๋ ์ฝ์คํผ๋ ์ค๊ตญ๋ฐ ํํ์ ๊ธ๋ฐ๋ฑํด 2010์ ์ ๋ํํ๋ค. ์ฝ์คํผ๋ ์ ๋ ๋ณด๋ค 34.61ํฌ์ธํธ(1.75%) ์ค๋ฅธ 2015.93์ผ๋ก ์ฅ์ ๋ง์ณค๋ค. ์ฐ์ค ์ต๊ณ ์น์ด์ ์ง๋ํด 12์1์ผ(2023.93) ์ดํ ๊ฐ์ฅ ๋์ ์์น๋ค. ๊น์ ํ IBKํฌ์์ฆ๊ถ ์ฐ๊ตฌ์์ โ์ค๊ตญ ์์ถ ์งํ์ ํธ์กฐ์ธ, ์ ๊ฐ ๋ฐ๋ฑ์ธ ๋ฑ์ผ๋ก ์ํ์์ฐ ์ ํธ ์ฌ๋ฆฌ๊ฐ ๊ฐํ๋๊ณ , ์ธ๊ตญ์ธ ๋งค์์ธ๊ฐ ์ง์๋ฅผ ๋์ด์ฌ๋ ธ๋คโ๊ณ ๋ถ์ํ๋ค.
์ด์ง๊ฒฝ ๊ธฐ์ ljin@segye.com
โ ์ธ์์ ๋ณด๋ ๋, ๊ธ๋ก๋ฒ ๋ฏธ๋์ด
Installation
Run the following pip command to install this library:
pip install navernews
Manual Installation
Run the following command to install this library.
sudo python setup.py install