From 153a2f5861ef5a08cb5abeb422980a800c9b7691 Mon Sep 17 00:00:00 2001 From: Dmitry Yutkin Date: Mon, 23 Jul 2018 00:38:37 +0300 Subject: [PATCH] update README --- README.md | 21 ++++++++++++--------- 1 file changed, 12 insertions(+), 9 deletions(-) diff --git a/README.md b/README.md index fce427e..c30a05c 100644 --- a/README.md +++ b/README.md @@ -1,23 +1,26 @@ ## Корпус новостей с Lenta.Ru -* Размер: 1.7 Гб -* Количество новостей: 699.746 -* Период: Сентябрь 1999 - июль 2018 +* Размер: 1.7 Гб (288 MB архив) +* Количество новостей: ~700.000 +* Период: 08.1999 -- 07.2018 -+ [Скрипт](../master/download_lenta.py) для скачивания новостей. ++ [Скрипт](../master/download_lenta.py) для скачивания новостей (требуется Python 3.6+). ## (Eng) Corpus of news articles from Lenta.Ru -* Size: 1.7 Gb -* News articles: 699.746 -* Dates: Sept. 1999 - July 2018 +* Size: 1.7 Gb (to 288 MB compressed) +* News articles: ~700.000 +* Dates: 08.1999 -- 07.2018 -+ [Script](../master/download_lenta.py) for news downloading. ++ [Script](../master/download_lenta.py) for news downloading (Python 3.6+ is required). ## Скачать / Download * [Kaggle](https://www.kaggle.com/yutkin/corpus-of-russian-news-articles-from-lenta/) * [GitHub](https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/0.1/news_lenta.csv) -* [Amazon S3](https://s3-us-west-2.amazonaws.com/lenta-news-dataset/news_lenta.csv) +* [Amazon S3](https://s3-us-west-2.amazonaws.com/lenta-news-dataset/news_lenta.csv.bz2) + +## Распаковка / Decompression +`bzip2 -d news_lenta.csv.bz2` ## Скриншот / Screenshot