-
Notifications
You must be signed in to change notification settings - Fork 2
/
parser.py
109 lines (97 loc) · 5.02 KB
/
parser.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
# Импортируем необходимые библиотеки
import os
from bs4 import BeautifulSoup
import requests
from icrawler.builtin import GoogleImageCrawler
from datetime import datetime
from PIL import Image
# Время старта выполнения программы
start_time = datetime.now()
# Создаём словарь с названиями грибов
mushrooms = {
'edible': [], # Съедобные
'inedible': [], # Несъедобные
'poisonous': [], # Ядовитые
'hallucinogenic': [] # Галлюциногенные
}
# Функция для парсинга названий грибов
def parser_name(style, url):
"""
:param style: к какому типу относятся грибы на сайте
:param url: ссылка к сайту
Программа получает на вход тип грибов и ссылку на сайт, с которого производится парсинг данных
После выполнения функции создаётся папка с фотографиями грибов
"""
r = requests.get(url)
html = BeautifulSoup(r.content, 'html.parser')
for el in html.select('.mush-block > a'):
mushrooms[style].append(el.text)
mushrooms[style] = list(set(mushrooms[style]))
# Парсим названия грибов
parser_name('edible', 'http://ya-gribnik.ru/syedobnye-griby.php')
parser_name('inedible', 'http://ya-gribnik.ru/nesyedobnye-griby.php')
parser_name('poisonous', 'http://ya-gribnik.ru/yadovitye-griby.php')
parser_name('hallucinogenic', 'http://ya-gribnik.ru/info/gallucinogennye-griby.php')
print('The name of the mushrooms is ready')
isdir = 'PATH' # Путь к папке
dataset = {'Train': 16, 'Valid': 4, 'Test': 2} # Распределение фото в датасете
# Цикл для создания директорий и скачивания фото
number_file = 1 # Счётчик фото
for sample, count in dataset.items():
if not os.path.exists(f'{isdir}\\{sample}'):
os.mkdir(f'{isdir}\\{sample}')
for key in mushrooms.keys():
for name in mushrooms[key]:
if not os.path.exists(f'{isdir}\\{sample}\\{key}'):
os.mkdir(f'{isdir}\\{sample}\\{key}')
google_crawler = GoogleImageCrawler(
storage={
'root_dir': f'{isdir}\\{sample}\\{key}'
})
# Переделать в функцию скачивания
google_crawler.crawl(keyword=f'Гриб {name} фото',
max_num=count,
filters=dict(size='medium' if sample == 'Train' else 'large')
)
# Переименование фотографий
for name_file in os.listdir(f'{isdir}\\{sample}\\{key}\\'):
if name_file[0] != 'M':
os.rename(f'{isdir}\\{sample}\\{key}\\{name_file}',
f'{isdir}\\{sample}\\{key}\\M{str(number_file).rjust(6, "0")}'
f'.{name_file[len(name_file) - 3:]}')
number_file += 1
number_file = 1
# Скачивание фотографий не относящихся к грибам
key = 'No'
if not os.path.exists(f'{isdir}\\{sample}\\{key}'):
os.mkdir(f'{isdir}\\{sample}\\{key}')
no_mushrooms = ['человек', 'стол', 'блюдо']
for name_photo in no_mushrooms:
google_crawler = GoogleImageCrawler(
storage={
'root_dir': f'{isdir}\\{sample}\\{key}'
})
google_crawler.crawl(keyword=f'Фото {name_photo}',
max_num=count,
filters=dict(size='medium' if sample == 'Train' else 'large')
)
# Переименовывание фото
for name_file in os.listdir(f'{isdir}\\{sample}\\{key}\\'):
if name_file[0] != 'M':
os.rename(f'{isdir}\\{sample}\\{key}\\{name_file}',
f'{isdir}\\{sample}\\{key}\\M{str(number_file).rjust(6, "0")}'
f'.{name_file[len(name_file) - 3:]}')
number_file += 1
number_file = 1
# Изменение размерности изображения
key = 'No'
for sample, _ in dataset.items():
for key in os.listdir(f'{isdir}\\{sample}'):
for name_file in os.listdir(f'{isdir}\\{sample}\\{key}'):
img = Image.open(f'{isdir}\\{sample}\\{key}\\{name_file}')
new_image = img.resize((224, 224))
new_image = new_image.convert('RGB')
new_image.save(f'{isdir}\\{sample}\\{key}\\{name_file}')
print(f'The {sample}\\{key} folder has been processed')
# Общее время работы программы
print(f'Program execution time: {datetime.now() - start_time}')