Какими бывают базы данных сельхозпредприятий
По методу формирования базы данных можно разделить на профессиональные (созданные вручную) и базы данных автоматизированного сбора. Профессиональные в свою очередь делятся на регулярные и специальные. Регулярные базы данных, это те, которые содержат в себе общую информацию о предприятиях АПК и регулярно, как правило раз в год, обновляются. В общую информацию о предприятии включают данные о наименовании, руководителе, фактическом и электронном адресе, телефонах, разделе отрасли и о выпускаемой продукции.
Специальные базы данных могут содержать любую важную для заказчика специфическую информацию об организациях. Это могут быть финансовые показатели (выручка, прибыть, активы, налоги и т.д.), уставные данные, судебная нагрузка, площадь обрабатываемых земель, использование в производственной деятельности того или иного оборудования. Специальные базы данных формируются под конкретного заказчика.
И регулярные и специальные базы данных создаются и обновляются вручную. Это всегда прочитанная, проверенная, исправленная или дополненная строка перечня. Актуализация, то есть приведение к достоверности, происходит методом сравнения данных справочника с группой источников и телефонным звонком, разговором с человеком. Понятное дело, что такой организации, как Агросправочник, нет нужды ежегодно создавать новую регулярную базу данных, достаточно поддерживать её в актуальном состоянии. Но и этот процесс занимает у нас около 5 месяцев ежегодно. А вот любая специальная база данных всегда частично создаётся заново и занимает от двух до восьми недель. Ограниченный территориальным и отраслевым признаками список дополняется специфическими данными из соответствующих источников. Мы уже приводили в статьях пример справочника предприятий Южного федерального округа России, выращивающих пшеницу и использующих в своей работе оборудование конкретной торговой марки. Это и есть специальная база данных. Дополнив её финансовыми показателями, мы передали заказчику полноценный рабочий инструмент для точного маркетинга.
Также к специальным базам данных можно отнести справочники, типа «100 крупнейших». 100 крупнейших молочно-товарных ферм России, 100 крупнейших птицеводческих или тепличных предприятий. Такие подборки выпускаются не регулярно, а скорее, когда отрасль демонстрирует соответствующие показатели, например – с приходом «новых денег».
Как формируются регулярные и специальные базы данных
Формирование базы данных начинается с обработки (читай: исправления) данных бо́льшего порядка. Обращаемся к базе данных Федеральной налоговой службы, выделяем из неё организации, чьи виды экономической деятельности соответствуют нашим интересам, сегментируем по географическому признаку и начинаем обработку. Важным этапом здесь является выяснение факта ведения предприятием хозяйственной деятельности. Ведь организация может быть зарегистрирована, но может ничего не производить, ничего не выращивать, ничем не владеть. Такие предприятия нас не интересуют, ведь они не участвуют в экономической деятельности и не интересны нашим заказчикам. Так организаций в списке становится значительно меньше.
Далее необходимо выяснить актуальные способы связи с предприятием. По нашим наблюдениям, юридические лица всё чаще предпочитают указывать при регистрации телефон и адрес электронной почты (если указывают его), которые фактически не используются организацией. Виной тому гвалт рекламных предложений (в основном, от банков), обрушивающийся на телефон и почту сразу после начала процедуры оформления. Практика вынуждает использовать временные номера телефонов, от которых можно будет отказаться после регистрации, чтобы не получать тонны спама на постоянной основе. Либо это номера бухгалтера или юриста, которые также не любят нежелательные звонки. Для выяснения актуальных способов связи обращаемся к другим источникам. Единый федеральный реестр сведений о фактах деятельности юридических лиц, СПАРК-Интерфакс, поисковая система Яндекс и Росреестр. Как правило, этих источников хватает для получения основной информации об организации. Часть сведений о себе предприятия любезно предоставляют сами на своих сайтах, но таких пока ещё очень мало.
Вслед за этим связываемся с организациями и подтверждаем/опровергаем, исправляем и дополняем информацию о них. Так, по прошествии нескольких месяцев и труда нескольких сотрудников, основа базы данных готова. Мы получили перечень, с которым можно работать. В ходе ежегодных обновлений сведения медленно дополняются новыми знаниями, обнаруживаются связи, выясняются подробности, не отражённые ни в одном реестре.
Базы данных автоматизированного сбора
Автоматизированный сбор базы данных из открытых источников называется па́рсингом (от англ. parsing – разбор, анализ) и производится с помощью специальных программ – па́рсеров. Программист задаёт алгоритм поиска нужной информации на сайте-источнике, и программа ищет данные, сравнивая каждую строку программного кода сайта с заданной формулой поиска. Полученные данные записываются в удобном виде в отдельный файл, например, в документ Microsoft Excel.
В зависимости от объёма данных и предпринятых владельцем сайта-источника мер по защите информации от автоматизированного сбора, процесс занимает от нескольких минут до нескольких дней. Собственно, отсюда в сети и появляются предложения о продаже «самой актуальной базы данных 200 000 сельхозпредприятий России» с актуализацией каждый месяц или даже в день обращения.
Невозможно обработать 200 000 строк базы данных вручную за короткое время. Даже если тратить на анализ, подтверждение и запись информации об одной организации всего три минуты, то для формирования такой обширной базы данных понадобилось бы 10 000 человеко-часов. При одновременной работе сразу 3 специалистов по 8 часов в день, без перерывов на обед и покурить, без праздников и выходных, понадобилось бы почти 14 месяцев. Это простая математика.
Источником данных для автоматизированного сбора чаще становятся каталоги организаций поисковой системы Яндекс, электронные справочники 2ГИС, справочник Налоговой службы или сельскохозяйственные доски объявлений. О последних важно знать, что чаще всего такие сайты не волнует актуальность данных, для них важны только переходы пользователей на страницы их сайта. За переходы владельцы получают деньги за демонстрацию рекламы на своих страницах. Достоверность данных становится лишним и дорогостоящим условием, которое никак не влияет на заработок. Подлинных перечней в открытом доступе не существует.
В случае с индивидуальным заказом, стоимость работ по па́рсингу данных с одного сайта-донора обойдётся в 1000 рублей за 10 000 единиц данных. При парсинге раздела каталога из Яндекс, вы заплатите 2000 рублей за всё. Столько сто́ят услуги квалифицированного специалиста. То есть вам даже не придётся разбираться в принципе работы программы-па́рсера и в её настройках. Если же вы умеете это делать сами, то ваши затраты сводятся к стоимости затраченной электроэнергии и бутерброда с чаем.
В чём проблемы базы данных, собранной с помощью парсера
-
Во-первых, проблема с актуальностью. То есть ошибки в соответствии записей базы данных действительности. Повторим, в открытом доступе в сети нет и никогда не было хотя бы даже на треть достоверного перечня сельскохозяйственных организаций России. Мы знаем, мы проверяли. Министерство сельского хозяйства не предоставляет списка предприятий отрасли в открытый доступ, того же не делают органы муниципальной власти. На сайтах региональных управлений Минсельхоза можно встретить такие данные, но охватывают они лишь один регион, опубликованы они были один раз 10-15 лет назад, и после этого не редактировались и не обновлялись, потому что Управления просто не обязаны этого делать.
-
Во-вторых, проблемы в синтаксисе. Проще говоря – ошибки в записях. При автоматическом сборе данных, программа ориентируется на маячки, участки программного кода сайта-донора, которые подсказывают ей, что сейчас последует нужная информация. Например, читая код, программа находит запись «@» и справедливо считает, что перед ней адрес электронной почты. Программа захватывает ограниченные пробелами с двух сторон данные перед и после символа «@». Их она и записывает в поле «Email» формируемой базы данных. Программу вряд ли волнует, что лишний пробел или его отсутствие в записи адреса, превратит его в набор символов, непригодный для использования. Разнообразие форматов записей донора, ошибки, допущенные при занесении данных на сайт, отсутствующие участки данных заставляют программу спотыкаться и вписывать в готовый документ непригодные данные. Аббревиатуры, наименования, фамилии, имена, улицы – программа не различает их, она механически вписывает данные не осознавая их, а пользуясь формулой, в которой нужные данные ограничены знаками препинания.
- В-третьих, отсутствие ответственности. Продавцы баз данных, собранных с помощью па́рсинга, в большинстве своём действуют без образования юридического лица. Они не платят налоги, они не содержат штат сотрудников. Просто Иван, просто пришлите деньги на карту. Их не волнует репутация, они не разбираются в продукте, который предлагают. Юные и неопытные, они искренне полагают, что всё делают правильно. Скорее всего деньги вам вернуть не удастся, ибо в таком случае, с точки зрения продавца, это вы пытаетесь его обмануть и получить ценную информацию бесплатно.

Почему база данных столько стоит
Внимательный читатель и сам уже всё понял. Стоимость вложений в производство справочника отличается грандиозно. Добросовестной организации нужно оплатить труд сотрудников, телефонные звонки, заплатить налоги, понести организационные расходы. В итоге, стоимость производства актуальной базы данных легко перешагивает отметку в миллион рублей. Отсюда и рождается справедливая цена за качественный продукт.
Затраты же авантюриста, предлагающего быстрый и дешёвый результат, стремятся к нулю. Инструменты сети интернет позволяют ему безопасно, без последствий, распространить информацию о своём предложении и ждать «экономного» покупателя.
Поучительная история
Можно сказать, что невелика́ потеря, 2 – 3 тысячи рублей на ошибку, можно закрыть глаза и пойти дальше. Однако, здесь не всё так просто. Мне вспоминается история нашего клиента, который, до обращения к нам, воспользовался такой «клюквенной» базой. Неожидающий подвоха производитель изделий из металла решил сделать почтовую рассылку с рекламой своей продукции по сельхозпредприятиям Приволжья, центра и юга России. Заказал в типографии 20 000 красочных брошюр, столько же конвертов с индивидуальным рисунком, оплатил печать адресов из базы данных на каждом конверте, оплатил марки, работу по их нанесению, стёр пальцы подписывая каждое отправление и запаковывая каждый конверт. Он затратил более 120 000 рублей. Надо ли говорить, что бо́льшая часть писем вернулась отправителю с пометкой «адресат не найден». Не важно, отправляете ли вы письма по почте, обзваниваете клиентов или отправляете им электронные сообщения – вы тратите время и деньги. На оплату труда сотрудников, выполняющих пустую работу, на оплату телефонной связи, для беседы с жителем квартиры, чей телефон был указан как СХО, на продукцию типографии, которая не доходит до получателя, на услуги специалистов, рассылающих ваши сообщения на «мёртвые» электронные адреса. Старое доброе «Скупой платит дважды» как никогда актуально в нашем деле. Доверять стоит профессионалам, тогда результат не разочарует.