<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Комментарии: Пример очистки данных</title>
	<atom:link href="http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/feed/" rel="self" type="application/rss+xml" />
	<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/</link>
	<description>Посмотрим, глубока ли кроличья нора</description>
	<lastBuildDate>Tue, 07 Feb 2012 11:27:23 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
	<item>
		<title>Автор: igor</title>
		<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/comment-page-1/#comment-12926</link>
		<dc:creator>igor</dc:creator>
		<pubDate>Sat, 31 May 2008 10:59:10 +0000</pubDate>
		<guid isPermaLink="false">http://www.artamonov.ru/2006/07/12/primer-ochistki-dannyih/#comment-12926</guid>
		<description>Ну да, похожесть это один из пунктов, если прочитаете внимательней.</description>
		<content:encoded><![CDATA[<p>Ну да, похожесть это один из пунктов, если прочитаете внимательней.</p>]]></content:encoded>
	</item>
	<item>
		<title>Автор: kmmbvnr</title>
		<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/comment-page-1/#comment-12923</link>
		<dc:creator>kmmbvnr</dc:creator>
		<pubDate>Sat, 31 May 2008 05:32:56 +0000</pubDate>
		<guid isPermaLink="false">http://www.artamonov.ru/2006/07/12/primer-ochistki-dannyih/#comment-12923</guid>
		<description>Просто так группировать данные достаточно сложно.

Я бы пошел с обратной стороны, взял бы справочник подходящих компаний данного региона, и уже пытался бы классифицировать каждый вариант ручного ввода, по похожести на названия из справочника.

Если введенное примерно хорошо попадает под несколько компаний - уходит на ручной разбор.</description>
		<content:encoded><![CDATA[<p>Просто так группировать данные достаточно сложно.</p><p>Я бы пошел с обратной стороны, взял бы справочник подходящих компаний данного региона, и уже пытался бы классифицировать каждый вариант ручного ввода, по похожести на названия из справочника.</p><p>Если введенное примерно хорошо попадает под несколько компаний&nbsp;&mdash; уходит на ручной разбор.</p>]]></content:encoded>
	</item>
	<item>
		<title>Автор: 0xdeadc0de</title>
		<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/comment-page-1/#comment-12612</link>
		<dc:creator>0xdeadc0de</dc:creator>
		<pubDate>Mon, 14 Apr 2008 15:34:04 +0000</pubDate>
		<guid isPermaLink="false">http://www.artamonov.ru/2006/07/12/primer-ochistki-dannyih/#comment-12612</guid>
		<description>Если названия длинные - то можно применить complearn.org
Вообще очень красивая и универсальная технология.
Но для коротких названий может не пойти.</description>
		<content:encoded><![CDATA[<p>Если названия длинные&nbsp;&mdash; то можно применить complearn.org</p><p>Вообще очень красивая и универсальная технология.</p><p>Но для коротких названий может не пойти.</p>]]></content:encoded>
	</item>
	<item>
		<title>Автор: иван</title>
		<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/comment-page-1/#comment-6936</link>
		<dc:creator>иван</dc:creator>
		<pubDate>Wed, 26 Sep 2007 17:38:57 +0000</pubDate>
		<guid isPermaLink="false">http://www.artamonov.ru/2006/07/12/primer-ochistki-dannyih/#comment-6936</guid>
		<description>Хэширование + конечные автоматы = решаемая задача
MatLab для моделирования</description>
		<content:encoded><![CDATA[<p>Хэширование + конечные автоматы = решаемая задача</p><p>MatLab для моделирования</p>]]></content:encoded>
	</item>
	<item>
		<title>Автор: Михаил Конинин</title>
		<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/comment-page-1/#comment-186</link>
		<dc:creator>Михаил Конинин</dc:creator>
		<pubDate>Sat, 29 Jul 2006 07:18:06 +0000</pubDate>
		<guid isPermaLink="false">http://www.artamonov.ru/2006/07/12/primer-ochistki-dannyih/#comment-186</guid>
		<description>Решал я как-то давно подобную задачу - однозначное сопоставление компаний из разных баз. Правда названия там были более-менее похожи.

Сильно я не замарачивался, пришел к следующему алгоритму: 

1) Вырезал орг.форму (ОАО, ООО, и т.п.)

2) Удалял из строки все пробелы, тире, запятые и пр. незначимые символы. Для того чтобы поймать компании с различным написаниям: &quot;Регистр А-Плюс&quot; и &quot;Регистр А Плюс&quot;

3) А потом тупо сопоставлял в Access по двум-трем полям:

-Название,
-Орг.форма,
-Регион.

Подразумевалось, что если компания с таким названим одна в данном регионе, то это искомая компания. А вот если их несколько, то либо руками, либо никак.

А так как у меня в одной базе было только два информативных поля (название и регион), то если две компании с одинаковыми названиямии в регионе - я их никак не сопоставлял.</description>
		<content:encoded><![CDATA[<p>Решал я как-то давно подобную задачу&nbsp;&mdash; однозначное сопоставление компаний из разных баз. Правда названия там были более-менее похожи.</p><p>Сильно я не замарачивался, пришел к следующему алгоритму: </p><p>1) Вырезал орг.форму (ОАО, ООО, и т.п.)</p><p>2) Удалял из строки все пробелы, тире, запятые и пр. незначимые символы. Для того чтобы поймать компании с различным написаниям: &laquo;Регистр А-Плюс&raquo; и &laquo;Регистр А Плюс&raquo;</p><p>3) А потом тупо сопоставлял в Access по двум-трем полям:</p><p>-Название,</p><p>-Орг.форма,</p><p>-Регион.</p><p>Подразумевалось, что если компания с таким названим одна в данном регионе, то это искомая компания. А вот если их несколько, то либо руками, либо никак.</p><p>А так как у меня в одной базе было только два информативных поля (название и регион), то если две компании с одинаковыми названиямии в регионе&nbsp;&mdash; я их никак не сопоставлял.</p>]]></content:encoded>
	</item>
	<item>
		<title>Автор: igor</title>
		<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/comment-page-1/#comment-181</link>
		<dc:creator>igor</dc:creator>
		<pubDate>Fri, 28 Jul 2006 07:06:43 +0000</pubDate>
		<guid isPermaLink="false">http://www.artamonov.ru/2006/07/12/primer-ochistki-dannyih/#comment-181</guid>
		<description>Про уведомления по почте надо подумать, может решу как это сделать.</description>
		<content:encoded><![CDATA[<p>Про уведомления по почте надо подумать, может решу как это сделать.</p>]]></content:encoded>
	</item>
	<item>
		<title>Автор: Игорь</title>
		<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/comment-page-1/#comment-179</link>
		<dc:creator>Игорь</dc:creator>
		<pubDate>Fri, 28 Jul 2006 04:32:30 +0000</pubDate>
		<guid isPermaLink="false">http://www.artamonov.ru/2006/07/12/primer-ochistki-dannyih/#comment-179</guid>
		<description>Это ограничение само собой присутствует. Просто из приведённых условий задачи не ясно, что заказчик хочет знать ПОЧЕМУ не прошла классификация.

Заказчику бывает полезно предложить на выбор: либо 3-4 дня времени на создание и обучение нейронной сети, которая точно будет работать, но неизвестно каким образом, либо 3-4 недели написания и отладки синтаксического анализатора, который тоже скорее всего будет работать, но предсказуемо и понятно. Классический выбор между технологиями искусственного интеллекта и алгоритмическим подходом, между прочим :)

P.S. Кстати, можно как-нибудь на Вашем сайте получать уведомления о новых комментариях по почте?</description>
		<content:encoded><![CDATA[<p>Это ограничение само собой присутствует. Просто из приведённых условий задачи не ясно, что заказчик хочет знать ПОЧЕМУ не прошла классификация.</p><p>Заказчику бывает полезно предложить на выбор: либо 3-4 дня времени на создание и обучение нейронной сети, которая точно будет работать, но неизвестно каким образом, либо 3-4 недели написания и отладки синтаксического анализатора, который тоже скорее всего будет работать, но предсказуемо и понятно. Классический выбор между технологиями искусственного интеллекта и алгоритмическим подходом, между прочим <img src='http://artamonov.ru/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p><p>P.S. Кстати, можно как-нибудь на Вашем сайте получать уведомления о новых комментариях по почте?</p>]]></content:encoded>
	</item>
	<item>
		<title>Автор: igor</title>
		<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/comment-page-1/#comment-177</link>
		<dc:creator>igor</dc:creator>
		<pubDate>Thu, 27 Jul 2006 21:00:48 +0000</pubDate>
		<guid isPermaLink="false">http://www.artamonov.ru/2006/07/12/primer-ochistki-dannyih/#comment-177</guid>
		<description>Точно! У меня что-то в голове покрутилось подобное сомнение по поводу нейронных сетей, но сформулировать не смог :)</description>
		<content:encoded><![CDATA[<p>Точно! У меня что-то в голове покрутилось подобное сомнение по поводу нейронных сетей, но сформулировать не смог <img src='http://artamonov.ru/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>]]></content:encoded>
	</item>
	<item>
		<title>Автор: Дмитрий</title>
		<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/comment-page-1/#comment-176</link>
		<dc:creator>Дмитрий</dc:creator>
		<pubDate>Thu, 27 Jul 2006 18:04:00 +0000</pubDate>
		<guid isPermaLink="false">http://www.artamonov.ru/2006/07/12/primer-ochistki-dannyih/#comment-176</guid>
		<description>Нейронные сети плохи неинтерпретируемостью результата. Это очень серьезное ограничение для большинства заказчиков, которые хотят иметь возможность получать ответ на вопрос &quot;почему&quot; --- понимать мотивацию всех изменений в их данных.</description>
		<content:encoded><![CDATA[<p>Нейронные сети плохи неинтерпретируемостью результата. Это очень серьезное ограничение для большинства заказчиков, которые хотят иметь возможность получать ответ на вопрос &laquo;почему&raquo;&nbsp;&mdash; понимать мотивацию всех изменений в их данных.</p>]]></content:encoded>
	</item>
	<item>
		<title>Автор: igor</title>
		<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/comment-page-1/#comment-174</link>
		<dc:creator>igor</dc:creator>
		<pubDate>Thu, 27 Jul 2006 13:36:24 +0000</pubDate>
		<guid isPermaLink="false">http://www.artamonov.ru/2006/07/12/primer-ochistki-dannyih/#comment-174</guid>
		<description>Пока как-то до нейронных сетей не дошли, по крайней мере в этой задаче :)</description>
		<content:encoded><![CDATA[<p>Пока как-то до нейронных сетей не дошли, по крайней мере в этой задаче <img src='http://artamonov.ru/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>]]></content:encoded>
	</item>
</channel>
</rss>

