<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Игорь Артамонов &#187; Мои проекты</title>
	<atom:link href="http://artamonov.ru/category/myprojects/feed/" rel="self" type="application/rss+xml" />
	<link>http://artamonov.ru</link>
	<description>Посмотрим, глубока ли кроличья нора</description>
	<lastBuildDate>Wed, 11 Apr 2012 09:28:26 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.2</generator>
		<item>
		<title>Купоны, групоны и пр</title>
		<link>http://artamonov.ru/2011/04/08/coupons-groupon-etc/</link>
		<comments>http://artamonov.ru/2011/04/08/coupons-groupon-etc/#comments</comments>
		<pubDate>Fri, 08 Apr 2011 13:20:27 +0000</pubDate>
		<dc:creator>splix</dc:creator>
				<category><![CDATA[Web]]></category>
		<category><![CDATA[Бизнес]]></category>
		<category><![CDATA[Мои проекты]]></category>
		<category><![CDATA[groupon]]></category>
		<category><![CDATA[kupivip]]></category>

		<guid isPermaLink="false">http://artamonov.ru/?p=668</guid>
		<description><![CDATA[Пару лет назад я был на собеседовании в странной, на тот момент, компании KupiVip. Странность проявлялаcь в том что она была, на мой взгляд, совершенно оторвана от реальности. Они хотели продавать в инете одежду, причем премиальных брендов. К тому же не всем, пуская на сайт только по приглашениям. Но ожидали они по 100 тыс посетителей [...]]]></description>
			<content:encoded><![CDATA[<p>Пару лет назад я был на собеседовании в странной, на тот момент, компании <a href="http://www.kupivip.ru">KupiVip</a>. Странность проявлялаcь в том что она была, на мой взгляд, совершенно оторвана от реальности. Они хотели продавать в инете одежду, причем премиальных брендов. К тому же не всем, пуская на сайт только по приглашениям. Но ожидали они по 100 тыс посетителей в день. Фарс какой-то? Да и вообще скрытные были, было совершенно непонятно что они хотят сделать.</p>
<p>Потом было много рекламы, буквально на каждом столбу, а по улицам ездила куча машинок доставки, с их логотипом и пр. и пр. И вот недавно их <a href="http://webcrunch.ru/news/2011/03/02/kupi-vip-is-for-sale-or-not/">оценили в 200 млн</a>.  А еще они переtхали в бывший офис Яндекса, что тоже неплохо (как минимум тем что компания выросла, точно не 10 человек).</p>
<p>И знаете что? В конце концов я понял их бизнес. И они мне нравятся, гораздо больше чем <a href="http://groupon.ru/">групоны</a>. Тем что здесь реальные продажи, а в групонах просирание маркетингового бюджета. Кипивип продает новому рынку, а групон привлекает покупателей на текущем. Я, кстати, слышал что уже давно есть магазины распродаж премиум брендов, которые обычно находится далеко от центра, где нибудь за городом, т.е. требование такое. Там куда поедешь только целенаправленно, и поедет тот кто знает какие джинсы он хочет, но покупать их за $200 он не готов, а за $70 готов. Бренду все равно, хоть за $50 продать, это все равно прибыльно. В официальном магазине он не может поставить такую цену, по понятным причинам. </p>
<p>Так что тут все нормально. А с групонами не очень. И клиенты недовольны, и продавцы недовольны, но маркетологи все продают то что не выгодно этому ресторану. А иногда и невыполнимо. Я, конечно, понимаю что это реклама, но, судя по отзывам, обычно плохая. Да и вообще что-то с это бизнес моделью не то, но пока не пойму что конкретно.</p>
]]></content:encoded>
			<wfw:commentRss>http://artamonov.ru/2011/04/08/coupons-groupon-etc/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Konspektov Net</title>
		<link>http://artamonov.ru/2009/12/28/konspektov-net/</link>
		<comments>http://artamonov.ru/2009/12/28/konspektov-net/#comments</comments>
		<pubDate>Mon, 28 Dec 2009 16:48:16 +0000</pubDate>
		<dc:creator>splix</dc:creator>
				<category><![CDATA[Бизнес]]></category>
		<category><![CDATA[Мои проекты]]></category>
		<category><![CDATA[django]]></category>
		<category><![CDATA[gae]]></category>
		<category><![CDATA[google app engine]]></category>
		<category><![CDATA[startup]]></category>

		<guid isPermaLink="false">http://artamonov.ru/?p=353</guid>
		<description><![CDATA[Запустил небольшой сервис для студентов, как раз к сессии. Это сервис совместной подготовки к экзамену: www.konspektov.net Идея сервиса: создаешь на сайте новый экзаменационный билет (а именно список вопросов к нему), передаешь ссылку на него своим друзьям/одногрупникам, каждый берет себе один из вопросов и пишет на него ответ. В результате у всех есть готовый список вопросов [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://www.konspektov.net"><img src="http://artamonov.ru/wp-content/uploads/2009/12/logo.png" alt="" title="konspektov.net" width="193" height="44" style="float: left; padding: 10px; border: 0" /></a><br />
Запустил небольшой сервис для студентов, как раз к сессии. Это сервис совместной подготовки к экзамену: <a href="http://www.konspektov.net">www.konspektov.net</a><a href="http://artamonov.ru/wp-content/uploads/2009/12/logo.png"></a></p>
<p>Идея сервиса: создаешь на сайте новый экзаменационный билет (а именно список вопросов к нему), передаешь ссылку на него своим друзьям/одногрупникам, каждый берет себе один из вопросов и пишет на него ответ. В результате у всех есть готовый список вопросов и ответов, который можно печатать, учить или делать шпоры, кому как удобней.</p>
<p>Идея простая, и плавает на поверхности. Все равно все так или иначе это делают, кто-то пересылкой по email, кто-то Google Docs использует. А это специализированный инструмент для данной задачи.</p>
<p>Запускать решил сразу, сходу, как только получился прототип. Решил поэксперементировать, попробовать на практике что такое &laquo;выкатывать как можно раньше&raquo;. Запостил сегодня ссылку <a href="http://habrahabr.ru/blogs/i_am_advertising/79550/">на хабре</a>, в результате через 20 минут топик вышел на главную, рейтинг держится на уровне +40, ~80 комментариев, пара тысяч уников на сайте, и куча советов, идей и пр. Ни смотря на такую сырость сервиса, было мало эмоциональной критики, все общение было по делу и судя по всему это очень востребованный сервис, можно доделывать. Так что показывать такую альфа-версию вовсе не страшно, и даже очень полезно. Буду иметь ввиду <img src='http://artamonov.ru/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://artamonov.ru/2009/12/28/konspektov-net/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Dataset Publisher</title>
		<link>http://artamonov.ru/2009/12/15/dataset-publisher/</link>
		<comments>http://artamonov.ru/2009/12/15/dataset-publisher/#comments</comments>
		<pubDate>Tue, 15 Dec 2009 10:08:21 +0000</pubDate>
		<dc:creator>splix</dc:creator>
				<category><![CDATA[Python]]></category>
		<category><![CDATA[Мои проекты]]></category>
		<category><![CDATA[Новые технологии]]></category>
		<category><![CDATA[datasets]]></category>
		<category><![CDATA[django]]></category>
		<category><![CDATA[gae]]></category>
		<category><![CDATA[google app engine]]></category>
		<category><![CDATA[torrent]]></category>

		<guid isPermaLink="false">http://artamonov.ru/?p=344</guid>
		<description><![CDATA[Кто нибудь занимается datamining, textmining, ir и прочими делами с большими массивами данных? Вот запустил небольшой сервис: datasetpublisher.com&#160;&#8212; торрент трекер для коллекций данных. Т.е. чтобы не качать очередные 5G дампа википедии со скоростью 70Kb/s (докачается как раз к моменту когда выложат новый дамп), а скачать с нормальной скоростью через торрент. Только запустил, поэтому там пока [...]]]></description>
			<content:encoded><![CDATA[<p><img src="http://artamonov.ru/wp-content/uploads/2009/12/datasetpublisher.png" alt="datasetpublisher" title="datasetpublisher" width="200" height="122" style="float: right; margin-left: 10px; margin-bottom: 10px" /></p>
<p>Кто нибудь занимается datamining, textmining, ir и прочими делами с большими массивами данных? Вот запустил небольшой сервис: <a href="http://www.datasetpublisher.com">datasetpublisher.com</a>&nbsp;&mdash; торрент трекер для коллекций данных. Т.е. чтобы не качать очередные 5G дампа википедии со скоростью 70Kb/s (докачается как раз к моменту когда выложат новый дамп), а скачать с нормальной скоростью через торрент. </p>
<p>Только запустил, поэтому там пока пусто, но будем наполнять. Если есть желание и есть что&nbsp;&mdash; то выкладывайте. Я, в свою очередь, постараюсь донести об этом сервисе до всех заинтересованных лиц.</p>
<p>Проект запущен на <a href="http://code.google.com/appengine/">Google App Engine</a>, что собственно и послужило причиной его появления. Уж очень я в последнее время заинтересовался этой платформой, и решил поэксперементировать. А так как я очень не люблю что-то делать &laquo;в корзину&raquo;, и считаю что подобные эксперименты, помимо исследовательской цели, должны принести конкретный применимый сейчас результат. И вспомнил разговор с <a href="http://ivan.begtin.name/">Иваном Бегтиным</a>, незадолго до этого, о том что неплохо бы иметь подобный ресурс. Теперь он есть. И с GAE разобрался, на него еще посмотрю как вести себя будет, и напишу свое мнение.</p>
]]></content:encoded>
			<wfw:commentRss>http://artamonov.ru/2009/12/15/dataset-publisher/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Изучение языка минипогружением</title>
		<link>http://artamonov.ru/2008/09/03/izuchenie-yazyka-minipogruzheniem/</link>
		<comments>http://artamonov.ru/2008/09/03/izuchenie-yazyka-minipogruzheniem/#comments</comments>
		<pubDate>Wed, 03 Sep 2008 07:27:55 +0000</pubDate>
		<dc:creator>splix</dc:creator>
				<category><![CDATA[Мои проекты]]></category>
		<category><![CDATA[Новые технологии]]></category>
		<category><![CDATA[идея]]></category>
		<category><![CDATA[самосовершенствование]]></category>

		<guid isPermaLink="false">http://artamonov.ru/?p=112</guid>
		<description><![CDATA[Опубликовал небольшую идею на хабре: Изучение языка минипогружением. Если кто есть оттуда&#160;&#8212; посмотрите, плюсаните, прокомментируйте.]]></description>
			<content:encoded><![CDATA[<p>Опубликовал небольшую идею на хабре: <a href="http://habrahabr.ru/blogs/startup_ideas/38776/">Изучение языка минипогружением</a>. Если кто есть оттуда&nbsp;&mdash; посмотрите, плюсаните, прокомментируйте.</p>
]]></content:encoded>
			<wfw:commentRss>http://artamonov.ru/2008/09/03/izuchenie-yazyka-minipogruzheniem/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Обсуждения книг</title>
		<link>http://artamonov.ru/2008/05/30/obsuzhdeniya-knig/</link>
		<comments>http://artamonov.ru/2008/05/30/obsuzhdeniya-knig/#comments</comments>
		<pubDate>Fri, 30 May 2008 12:13:44 +0000</pubDate>
		<dc:creator>splix</dc:creator>
				<category><![CDATA[Книги]]></category>
		<category><![CDATA[Мои проекты]]></category>
		<category><![CDATA[drupal]]></category>
		<category><![CDATA[web2.0]]></category>
		<category><![CDATA[бизнес идея]]></category>
		<category><![CDATA[социальные сети]]></category>
		<category><![CDATA[стартап]]></category>

		<guid isPermaLink="false">http://artamonov.ru/?p=77</guid>
		<description><![CDATA[Я так как то настроил себя что постоянно читаю книги на новые для меня темы, для повышения своего уровня. Я, как и многие из нас, знаю что запоминанию прочитанного способствует последующее обсуждение этого материала, это позволяет лучше формализовать и уложить по полочкам весь материал. Имею ввиду, конечно, не художественную литературу, а техническую, бизнес и пр. [...]]]></description>
			<content:encoded><![CDATA[<p>Я так как то настроил себя что постоянно читаю книги на новые для меня темы, для повышения своего уровня. Я, как и многие из нас, знаю что запоминанию прочитанного способствует последующее обсуждение этого материала, это позволяет лучше формализовать и уложить по полочкам весь материал. Имею ввиду, конечно, не художественную литературу, а техническую, бизнес и пр. </p>
<p>Но в таком случае встает проблема нахождения собеседников. Так вот я предлагаю организовать такой небольшой сервис, помогающий в этом. Причем в таком сервисе заинтересованы и те кто в данный момент читает и хотел бы закрепить материал, так и те кто готовы лишь выслушать и поучаствовать в обсуждении, т.к. без затрат времени на чтение позволяет получить новые знания, может не в той мере как от чтения, но все же. </p>
<p>Требования к подобной системе просты: </p>
<ol>
<li>На сайте сервиса читатель объявляет книгу, которую он в данный момент читает.<br />
По мере чтения, к примеру после очередной главы, он на сайте указывает время в которое собирается обсудить очередной блок.</li>
<li>Желающие побеседовать на эту тему, обсудить книгу или просто послушать умных людей подписываются на сообщения читателя (rss, ical и пр.). Т.е. главное чтобы все были проинформированы за несколько часов. </li>
<li>В оговоренное время читатель начинает голосовое обсуждение через skype. Там есть возможность проводить как конференции для нескольких равноправных участников, так и трансляция skypecast с голосовыми «вопросами из зала», по решению модератора (сумбурно объяснил, подробнее можно прочитать на сайте skype). Денег за это не просят.</li>
</ol>
<p><span id="more-77"></span><br />
Сам сайт технически легко настраивается на основе Drupal, буквально за день/два. Плюс заказать и прикрутить дизайн. Основная нагрузка ляжет на skype, поэтому с хостингом и пр. тоже сложностей нет. </p>
<p>Доход правда тоже не предполагается большой, надежда, в основном, на партнерские программы с книжными on-line магазинами. Но таргетинг в данном случае очень неплохой. Сколько по деньгам не считал, но предполагаю что особо озолотится не получится, наверное окупит скромные расходы и не больше. Но кто знает, кто знает...</p>
<p>Пользователи сервиса должны найтись, помимо того что сам иногда задаюсь таким вопросом, так и периодически натыкаюсь на подобные пожелания у других людей.</p>
<p>Мне сейчас не до запуска подобного мини проекта, поэтому если у кого есть желание то дерзайте. Вполне себе такой web 2.0, в лучших традициях. Только меня предупредите, т.к. я как минимум первый пользователь, а как максимум сам могу найти людей для реализации, если никто не возьмется. Ну или могу как то посильно поучаствовать.</p>
<p>P.S. Россия самая читающая страна в мире, или как? <img src='http://artamonov.ru/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://artamonov.ru/2008/05/30/obsuzhdeniya-knig/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>Пример очистки данных</title>
		<link>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/</link>
		<comments>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/#comments</comments>
		<pubDate>Wed, 12 Jul 2006 06:18:01 +0000</pubDate>
		<dc:creator>splix</dc:creator>
				<category><![CDATA[Мои проекты]]></category>
		<category><![CDATA[Обработка данных]]></category>
		<category><![CDATA[Программирование]]></category>
		<category><![CDATA[data mining]]></category>
		<category><![CDATA[text mining]]></category>
		<category><![CDATA[алгоритм]]></category>
		<category><![CDATA[бренды]]></category>

		<guid isPermaLink="false">http://www.artamonov.ru/2006/07/12/primer-ochistki-dannyih/</guid>
		<description><![CDATA[Я практически ничего не писал о том, чем именно я сейчас занимаюсь, но это у меня часто спрашивают, и мало кому понятно, что такое &#171;Очистка данных&#187;. Постараюсь это объяснить. Очистка данных нужна, к примеру, организации, которая анкетирует своих покупателей на предмет того, что и где они покупали. Это может быть по почте, через сайт, еще [...]]]></description>
			<content:encoded><![CDATA[<p>Я практически ничего не писал о том, чем именно я сейчас занимаюсь, но это у меня часто спрашивают, и мало кому понятно, что такое &laquo;Очистка данных&raquo;. Постараюсь это объяснить.<br />
Очистка данных нужна, к примеру, организации, которая анкетирует своих покупателей на предмет того, что и где они покупали. Это может быть по почте, через сайт, еще как-то, источник не важен, но факт что данные могут придти различные.</p>
<p>В общем, расскажу на примере одной недавней задачки.<span id="more-43"></span></p>
<p>Вот возьмем такую задачу: в анкете есть поле, заполняемое названием магазина, а организации, к примеру, надо делать отчет по покупкам в определенных магазинах. Ну хотя этот отчет можно на основе других данных сделать. Да на самом деле неважно, зачем эти данные могу понадобиться, они точно требуются, и в нашем случае важно то, что они должны быть обрабатываемы и понятны.</p>
<p>Начинаем разбирать... Фантазия людей безгранична: вот возьмем к примеру <em>Евросеть</em>, как название только не напишут, могут как <em>&laquo;ЕВРОСЕТЬ ЦЕНТР&raquo;</em>, или <em>&laquo;ЕВРОСЕТЬ (ООО ЦЕНТР ХАБАРОВСК)&raquo;</em>. Ну с этим все более понятно, есть вхождение слова Евросеть и значит нашли магазин.</p>
<p>Следующий вариант это написание типа <em>&laquo;Evroset&raquo;</em>. Сразу не найдем, тут нам надо сделать обратную транслитерацию. А есть, кстати, тот же <em>DIXIS</em>, для которого получается надо делать обратную операцию. </p>
<p>С учетом транслитерации и самих ошибок начинаются проблемы, потому люди пишут и как <em>&laquo;Evroset&raquo;</em>, и как <em>&laquo;Euroset&raquo;</em>, как <em>&laquo;euroset.ru&raquo;</em>, да и в общем-то тоже самое для русского. К тому же бывают опечатки, или просто незнания правильного написания. <em>&laquo;Техносила&raquo;</em> может быть написана как <em>&laquo;TECHNOSILA&raquo;</em>, или как <em>&laquo;TEHNO SILA&raquo;</em> (буковки C вообще нет), и т.д. А как вам <em>&laquo;ЦИФРАГАД&raquo;</em>(видимо не угодил он покупателю) и &laquo;ЦИФР0ГРАД&raquo; (Ноль вместо О, не иначе как кулхаксор писал), или <em>&laquo;ЦЫФРАГРАТ&raquo;</em> (ага, афтар жжет)?<br />
Вывод такой: искать по вхождению не имеет смысла. Перебирать все варианты возможных ошибок, фантазий и пр. для каждого магазина просто нереально. Итого остается вариант искать по близости написания. Т.е. строка сравнивается по написанию со всеми магазинами, и берется тот, который наиболее похож. Естественно нужно еще найти какой-то минимальный порог, меньший 100% совпадения, но очень высокий, чтобы <em>&laquo;ТЕХНОМИКС&raquo;</em> не совпадал с <em>&laquo;ТЕХНОМИР&raquo;</em>.</p>
<p>Сравнивать полную строку нет смысла, потому что чисто символьная разница между &laquo;СВЯЗНОЙ В ОКЕЕ НА МАРШАЛА ЖУКОВА&raquo;, &laquo;СЕТЬ МАГАЗИНОВ САТЕЛЛИТ&raquo; и пр. далека от написания самого названия магазина. Из первой фразы надо сразу убирать адрес, но это просто, мы убираем все окончания начинающиеся на &laquo;на&raquo;, &laquo;у&raquo;, &laquo;ул&raquo;, &laquo;в&raquo;, &laquo;пр&raquo;. Второй случай содержит часто употребимые слова, их можно выделить даже мельком пробежав все названия, хотя лучше с этим справился простенький скрипт. Но, так как даже после этого, во фразе все равно может остаться невыловленный нами мусор, надо сравнивать слова по отдельности, а не всю фразу. </p>
<p>Думаете стало находить? А фиг то там! Потому что если мы начнем таким образом сравнивать &laquo;EURO SET&raquo; и &laquo;BETA LINK&raquo;, или, что еще хуже, &laquo;ЗАОБЕТА ЛИНК СПБ&raquo;, то они станут непохожи, ведь из слова &laquo;BETA LINK&raquo;, что &laquo;бета&raquo; что &laquo;линк&raquo; лишь наполовину похожи на <em>&laquo;беталинк&raquo;</em>... Поэтому надо сравнивать слова не только по одному, но и группами близлежащих, и к тому же не учитывая пробелы...</p>
<p>А еще надо учитывать чтобы из-за этой похожести &laquo;ДОМ.ТЕХНИКА&raquo; не совпал с &laquo;ДОМОТЕХНИКА&raquo; <img src='http://artamonov.ru/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Тут, на самом деле, начинается новая проблема. И если дальше копать, то выясняем что магазинов с элементами &laquo;техно/техника/техникс&raquo;, &laquo;мир&raquo;, &laquo;центр&raquo;, &laquo;видео&raquo; и пр. просто немеряно <img src='http://artamonov.ru/wp-includes/images/smilies/icon_sad.gif' alt=':(' class='wp-smiley' />  А ведь чем длиннее строка тем меньшую непохожесть вносит всего одна опечатка. Поэтому подобные элементы нужно сразу учитывать, чтобы не вносили погрешности. Но, опять же, тут надо учитывать что есть <em>&laquo;М-ВИДЕО&raquo;</em>, который почти полностью состоит из одного из этих самых частоупотребимых элементов. Т.е. в данном случае нельзя отбрасывать эту часть, как мы делали с простым мусором (который упомянул выше, как например &laquo;СЕТЬ МАГАЗИНОВ&raquo;). Эти элементы надо сравнивать как обязательную и неотемлимую часть. И в тоже время требовать, чтобы ничего лишнего не было, т.е. &laquo;МИР ВИДЕО И АУДИО&raquo; это уже должно подпадать под мусор.</p>
<p>Да, и еще, насчет этих частоупотребымих элементов и мусора. Есть не только магазины, который в офлайне, но и интернет-магазины. А уж они то любят занять распространенное слово. И если на сайте telephone.ru продается достаточно товаров чтобы быть заметным, то нужно уметь его выделять. Вы думаете что его пишут как название сайта? Фиг то там! Он и сам себя именует как телефон.ру, и поэтому его пишут например как: &laquo;РОСТОВ.ТЕЛЕФОН.РУ&raquo; и так далее с учетом всех возможных опечаток. И выделяя его, нам ни в коем случае нельзя ошибиться и выделить &laquo;СОТОВЫЕ ТЕЛЕФОНЫ&raquo;. Хотя в действительности для подобных сайтов не требует внесения каких-то особо уникальных вещей в алгоритм, но иметь ввиду это надо.</p>
<p>Ладно, это мы чуток разобрались с общеизвестными брендами, написание которых, чаще все же уникально. А ведь есть некоторые &laquo;псевдобренды&raquo;, или не знаю как назвать. В общем, суть в том, что многим нашим предпринимателям лень думать над уникальным названием, и очень многие берут себе название типа &laquo;МИР&raquo;, &laquo;МИР ТЕХНИКИ&raquo;, &laquo;БЫТОВАЯ ТЕХНИКА&raquo;, &laquo;ЭЛЕКТРОНИКА&raquo;. И этих название просто куча в анкетах, и хотя клиент прекрасно понимает, что как таковой сети магазинов с таким именем нет в природе, но учитывать надо, из-за того, что слишком часто упоминается. И ведь приходится <img src='http://artamonov.ru/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  И, с учетом всего вышенаписанного, &laquo;БЫТОВАЯ ТЕХНИКА&raquo; должна отличатся от &laquo;МИР БЫТОВОЙ ТЕХНИКИ&raquo;, от &laquo;ВИДЕО И БЫТОВАЯ ТЕХНИКА&raquo;, но совпадать с &laquo;БЫТОВАЯ ТЕХНИКА 4&raquo;, &laquo;БЫТОВАЯ ТЕХНИКА МАГАЗИН №12 ЧП СОКОЛОВ С.И.&raquo;, а &laquo;МИР&raquo; не должен совпасть с &laquo;АПЕЛЬСИНОВЫЙ МИР&raquo;, &laquo;МИР ТЕХНИКИ&raquo;, но совпадать с &laquo;МИР В ГИПЕРМАРКЕТЕ СЕМЬЯ&raquo; ну и т.д. Т.е. мусор если и может присутствовать, то только указывающий на месторасположение или тип.</p>
<p>Вот примерно такими вещами я сейчас и занимаюсь, если кому не лень тот может попробовать реализовать такой алгоритм, он не такой уж и сложный <img src='http://artamonov.ru/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Я привел на примере магазинов цифровой техники, но примерно также делается и для многих других вещей: для брендов, названий товаров, автомобилей и пр. что имеет конечный описанный объем названий. А вот когда требуется просто выделить что-то из фразы, к примеру адрес, то тут все гораздо хитрей.<br />
А еще подумайте как вообще можно написать адрес, или телефон, и как же определить настоящие это данные или нет, и поверьте, фантазия людей похоже действительно не имеет границ.<br />
А ведь мало написать выделение данных, нужно чтобы алгоритм сразу отбрасывал, как мусор, данные о человеке типа &laquo;Мери Попинс, ул. Ленина 1 кв. 1, тел. 123-12-34&raquo; <img src='http://artamonov.ru/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </p>
<p>Если интересно, то еще немного можно почитать на OSP.RU: <a href="http://old.osp.ru/pcworld/2006/05/056.htm">Фываяч и Микки Маус</a> и <a href="http://old.osp.ru/pcworld/2006/06/046.htm">Пылесосы в ассортименте</a></p>
]]></content:encoded>
			<wfw:commentRss>http://artamonov.ru/2006/07/12/primer-ochistki-dannyih/feed/</wfw:commentRss>
		<slash:comments>25</slash:comments>
		</item>
		<item>
		<title>Online шифрование</title>
		<link>http://artamonov.ru/2006/04/04/online-shifrovanie/</link>
		<comments>http://artamonov.ru/2006/04/04/online-shifrovanie/#comments</comments>
		<pubDate>Tue, 04 Apr 2006 06:54:25 +0000</pubDate>
		<dc:creator>splix</dc:creator>
				<category><![CDATA[Web]]></category>
		<category><![CDATA[Мои проекты]]></category>

		<guid isPermaLink="false">http://www.artamonov.ru/2006/04/04/online-shifrovanie/</guid>
		<description><![CDATA[Вот сервис для таких параноиков как я: infoencrypt.com Позволяет Online шифровать текст. Использует Blowfish. Все элементарно, зашифровав можно посылать любой англоязычной домохозяйке, наверное разберется как расшифровать (тоже используя этот сервис). Я вот для такого ставил пару раз PGP, но както не получалось использовать, потому что получателю для прочтения придется поставить PGP, что не всегда удобно. [...]]]></description>
			<content:encoded><![CDATA[<p>Вот сервис для таких параноиков как я: <a href="http://infoencrypt.com">infoencrypt.com</a><br />
Позволяет Online шифровать текст. Использует Blowfish. Все элементарно, зашифровав можно посылать любой англоязычной домохозяйке, наверное разберется как расшифровать (тоже используя этот сервис).</p>
<p>Я вот для такого ставил пару раз PGP, но както не получалось использовать, потому что получателю для прочтения придется поставить PGP, что не всегда удобно. А тут открыл страницу и все.</p>
<p>Сделано, собственно мною, по совету другого такогоже параноика <img src='http://artamonov.ru/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' />  Небольшой скрипт на Python и простенький дизайн, но пару вечеров съело <img src='http://artamonov.ru/wp-includes/images/smilies/icon_sad.gif' alt=':(' class='wp-smiley' /> </p>
<p>Что сейчас смущает, так то что там с английским может быть не все в порядке. Меня тут уже поправляли пару человек, но если вы всеже увидите ошибки в английском, то дайте мне знать, я исправлю. </p>
<p>Планирую сделать русскоязычную версию, но только домен .ru жаба душит покупать для такой мелочи. Думаю пойдет ли для этого поддомен ru.infoencrypt.com или нет?</p>
]]></content:encoded>
			<wfw:commentRss>http://artamonov.ru/2006/04/04/online-shifrovanie/feed/</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
	</channel>
</rss>

