Контекстно зависимый способ поиска нечётких дубликатов в реляционных базах данных


https://doi.org/10.15217/issn1684-8853.2015.2.76

Полный текст:


Аннотация

Постановка проблемы: одной из важных проблем в области управления данными является их неполное (нечеткое) дублирование, ведущее к снижению качества, в частности к ошибочной интерпретации информационной системой одного и того же объекта как нескольких разных. Реляционная модель данных, а также промышленные СУБД на основе реляционной модели, позволяют исключить ситуации полного дублирования данных, но не имеют механизмов для распознавания и предотвращения появления нечетких дубликатов. Целью работы является разработка такого способа обнаружения нечетких дубликатов, который мог бы быть реализован в реляционной модели данных и промышленной реляционной СУБД. Результаты: рассмотрена общая для информационных систем проблема нечеткого дублирования, предложены пути внесения смысловой дублирующей информации в реляционную базу данных. Определено, что для решения проблемы неполного дублирования следует использовать механизмы нечеткого сравнения строк с учетом их семантики. Приведен пример практической реализации способа для СУБД PostgreSQL с использованием реляционных механизмов обработки данных. Практическая значимость: разработанный способ позволяет автоматически обнаруживать дубликаты, исключив вмешательство человека-оператора, и тем самым повысить качество данных информационной системы. Пример практической реализации для промышленной СУБД позволяет непосредственно использовать предложенный способ в инженерной практике разработки информационных систем. Данный способ также был использован авторами при разработке коммерческой автоматизированной информационной системы.

Об авторах

Сергей Витальевич Тарасов
Компания Bel Air Informatique, Courtaboeuf Cedex
Россия


Вадим Витальевич Бураков
Санкт-Петербургский государственный университет аэрокосмического приборостроения
Россия


Список литературы

1. ГОСТ Р ИСО 8000-102-2011. Качество данных. Часть 102. Основные данные. Обмен данными характеристик. Словарь. - М.: Изд-во стандартов, 2012. - 16 с

2. Нехай И. В. Применение n-грамм и других статистик уровня символов и слов для семантической классификации незнакомых собственных имен // Компьютерная лингвистика и интеллектуальные технологии: По материалам конференции «Диалог». - М.: Изд-во РГГУ, 2012. Вып. 11(18). Т. 1. С. 477-489

3. Мазов Н. А. N-граммные методы обработки текстовой информации/ОИГГМ СО РАН. - Новосибирск, 1995. - 180 с

4. Гудков В. Ю., Гудкова Е. Ф. N-граммы в лингвистике // Вестник Челябинского гос. ун-та. 2011. № 24(239). С. 69-71

5. Kondrak G. N-Gram Similarity and Distance/ University of Alberta, Department of Computing Science, Edmonton, AB, T6G 2E8, Canada, 2005. - Р. 115-126

6. Зеленков Ю. Г., Сегалович И. В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: тр. 9-й Всерос. науч. конф. RCDL, 2007. С. 166-174


Дополнительные файлы

Для цитирования: Тарасов С.В., Бураков В.В. Контекстно зависимый способ поиска нечётких дубликатов в реляционных базах данных. Информационно-управляющие системы. 2015;(2):76-81. https://doi.org/10.15217/issn1684-8853.2015.2.76

For citation: Tarasov S.V., Burakov V.V. Context-Dependent N-Gram Method for Detecting Fuzzy Duplicates in Relational Databases. Information and Control Systems. 2015;(2):76-81. (In Russ.) https://doi.org/10.15217/issn1684-8853.2015.2.76

Просмотров: 15


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1684-8853 (Print)
ISSN 2541-8610 (Online)