Способ образования сжатого кода словосочетаний

 

l79O98

ОПИСАНИЕ

ИЗОБРЕТЕНИЯ

Союз Саветскик

Социалистическиа

Республик

Зависимое от авт. свидетельства №

Заявлено 30.1V.1964 (№ 897854/26-24) с присоединением заявки ¹

Приоритет

Опубликовано 03.11.1966. Бюллетень № 4

Дата опубликования описания 17.П1.1966

Кл, 42ш, 141

МПК G 061

Комитет ло делам изобретений и открытиЯ при Совете Министров

СССР

УДК 681.142 — 523.8 (088.8) l

Автор изобретения

К. И. Курбаков

Заявитель

СПОСОБ ОБРАЗОВАНИЯ СЖАТОГО КОДА СЛОВОСОЧЕТАНИИ

Известны способы сжатия словосочетаний (фраз, состоящих из нескольких слов). Они состоят в выборе некоторого набора букв из побуквенной записи словосочетаний или постановке в соответствие данному словосочетанию некоторого порядкового номера по словарю словосочетаний.

Описываемый способ отличается от известных тем, что i-e слово каждого словосочетания в процессе предварительной обработки записывают в l.-ю колонку пословной матрицы, выбирают из образованной матрицы словосочетаний ключевые разряды, в которых вероятность появления нуля или единицы ближе к /2, а затем выбирают необходимое количество дополнительных ключевых разрядов в первую очередь из колонок матрицы с наибольшим количеством слов, при этом количество основных ключевых разрядов берут из условия 2" ) ф„. Способ позволяет уменьшить длину кода словосочетаний и время его образования.

Целесообразно также все словосочетания рассматривать как «слова», из которых в процессе предварительной обработки составляется общая матрица, причем дополнительные ключевые разряды в первую очередь выбираются в той части общей матрицы, которая соответствует интервалу длин словосочетаний от минимальной до средней.

На чертеже изображен график, поясняющий предложенный способ.

Способ заключается в следующем. Имеется словарь из словосочетаний Л „. Каждое слоьосочетание длины L, ñîñòîèò из i слов (i =- 1, 2, 3...). Словарь словосочетаний записывают в виде матрицы Л1, которая состоит из i колонок (слов). В первой колонке (i = 1) матрицы Л4 записывают одно под другим пер10 вые слова всех словосочетаний словаря N„, Во второй колонке (i = 2) аналогично записывают вторые слова словосочетаний.

Записав таким образом все словосочетания, упорядоченные, например, по возрастанию

15 длины словосочетания L исходную матрицу И представляют в виде эквивалентной ей ступ енч атой м атр ицы.

Слова в каждой колонке матрицы, в свою очередь, могут быть упорядочены, например

20 по возрастанию длины слова.

В каждой колонке матрицы побуквенные коды слов записывают один под другим, начиная с первого разряда первой буквы слова.

Коды букв (символов алфавита) выбирают таким образом, что пары букв, вероятности появления которых на данном месте во взятом словаре A одинаковы, кодируются взаимно обратными двоичными кодами (в худшем случае в качестве кодов символов могут быть

30 взяты телеграфный или машинный код вход179098 пых-выходных алфавитно-цифроимх печатающих устройств ЦЭВМ).

Ступенчатая матрица словосочетаний, являющаяся суммой колонок пз слои словосочетаний, состоит пз нулей и единиц. 1хо н!чест!30 строк в первой колонке матрицы Л1 равно количеству словосочетаHHH в словаре словосочетаний У„, а количество строк 13 I.-ой колонке матрицы М равно количеству слов, стоящих в словосочетаниях на i-ом месте. Количество столбцов (двоичных разрядов) в матрице М

Л QL„„õ. 1

О

ГдЕ I.max, i — НИИбОЛЬШяя ЛЛ!П!с) СЛОВя, CTOHщего на i-ом месте в словосочетя (в буквах); т — длина кодовой комбинации символа алфавита (в двоичных знаках).

В каждом столбце матрицы М подсчитывают количество единиц (подсчет ведут в значащей части матрицы, т. е. в той ее части, которая заполнена кодами букв); из всей совокупности N„разрядов, образующих побуквенные коды словосочетаний, выбирают и кл!очевых разрядов, в которых вероятность появлепиrI нуля или единицы наиболее близка к !, 2.

Для однозначного представления Л « словосочетаний, исходя из условия 2"=„V„, требуется не менее и ключевых разрядов.

При сжатии словосочетаний до и двои шых разрядов возникает неоднозначность сжатия (т. е. образуется группа неоднозначности сжатия, в которой несколько различных словосочетаний имеют одинаковое значение и), которая устраняется выбором дополнительного оличества ключевых разрядов. Выбор дополнительных ключевых разрядов B первую очередь производят в колонках матрицы М с ббльшим количеством слов.

Количество дополнительных разрядов обыч4 5, но находится в интервале: n, хотя в

5 4) некоторых конкретных случаях оно может быть несколько меньше или больше этих значений.

Модификацией вышеприведенного способа является случай, когда исходный словарь словосочетаний Л1„представляют пе в поколопной записи слов словосочетаний, а в виде общей матрицы словосочетаний М,„- .

В этОм слуПОГО <>, КОТОРОС

РЯ)3НО C3 3!ÌB ÎУК!3 13ССХ С:!013 С )OIIOCI) !ЕTHHHH, зянисишых в той же послсдовятсл!я!ости, Ко5 личество строк при этом " матрице М,„-„, PBB)iO А сс, сl КОЛИ -CCTBO СТО.! ОЦОВ Л -»> — 7cc, max

I)I >

ГДЕ L«, >пах ПЯИООЛЬШЯЯ ДЛИПЯ СЛО!30СОЧЕтания (в буквах), 10 Буквы в матрице М,„-„„упорядоченной, например, по возрастанию длины словосочетания 13 буквах, кодируются как II при основном способе.

Выбор ключевых разрядов осуществляют в

15 первую очередь в тех разрядах матрицы

Мсá,„, которые соответствуют интервалу длин словосочетаний в буквах от L „,„„ до L«, ц,.

Такая операция установления набора ключевых разрядов для данного К„ !! кодирование

20 словосочетаний выполняется на ЦЭВМ.

Предмет изобретения

25 1. Способ 0013азовапия c>H ITokо кoIB с 0130сочетяний, и котором каждое словосочетание, выраженное побуквенным кодом, преобразуют в некоторый номер по словарю словосочетаний, отли)а)ои)ийся тем, что, с целью умень30 шения длины кода словосочетаний и времени его образования, i-e слово каждого словосо-! етанпя в процессе предварительной обработки записывают в i-ю колонку пос IOBkloH матрицы, выбирают из образованной матрицы

35 словосо

2. Способ по п. 1, orëè÷òoùèéñÿ тем, что все словосочетания рассматриваются как

45 «слова», нз которых в процессе предварительной обработки составляют общую матрицу, причем дополнительные ключевые разряды т:ыбирают в первую очередь в той части общей матрицы, которая соответствует интервалу длин словосочетаний от минимальной до средней.

Редактор И. Карпас

Составитель П. П. Кондратьев

Техред T. П. Курилко Корректоры: С. Н. Соколова и Ю. М. Федулова

Заказ 579/15 Тираж 1000 Формат бум. 60;к,90 /з Объем 0,21 изд. л. Подписное

ЦНИИПИ Комитета по делам изобретений и огкрытнй при Совете Министров CCCP

Москва, Центр, пр, Серова, д. 4

Типография, пр. Сапунова, д. 2

Способ образования сжатого кода словосочетаний Способ образования сжатого кода словосочетаний Способ образования сжатого кода словосочетаний 

 

Похожие патенты:

Изобретение относится к вычислительной технике и предназначено для регистрации и контроля входных параметров, а именно, параметров полета летательного аппарата

Изобретение относится к вычислительной технике, в частности к специализированным устройствам для обработки массивов информации в реальном масштабе времени, и может быть использовано в автоматизированных системах обработки изображений

Изобретение относится к радиотехнике, а именно к измерительной технике, и в частности может быть использовано в технике радиосвязи, например в синтезаторах частоты приемопередающих установок с программной перестройкой рабочей частоты (ППРЧ) в качестве умножителей частоты следования импульсов

Изобретение относится к вычислительной технике и, в частности, к архитектурам перестраиваемых матричных процессорных СБИС, использующих структурную перестройку (реконфигурацию), т.е

Изобретение относится к вычислительной технике и может использоваться при статистических исследованиях

Изобретение относится к вычислительной технике и может использоваться при статистических исследованиях

Изобретение относится к электроизмерениям, автоматике, импульсной, преобразовательной и др.технике и может быть использовано в качестве многофункционального устройства, например, сравнение фаз или напряжений, или длительностей, или формирователей в интегральном исполнении

Изобретение относится к специализированным средствам вычислительной техники и предназначено для использования в стохастических вычислительных устройствах

Изобретение относится к вычислительной технике и может быть использовано в вычислительных и моделирующих устройствах, использующих вероятностные принципы представления и обработки информации

Изобретение относится к автоматике и вычислительной технике и может быть использовано в дискретных автоматах для сложения - вычитания чисел, кодируемых трехуровневыми сигналами по ортогональным составляющим функций Попова
Наверх