gccount

1 gc_count

1.1 Описание

Программа поиска повторов в ДНК. Позволяет искать прямые, инвертированные, комплементарные и тандемные повторы большой протяженности.
Предполагаемая длина повтора от 1000 нуклеотидов.

1.2 Опции Ввода-вывода

-i [filename] - Чтение первой последовательности
-I [filename] - Чтение второй последовательности
-p [filename] - Запись первого профиля в файл
-P [filename] - Запись второго профиля в файл
-o [filename] - Вывод матрицы схожести в файл
-l - Вывести только профили
-h - Помощь

-i [filename]:begin..end - Чтение фрагмента первой последовательности по координатам (begin, end)
-I [filename]:begin..end - Чтение фрагмента второй последовательности по координатам (begin, end)

- Чтение сжатых, программой composer, файлов (оба файла должны быть сжаты)
-M - Расчет с построением матрицы (более быстрый,но затратный по памяти). После построения матрицы,
вектора коэффициентов удаляются и матрица анализируется на наличие повторов. Без ключа происходит
вычисление векторов коэффициентов для обеих последовательностей, матрица на строится, для каждого
дополнительного типа повторов приходится делать повторые вычисления.
(Экономия по памяти, чуть медленнее по времени)
(Важно: тандемные повторы можно искать только в версии с матрицей, т.е когда активирован ключ -M)

1.3 Опции аппроксимации

-w [int] - Окно GC
-k [int] - шаг окна GC
-a [int] - Окно аппроксимации
-s [int] - Шаг окна аппроксимации
-c [int] - Глубина аппроксимации (количество коэффициентов разложения)
-e [float] - Эпсилон (порог сходства)

1.4 Опции поиска повторов

-Q -W -E -R [abhkxz[i|d|t]:[int]] - Поиск повторов по маске
Расшифровка маски:
a - прямые повторы по GC профилю
b - инвертированные повторы по GC профилю
h - прямые повторы по GA профилю
k - инвертированные повторы по GA профилю
x - комплементарные прямые повторы
z - комплементарные инвертированные повторы
Биты поиска повторов:
t - Искать тандемные повторы в матрице спектральное схожести по маске указанной выше.
i - Искать инвертированные повторы по маске указанной выше, вдоль побочной диагонали.
d - Искать прямые повторы по маске указанной выше, вдоль главной диагонали.
Если (i,d,t) не задано, по умолчанию стоит поиск прямых повторов(d)
После того как маска задана, через ':' можно поставить число, смысл которого, минимальный размер повтора в пикселях матрицы,
если число не задано выдаются все найденные повторы, начиная с длины 1.

1.5 Примеры использования

Тестовый файл(test.dna) размером 10000 нуклеотидов, имеет инвертированный чистый повтор длиной ~1000.
Параметры поиска:

./gc_count -i test.dna -w 250 -a 700 -s 5 -c 50 -e 0.00001 -Q ad -W bi -o test.bmp

В файле test.bmp матрица спектральной схожести, основная диагональ присутсвует т.к файл сравнивается сам с собой(не заданная опция -I ).
Если не задать -Q ad мы не увидим главной диагонали. Опция -W bi отвечает за поиск инвертированного повтора.

Поиск можно усилить фильтрацией если учитывать помимо профиля GC еще и профиль GA, для этого в запрос добавляются соответствующие биты маски поиска

./gc_count -i test.dna -I test.dna -w 250 -a 700 -s 5 -c 50 -e 0.00001 -Q ahd -W bki -o test.bmp

На stdout выдаются координаты найденных повторов. Симметричность не учитывается.
Поиск тандемных повторов:
./gccount -i test2.dna -I test.dna -a 10000 -w 2000 -s 2000 -e 0.0011 -Q at:30 -o tandem.bmp

2 Сomposer & converter

2.1 Описание

Утилита предназначена для конвертации набора хромосом в FASTA формате в один файл в котором нет N регионов.
Также нужна для конвертации найденных, в файле без N регионов, повторов к реальным координатам в хромосомах. (Пока не работает)

2.2 Опции

Опции композера:
-l filename - filename содержит список хромосом в формате FASTA, каждая начинается с новой строки.
Хромосомы конвертируются в один файл, в котором нет N регионов.
После окончания работы создается два файла:
filename.nreg - содержит координаты N регионов
filename.prep - файл без N регионов

-c - Сжатие итогового файла

Опции конвертации:
Конвертация повторов найденных по файлу из объединенных хромосом в повторы с координатами в конкретных хромосомах.
После окончания работы создается файл filename.real.
-n filename.nreg - файл с N регионами
-r filename.reps - Файл с повторами, найденными по файлу из объединенных хромосом, программой gccount\\ Опции -n и -r работают вместе.

3 Совместимость исходников

Программа без особых проблем может быть скомпилирована всеми популярными компиляторами, поддерживающими OpenMP
вне зависимости от операционной системы (компилировалось на Win32/64 и Linux32/64)