martes, 1 de septiembre de 2009

TIPOS DE ARCHIVOS

Tipos de archivos y archivos de secuenciasEn computación existen básicamente dos tipos de archivos, los archivos ascii y los archivos binarios. El vocablo ascii es un acrónimo para American Standard Code for Information Interchange. Es un estándar que asigna un valor numérico a cada carácter, con lo que se pueden representar los documentos llamados de Texto Plano, es decir, los que son legibles por seres humanos. Los archivos binarios son todos los demás. Como ejemplos tenemos:
Archivos binarios:
De imagen: .jpg, .gif, .tiff, .bmp (Portable bitmap), .wmf (Windows Meta File), .png (Portable Network Graphics), .pcx (Paintbrush); entre muchos otros
De video: .mpg, .mov, .avi, .gif
Comprimidos o empaquetados: .zip, .Z, .gz, .tar, .lhz
Ejecutables o compilados: .exe, .com, .cgi, .o, .a
Procesadores de palabras: .doc Archivos ascii
Archivos fuente: .f, .c, .p
Formatos de texto: .tex, .txt, .html
Formatos de intercambio: .rtf, .ps, .uu
Dentro de los archivos ASCII de uso común por los programas de bioinformática están los siguientes:
De secuencias: .seq
De secuencias múltiples: .aln, .msf (Multiple Sequence Format, secuencias alineadas), .rsf (Rich Sequence Format, estos archivos pueden incluir una o más secuencias relacionadas o no). Todos estos archivos se caracterizan por tener ciertos formatos distintivos, que hacen posible su reconocimiento por parte de los programas de manipulación y análisis de secuencias como el PHYLIP, el GCG; entre muchos otros. A continuación se muestran algunos de los formatos mencionados señalando cada una de sus características distintivas:
Formatos archivos de secuencias:
Formato PHYLIP: es un formato de secuencias de nucleótidos y de residuos de aminoácidos que se utiliza frecuentemente como formato de entrada de diferentes programas o paquetes de análisis tales como: PHYLIP (el cual le dio el nombre), LARD, PLATO, SPOT; entre otros. La primera línea del archivo contiene el número de especies o secuencias a analizar y luego, el número de caracteres (nucleótidos o aminoácidos) separados por espacios en blanco (no por comas). Seguidamente, se debe colocar el nombre o identificador de cada especie o secuencia (máximo 10 caracteres) que puede incluir signos de puntuación y espacios en blanco. Luego debe colocarse la secuencia en sí; es decir los caracteres, en código de una letra, correspondientes a la proteína, molécula de ARN o de ADN. Las secuencias pueden ser colocadas en columnas de diez (10) caracteres cada una para facilitar la lectura de las mismas. Luego puede o no colocarse una línea en blanco separadora entre el primer y el segundo grupo de secuencias. Es importante que el número de caracteres de todas las líneas sea igual. http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html

No hay comentarios:

Publicar un comentario