segunda-feira, 17 de fevereiro de 2014

Gabarito da Terceira avaliação de Genética Molecular, realizada em 17 de fevereiro de 2014


A figura abaixo mostra o contexto genômico da sequência que contém um gene de alfa actina (ACTA1) de Homo sapiens e a distribuição de exons ao longo do gene, assim como os introns, como consta da página do gene. A partir da figura, responda:



Q1) O que você pode dizer da densidade de genes nesta região? (Justifique sua resposta com os números da figura). Ela está de acordo com o esperado para um cromossomo de mamífero?
Olhando a escala acima da figura que mostra a região, pode-se calcular que há mais de 220.000 pb para 6 genes, o que dá um gene para cada 36.000 pb. Esta densidade é muito mais baixa que o de uma bactéria, que está na faixa de um gene para cada 1.000 pb e é característica dos eucariotos complexos, especialmente mamíferos.

Q2) Quantos exons estão representados na figura? Este arranjo de exons e introns é típico de um gene eucarioto de organismo complexo? (Justifique sua resposta)
Sete exons (indicados em verde escuro), que correspondem aos seis introns mostrados mais abaixo. Olhando a escala o gene tem pouco menos de 3.000 pb e, portanto, é relativamente pequeno. Há apenas um intron grande, os outros são pequenos. Neste sentido, ele não é bem típico dos genes de eucariotos complexos, que têm longos introns em comparação com os exons.

A figura a seguir contém um conjunto de informações colhidas da página de nucleotídeo correspondente à parte da sequência genômica acima, desta vez contendo exclusivamente o gene ACTA1, denominada NC_000001. A partir da figura, responda:


Q3) Qual o tamanho do gene (em pares de base)? Como você encontrou este valor? Porque ele não coincide com o tamanho do lócus? O que provavelmente são as regiões excedentes?
2852 pb. Este valor pode ser obtido da diferença entre a última e a primeira base do gene + 1 base. O gene é menor do que o lócus porque este último contém bases antes e depois do gene, provavelmente representando um pequeno trecho das regiões intergênicas que flaqueiam o gene. 

Q4) Porque o gene e o mRNA têm o mesmo tamanho? Tem que ser sempre assim ou pode ser diferente em outros grupos de seres vivos?
Este gene foi definido a região que começa onde começa o mRNA e termina onde este termina. Assim, o gene corresponde, rigorosamente, ao transcrito primário (o mRNA + introns). Esta é uma definição possível de genes. Para os procariotos o gene geralmente é definido como a ORF...

Q5) Porque o mRNA está representado pela união de vários segmentos? O que eles representam? A que isso corresponde na figura anterior?
Porque o mRNA dos eucariotos superiores geralmente é formado pela retirada dos introns, gerando um conjunto de exons que devem ser unidos. Cada par de números separados por dois pontos é, portanto, um exon, que corresponde a um bloco verde na primeira figura.

Q6) Porque o CDS não inicia nem termina no mesmo lugar do mRNA? O que são estas diferenças e quais seus valores em pares de base?
O CDS nunca inicia nem termina nas extremidades de um mRNA. O códon de iniciação da tradução está sempre um pouco mais para dentro do mRNA e o códon de terminação da tradução também não é o último. Sempre há, portanto, duas extremidades não traduzidas no mensageiro, conhecidas com regiões 5´-UTR (no início do mRNA) e 3´-UTR (no fim do mRNA). Da base 429 a 1409 é a 5´-UTR, que tem portanto 981 pb. Da base 3025 a 3279 é a 3´-UTR, com 255 pb.

A próxima figura mostra informações selecionadas da página de proteína da actina. Observe com atenção os dados e responda:

Q7) A proteína necessita todos os códons potencialmente codificados na ORF (ou cds) da figura anterior para ser produzida? Por que?
A proteína tem seus aminoácidos codificados pelos códons (conjunto de 3 bases) da ORF no mRNA, menos pelo último códon, que é o códon de terminação da tradução e não leva à incorporação de um aminoácido na sequência da proteína.

A próxima figura mostra graficamente o encontro das sequências semelhantes ao gene da actina humana, como obtido pelo uso do blastn contra o banco de dados de nucleotídeos. A partir das informações mostradas na figura, responda:


Q8) Porque o mRNA do ser humano aparece formando trechos semelhantes ao gene, intercalados de trechos sem similaridade?
O mRNA não tem introns (que são seis) e, portanto, sua sequência só alinha com os exons do gene. Por isso há seis linhas finas, correspondentes aos espaços dos introns entre as regiões do mRNA que alinham com o gene (seis exons em vermelho e o último em violeta).

Q9) Considerando os resultados para os mRNAs de outros mamíferos apontados na figura, o que se pode concluir da organização deste gene nestas espécies? Por que?
Concluímos que este gene está organizado de forma similar nas várias espécies apontadas porque todos os mRNA têm o mesmo número de exons e seus tamanhos também são muito semelhantes.

 A figura abaixo mostra algumas informações colhidas do blastn, desta vez do  mRNA da alfa actina humana. Os alinhamentos mostram que muitos mRNA tem elevada semelhança com o mRNA humano, mesmo no caso de um roedor(Octodon) e da baleia(Orcinus),  os últimos clipados na tabela. Responda:


Q10) As antepenúltima e penúltima sequências (para cão e roedor) têm a mesma porcentagem de similaridade (92%), mas scores muito diferentes. Porque?
Porque o score é dependente do número de bases ou aminoácidos que estão sendo comparados, além dos acertos, erros e gaps. Na sequência do cão a cobertura é bem maior do que na sequência do roedor (98 contra 75%), logo ela é mais longa, o que, mantendo a mesma similaridade, dá mais pontos de acerto e, portanto, um score maior.

Q11) Observe abaixo o dendrograma obtidos das sequências de mRNA;  o que podemos dizer da separação dos primatas e dos demais grupos?
Os primatas estão bem separados de todos os demais grupos, embora haja certa confusão entre estes últimos: há dois grupos de roedores separados em chaves distintas e o esquilo acabou agrupado perto dos coelhos. Não é um bom filograma, de jeito nenhum, mas podia ser muito pior se fosse feito com a proteína, como mostrado na figura da questão seguinte.


Quando, no lugar de uma sequência de DNA, empregamos a sequência de aminoácidos da actina no blastp, observamos imediatamente que as sequências são muito semelhantes. Veja o resultado retirado deste blast, que mostra a primeira linha da comparação de sequências entre a actina humana e a da rã; veja também, logo a seguir, uma parte do filograma construído com as sequências encontradas. Em seguida responda as perguntas:




Q12)  Na comparação das duas sequências aparece uma terceira linha. O que representa cada uma delas (o blastp foi feito com a sequência da actina humana)? O que são os espaços em branco entre elas e os sinais de +?
A linha de cima representa a sequência que foi enviada para o blastp (neste caso, o gene da actina humana). É o que se chama “query”. A terceira linha representa a sequência encontrada, neste caso a actina de rã. O encontro é sempre chamado de “subject”. A linha de meio mostra apenas a comparação entre elas: quando as duas sequências têm o mesmo aminoácido na posição em análise, repete-se a sigla do aminoácido. Quando são diferentes, mas têm propriedades físico-químicas semelhantes, aparece um sinal de +. Por fim, quando os aminoácidos são totalmente distintos, resta um espaço em branco.

Q13)  Quando olhamos o trecho do filograma, o que podemos dizer da adequação desta sequência para inferir relações filogenéticas entre vertebrados? Por que?
Há um embaralhamento completo das espécies e, evidentemente, esta sequência de aminoácidos não se presta à análise filética, ao menos de vertebrados. A razão é que, sendo muito conservada entre distintas espécies, a proteína varia pouco em sequência de aminoácidos e os poucos aminoácidos diferentes entre as espécies próximas (vertebrados, neste caso) não permitem a construção da árvore (ou dendrograma), que depende muito destas diferenças.
Por fim, se quisermos investigar a maneira como se encontra o quadro aberto de leitura (ORF ou cds) no mRNA, podemos observar outra vez o mRNA da actina. A figura ao lado é o mRNA depositado no NCBI. Observe também o resultado do ORF Finder na figura abaixo e responda às perguntas:


Q14) A região 3´UTR está completa? Por que?
Está completa porque se pode observar a cauda poliA, que é adicionada sempre no fim do mRNA e, portanto, no fim da 3-UTR.

Q15) Qual deve ser a ORF correta? Por que?
A primeira. Porque é a maior dentre as que têm quadro de leitura positivo. A grande ORF na quarta barra está no quadro -1 (é a primeira da tabela à direita), mas ela implica na tradução do mRNA no sentido 3´- 5´, o que não ocorre nunca. (Em caso de dúvida, era só ver qual delas tem um comprimento que dá 377 aminoácidos + 1 códon: dividindo 1134 por 3, chegamos a 378. Heureka!)




**********************

domingo, 16 de fevereiro de 2014

Analisando as ORFs de um mRNA

Considere a questão abaixo



Se você está analisando um mRNA, então só os três primeiros quadros de leitura, correspondentes às três primeiras barras, são possíveis. Os demais representam traduções no sentido contrário á sequência enviada e, claro, o mRNA não pode ser traduzido de trás prá frente nem existe um outro mRNA transcrito do gene no sentido oposto. Então, o mais provável é que o quadro correto seja o quadro +3, que tem a maior ORF (em verde). O que estiver à esquerda da ORF é a região 5´-UTR que, neste caso, é bem pequena. O que está à direita da ORF é a região 3´-UTR, que é um pouco maior. Esta conclusão deriva do fato de que o mRNA de um eucarioto sempre contém uma região não traduzida que antecede a ORF (ou cds) e sempre termina numa região 3´-UTR que aparece depois da cds.


Aqui não há a sequência do mRNA para análise. Se houvesse poderíamos dizer se a região 3´-UTR estaca completa: bastaria averiguar se há uma cauda poliA ao fim da sequência.

sexta-feira, 14 de fevereiro de 2014

Análise da região genômica da HSP70 humana (gene HSP4A)

Caros.

Como vimos na aula, esta região está no banco de dados GENE com a ID "Gene ID: 3308". O link direto é http://www.ncbi.nlm.nih.gov/gene/3308 .  A figura abaixo analisa as informações de comprimento de sequência é o que cada parte dela representa,

A sequência é um trecho do genoma humano, no cromossomo 5, entre a base 133051970 e a 133105017. Ao todo são  68962, mas a gente só vê isso na página do nucleotídeo correspondente a este trecho do genoma. O link pode ser acessado pela página do Gene, e vai direto por aqui: http://www.ncbi.nlm.nih.gov/nuccore/NC_000005.10?report=genbank&from=133044012&to=133112973 . Claro que vocês podem fazer a conta de subtrair e calcular quantas bases tem pelas posições do genoma.

A sequência toda contém o gene (que é igual ao transcrito), precedido e sucedido de regiões que não se diz o que são, mas que provavelmente são regiões intergênicas. Depois da região 5´-UTR começa a ORF,no primeiro ATG do transcrito (isso acontece quase sempre em eucariotos e vocês precisam saber porque). Nesta sequência estão também os introns! Portanto, o mRNA não é a sequência contínua, mas a soma dos exons. A ORF termina no códon de parada. Tudo isso está sinalizado na página do nucleotídeo, mas não aparece na página do gene. Por isso é importante associar as duas. O tamanho da ORF (sem os introns) pode ser calculado pelo tamanho da proteína, na página da proteína. Então, são três páginas que vocês têm que ter sempre associadas, neste caso.

Neste post eu não falo dos introns.


Vejam com atenção a figura abaixo, que é uma sinopse desta análise.