User Profile

Profile Image

ronario denise

Bio Statement

 O tamanho da amostra é importante ou a profundidade do seqüenciamento? Em quantos tipos os engenheiros de bioinformática podem ser divididos?

Hoje, continue a organizar e compartilhar com você alguns dos temas que foram publicados no "Desaparafusar o círculo de troca de tecnologias". 1. Qual é a diferença entre a profundidade dos sites executados usando samtools depth e samtools mpileup para o mesmo arquivo BAM?

Você notará essa diferença, porque você está usando dados de seqüenciamento Pair-End (PE); se forem dados SE, a diferença é realmente muito pequena. Existem duas grandes diferenças nos dados de sequenciamento de PE:

(1) A primeira diferença é que, para dados do PE, o mpileup assume como padrão as leituras do PE que estão anormalmente alinhadas (como a distância entre as posições de alinhamento read1 e read2 excede o intervalo de flutuação do comprimento do fragmento inserido ou se existe um dos read1 e read2 (Comparativo acima) Primeiro, exclua-o e faça o cálculo, mas a profundidade das ferramentas de amostragem não funcionará.A profundidade não faz nenhuma filtragem por padrão, desde que seja comparada. Essa também é a principal razão pela qual veremos que a profundidade de cobertura calculada pela profundidade das ferramentas de amostragem geralmente é maior que o mpileup. Se você quiser tornar os dois consistentes, poderá adicionar o parâmetro -A ao mpileup para forçar a saída dos resultados anormais da comparação de PE; (2) A segunda diferença entre eles é que, por padrão, o mpileup também Ele filtrará as bases cujo valor de qualidade de seqüência é menor que 13 e a profundidade não é filtrada por padrão. Embora o ajuste dos parâmetros possa garantir que os dois sejam iguais. Mas eu não recomendo.Embora o mpileup obtenha profundidade de cobertura de alta qualidade, ele tem um propósito diferente da profundidade das ferramentas de gravação. Além disso, se você deseja calcular melhor a profundidade da cobertura e a cobertura dos dados de comparação, embora a profundidade das ferramentas de amostragem possa ser competente, mas a função ainda seja relativamente simples e, como cada local será gerado, o arquivo resultante será sempre muito grande, ainda assim É mais recomendável usar bedtools2 para concluir, conforme mostrado        boletim online             a figura a seguir, sua função e forma de saída devem ser mais abundantes.

bedtools2 modelos diferentes para calcular a cobertura do genoma

2. Por que os dados da WES não podem usar o VQSR para controle de qualidade?

De fato, não se trata apenas de WES, mas também inclui dados de muitos painéis pequenos.Se o tamanho da amostra for relativamente pequeno, o VQSR não poderá ser usado para controle de qualidade de mutações. A razão está no princípio do VQSR. O princípio central do VQSR é usar algoritmos de aprendizado de máquina para construir um classificador que distinga entre mutações "boas" e "ruins". Esse classificador é construído pelo modelo GMM no GATK. Ao construir, ele não usa cegamente todos os dados para construir, mas escolhe o local da Sobreposição com o conjunto de mutações conhecido (geralmente o conjunto de dados do HapMap) ) -E atribua pesos de credibilidade correspondentes ao treinamento. Com base no princípio da genética populacional, essas mutações conhecidas e estritamente verificadas (como os dados do HapMap) serão consideradas como mutações mais confiáveis, portanto são consideradas "boas" durante a inicialização - isso é correto Variação. Esse conjunto inicial de mutações é importante e, em seguida, use essas boas mutações para treinar um GMM que distinga boas mutações, depois marque todos os dados e retire aqueles com as pontuações mais baixas para formar um conjunto que seja menos parecido com a mutação correta, usado para construir um O GMM que distingue más mutações é usado para identificar especificamente mutações ruins. Finalmente, use o GMM bom e ruim para pontuar as mutações novamente ao mesmo tempo e, para ver como é cada mutação, você pode julgar o valor de qualidade credível da mutação. Quanto mais próximo de um bom GMM, maior a qualidade.Este é o princípio geral da filtragem VQSR (como mostrado abaixo).

Classificador VQSR para distinguir boas e más mutações

Para obter resultados ideais e bons, o VQSR possui um número mínimo de locais disponíveis durante o treinamento do modelo - geralmente o número de boas e más mutações disponíveis para treinamento deve exceder 5000, se houver muito poucos locais de sobreposição, é impossível É usado para treinar um modelo adequado, o que não é um problema para todo o genoma, mas as regiões do exon somam cerca de 50Mb, o comprimento não é grande e o número de mutações contidas em uma única amostra é de cerca de 30K-40K. Esses sites não são muitos e são inferiores ao conjunto de mutações de alta qualidade conhecido Overlap, que acaba levando ao fracasso em atender aos requisitos mínimos para o treinamento do modelo. Portanto, o WES de uma única amostra (ou WES com um pequeno número de amostras) não pode usar o VQSR para controle de qualidade, e os dados de seqüenciamento do pequeno painel são os mesmos. No entanto, à medida que o número de amostras aumenta, também são encontradas mais variações na população nessas regiões do éxon, aumentando assim o conjunto de treinamento disponível até que os requisitos mínimos de treinamento sejam atendidos, de acordo com a experiência, geralmente 30 Amostras (com a diferença na área de captura, haverá uma pequena diferença), motivo pelo qual, para os dados WES, o GATK menciona que são necessárias pelo menos 30 amostras para o VQSR. 3. O tamanho da amostra é importante ou a profundidade do seqüenciamento é importante?

Eu acho que o tamanho da amostra é muito mais importante do que a profundidade do seqüenciamento. Desde que haja amostras suficientes, podemos até usar uma profundidade de sequenciação muito baixa (como 1x) para obter o genótipo exato e o espectro genético populacional de cada uma dessas amostras. Por que isso? Uma das razões principais é que a espécie humana tem uma única origem ancestral, o que também é uma premissa importante. Mas, ao mesmo tempo, gostaria de enfatizar que “solteiro” aqui não se refere especificamente a apenas um indivíduo, mas se refere aos ancestrais que formaram esse grupo (por exemplo, pessoas modernas ou mesmo apenas chineses han). Tribos. Nesse caso, a fonte da diversidade da população realmente vem principalmente da troca e fusão genética entre essas tribos. Quanto ao que é comunicação genética, todos podem criar seus próprios cérebros.

Outro motivo principal é que não há tempo suficiente. Os humanos são na verdade um grupo muito jovem, especialmente o moderno Homo sapiens (nossa onda) .A história da diferenciação genética é muito curta.De acordo com as estimativas atuais, ela começou há cerca de 100.000 anos. Existem duas motivações principais para diferenças genéticas na população: (1) mutação e recombinação do próprio genoma; (2) recombinação de células germinativas no processo de gametogênese. Mas a taxa de mutação e recombinação do genoma é muito baixa, cerca de 10 ^ -8. Ou seja, as diferenças genéticas de uma pessoa causadas por mutações acumulam cerca de 30-100. Isso é apenas uma mutação na sequência (principalmente a mutação pontual). Embora a recombinação seja diferente - é a troca de uma grande variedade de seqüências, e a faixa de influência é muito grande, mas geralmente não se considera que causa diretamente mutações na sequência. Podemos entender que isso provoca a disseminação e distribuição de mutações em todo o grupo. No entanto, em 100.000 anos, existem apenas 5.000 gerações, número muito curto na história da genética de espécies, que não é suficiente para causar uma explosão de diversidade em toda a população. É ainda menos para os asiáticos do leste.A pesquisa publicada até agora mostra que os asiáticos do leste têm uma história mais curta, provavelmente originada cerca de 60.000 anos atrás, então você verá os asiáticos do leste (especialmente os han) no Projeto do Genoma Humano dos Mil. A diferenciação interna é mínima. No final, o número de combinações haplóides neste grupo humano é muito limitado. Portanto, se queremos revelar o mapa genético de um grupo específico, não precisamo    normas abnt 2020             s executar o sequenciamento de alta profundidade em todas as amostras, precisamos apenas realizar a detecção profunda em alguns deles para obter conjuntos de variantes de alta qualidade e, em seguida, usar o sequenciamento de baixa profundidade diretamente para outras amostras. (Mesmo o sequenciamento de chips personalizado, mas eu prefiro escolher o sequenciamento de todo o genoma de baixa profundidade), combinado com a lei genética do desequilíbrio de ligação, somos totalmente capazes de inferir genótipos específicos em áreas que não são totalmente cobertas, milhares de pessoas O genoma e os islandeses são um exemplo. O algoritmo HaplotypeCaller do GATK realmente usa esse princípio para obter uma detecção de mutação mais precisa. Durante a detecção de mutação, o GATK usará os dados de todas as amostras para pré-construir a combinação de haplótipos desse grupo (essa também deve ser a origem do nome HaplotypeCaller) e a probabilidade posterior de cada haplótipo desse grupo no grupo e, em seguida, De acordo com os dados de comparação de cada amostra, o genótipo de cada amostra em cada locus e a probabilidade posterior de cada genótipo são calculados pelo princípio bayesiano. Se houver amostras suficientes para participar da análise, em teoria, ela poderá construir uma combinação de Haplótipo mais precisa e, por sua vez, melhorará os resultados da detecção de variação de cada amostra.

4. Como ver a diversidade genética de uma população através da distância de atenuação do LD?

O próprio LD reflete a recombinação que ocorreu no genoma de uma espécie. A reorganização do genoma ocorrerá em cada geração: quanto mais velha a população, mais recombinação ocorreu em seu genoma, menor será o comprimento correspondente do LD e a diversidade genética desse grupo será reduzida. Quanto mais alto. Por exemplo, entre os humanos modernos, os africanos têm a maior diversidade genética e a maior história, enquanto as raças amarelas do leste asiático têm a menor diversidade. Se queremos usar chips de genoma para analisar algumas características dos africanos por meio de associação em todo o genoma, então a densidade de chips adequados para esse grupo é teoricamente maior que a de nosso povo amarelo. 5. Quantos tipos de engenheiros de bioinformática podem ser divididos?

Em geral, existem três principais orientados para a classificação: a primeira categoria, orientada para a tecnologia, o objetivo é desenvolver algoritmos melhores, pensando em como usar o conhecimento de matemática e computadores para fornecer melhores ferramentas e plataformas. Ajudar a resolver problemas de omics, como algoritmos de comparação de escrita, algoritmos de montagem, algoritmos de detecção de mutação, procedimentos de controle de qualidade etc. É claro que, incluindo processos de análise de dados em nível de produção (como processos WGS padronizados), esse tipo de engenheiro da Shengxin resolve É uma questão de ferramentas de produção. A segunda categoria é orientada a dados / orientada a problemas ou "orientada a negócios", aqui inclui pesquisa científica e aplicações comerciais. Principalmente para resolver problemas biológicos e ômicos, aconselhamento genético, etc., como pesquisa de câncer, genética de populações, etc. Essas pessoas são mais usuários de ferramentas e combinam os algoritmos e as ferramentas mais apropriadas para resolver problemas de acordo com as necessidades específicas dos "negócios". Esse tipo de pessoa precisa de um profundo conhecimento em genética biológica e genética. Ao mesmo tempo, você deve ter um entendimento completo de seu campo, saber quais dados são necessários em qual cenário, qual algoritmo é aplicado, qual conhecimento matemático e quais ferramentas são usadas para resolver melhor o problema - de fato, esse tipo de pessoa também é verdadeiro Pessoas que sabem o que fazer com o processo de análise. Sobre esse tipo de engenheiro de bioinformática, ou deveria ser chamado de "especialistas em genômica", é mais apropriado: eles contêm muitos aspectos, como genética de populações, genética de animais e plantas, evolução, pesquisa de tumores, testes médicos genéticos, testes genéticos de consumo, genética Consulta, etc. Geralmente, eles são baseados em objetivos de "negócios", usando os meios e ferramentas técnicas correspondentes (incluindo WGS, WES, RNAseq, seqüenciamento de metilação, métodos de análise de omics relacionados etc.) para resolver o problema no caminho para alcançar o objetivo. Cada um aqui pode ser mais desenvolvido: em geral, esse tipo é o usuário da ferramenta, o solucionador do problema de ômega específico. As duas categorias acima têm características próprias e seus pontos de conhecimento têm ênfase diferente, mas, na verdade, não podem ser separadas.As pessoas que realmente se saem bem são todos os dois tipos de tudo-em-tudo (talvez apenas em comparação com os dois fortes, um tipo seja mais Destaque). Somente aqueles que conseguem entender profundamente os problemas biológicos e os problemas ômicos podem criar ferramentas e processos verdadeiramente adequados. A terceira categoria é orientada a recursos e pessoas, ou "chefe" / PI. Essas pessoas podem ter divergido da situação acima devido a suas diferentes experiências de crescimento (é difícil dizer que todas elas entenderão), e algumas delas podem ser melhores em encontrar recursos, construir pontes e conectar-se. Eles não se preocupam mais em resolver problemas específicos, mas em pedir o máximo de problemas possíveis, em encontrar boas direções e em criar um ambiente e condições para fornecer soluções para esses problemas. De fato, esse tipo de pessoa costuma ser a direção na qual o primeiro e o segundo tipos de pessoas estão se desenvolvendo.