Sumário
Toda área do conhecimento tem seu jargão, e o mundo da visão computacional não é diferente. Termos como Megapixels (MP), Pixels Por Metro (PPM), Frames Por Segundo (FPS) e ângulos de incidência são frequentemente utilizados, mas nem sempre compreendidos em sua totalidade.
Este artigo se propõe a desvendar esses conceitos, explicando o que são, como funcionam e qual a sua importância na hora de avaliar a qualidade e a adequação de uma câmera para diferentes soluções de visão computacional.
Ao longo das próximas seções, exploraremos cada um desses termos em detalhes, desmistificando a ideia de que “quanto mais megapixels, melhor” e destacando os fatores cruciais para o sucesso de um sistema de monitoramento.
O que são Megapixels?
Assim como bordados em ponto-cruz, imagens digitais são compostas por pequenos elementos agrupados. O menor elemento de uma imagem digital, equivalente a um único ponto em um bordado, é o Pixel.

O tamanho de uma imagem é geralmente expresso como dois números: a quantidade de pixels na horizontal (largura) e a quantidade de pixels na vertical (altura). Por exemplo, uma imagem “Full HD” tem 1.920 pixels de largura por 1.080 pixels de altura.
A resolução da imagem é o produto destes dois números. Em nosso exemplo, a resolução é de 2 milhões, 73 mil e 600 pixels. Para simplificar a representação deste número, usamos o termo Megapixel (abreviado como MP), que significa 1 milhão de pixels. Ou seja, podemos dizer que uma imagem em Full HD tem pouco mais de 2 Megapixels.
Uma resolução mais alta permite a captura de mais detalhes, e nos primórdios da fotografia digital, a resolução de imagem crescia vertiginosamente a cada nova geração de câmeras e sensores.
A diferença na qualidade entre uma imagem de 0,3 MP (comum nos primeiros celulares com câmeras) e uma de 3 MP (comum em câmeras digitais na mesma época) era notável, especialmente quando as imagens eram ampliadas ou impressas. Por isso, firmou-se no imaginário dos usuários que quanto mais megapixels uma imagem tem, melhor a qualidade.

Mas embora mais megapixels permitam a captura de mais detalhes, eles não são o único fator determinante da qualidade. Ela depende também da qualidade do sensor, da lente e do processamento da câmera, entre muitos outros fatores. Os megapixels são apenas um dos elementos da equação.
O que são Pixels Por Metro?
Em sistemas de monitoramento, o conceito de “pixels por metro” (PPM) é mais importante do que uma medida absoluta de resolução em Megapixels (MP). Ele indica quantos pixels da imagem são necessários para cobrir um objeto com 1 metro de comprimento na cena observada.
Quanto maior o PPM, mais detalhes a câmera consegue capturar. E quanto mais detalhes, mais fácil identificar características como rostos, placas de automóveis ou texto. O importante é observar que essa medida é relativa, e varia conforme a resolução da câmera e a distância entre o objeto e a lente.
Câmeras com maior resolução têm mais pixels para distribuir por uma área da imagem, aumentando o PPM em uma mesma distância. Porém, quanto mais distante o objeto, menor o PPM.

A figura acima ilustra bem o conceito. Tanto a placa do veículo como os semáforos ao fundo tem a mesma largura, cerca de 30 cm. Entretanto, como a placa está mais próxima da câmera, ela ocupa uma área de 313 pixels de largura, contra 83 pixels para os semáforos.
Com uma simples regra de três, podemos calcular que um objeto de 1 metro de comprimento, na distância da placa, teria 1.043 pixels, contra apenas 276 pixels para o semáforo. Neste exemplo, a mesma câmera tem, na distância até a placa, um PPM quase quatro vezes maior que na distância até os semáforos.
Além disso, vale lembrar que diferentes modelos de IA tem diferentes requisitos de PPM. Por exemplo, um modelo de reconhecimento facial pode ter um requisito mínimo de 250 PPM. Mas se tudo o que você precisa é detectar se há uma pessoa ou não na cena, 50 PPM podem ser suficientes.
Em resumo, é o PPM, e não a resolução em megapixels, o fator determinante para dizer se uma câmera é adequada ou não para uma solução de visão computacional.
O que são ângulos de incidência?
Ângulos de incidência são outro conceito importante em visão computacional. O termo se refere ao ângulo formado entre a lente da câmera e o objeto sendo observado. São dois os ângulos com os quais devemos nos preocupar.
O ângulo de incidência vertical se refere ao ângulo da câmera em relação ao teto, como indicado pela letra grega Theta θ na figura abaixo.

O ângulo de incidência horizontal se refere ao ângulo da câmera em relação ao objeto, utilizando a direção da câmera como referência. Na figura abaixo, podemos observar que os objetos (pessoas) fazem um ângulo a e b, respectivamente, em relação à direção da câmera. Estes são ângulos de incidência horizontais.

Assim como ocorre com PPM, diferentes modelos de IA tem diferentes requisitos quanto ao ângulo de incidência. Ângulos extremos podem causar distorções na imagem, dificultando ou até mesmo impedindo o reconhecimento de um objeto. O correto posicionamento da câmera em relação aos objetos pode ser um fator crucial para aumentar a precisão na detecção.
O que é FPS?
Outro termo comumente utilizado na visão computacional é FPS, do inglês Frames Per Second (quadros por segundo), que tem origem na indústria cinematográfica. Vídeos são nada mais do que sequências de imagens estáticas (frames, ou quadros) exibidas sequencialmente em um curto intervalo de tempo. Quanto mais quadros, mais suave é sensação de movimento. Filmes feitos para o cinema, por exemplo, geralmente tem 24 quadros por segundo.
Mas na visão computacional, podemos usar o termo de forma diferente, nos referindo a quantos quadros serão processados em um segundo, independentemente da taxa de quadros (framerate) do vídeo original.
Novamente, diferentes algoritmos de inteligência artificial tem diferentes requisitos de FPS, conforme o caso de uso. Em cenas estáticas ou com pouco movimento, como reconhecimento facial ou detecção de pessoas em um ambiente, um framerate de 5 FPS pode ser mais do que suficiente. Já em cenas rápidas, como leitura de placas de veículos em movimento numa rodovia, é necessário usar um FPS mais alto, como 12 FPS.
Pode ser tentador definir um FPS alto para que a solução “não perca nenhum detalhe”, mas recomendamos cautela. Quanto mais FPS, mais poder de processamento é necessário para analisar as imagens, e maior o consumo de energia do equipamento que está fazendo a análise. Mas o retorno, em termos de eficácia da detecção, provavelmente será pequeno ou nulo.
Assim como em PPM e ângulos de incidência, diferentes algoritmos de inteligência artificial tem diferentes requisitos de FPS. Quando em dúvida, recomendamos começar com o valor mínimo sugerido pelo algoritmo, e aumentá-lo gradativamente caso necessário, até que os resultados desejados sejam obtidos.
Recomendações para o AIOS
Como já dissemos, cada solução ou modelo de IA tem seus próprios requisitos para os parâmetros citados anteriormente. No caso do AIOS, nosso sistema de Edge AI e visão computacional, podemos fazer algumas recomendações gerais baseadas em casos de uso mais comuns.
Quanto à resolução, um sensor de 2 MP é o suficiente para detecção de pessoas, veículos, objetos ou reconhecimento facial. Já para a leitura de placas de veículos (ALPR, Automated License Plate Reading), recomendamos ao menos 5 MP.
50 PPM é o suficiente para detecção de objetos, veículos ou pessoas. Já soluções mais avançadas, como reconhecimento facial e leitura de placas (ALPR), demandam ao menos 250 PPM.
Para detecção de objetos, maquinário (como empilhadeiras) e pessoas os ângulos máximos de incidência vertical e horizontal são de 60 e 45 graus, respectivamente. Já para ALPR e reconhecimento facial, os ângulos são 15 graus (vertical) e 30 graus (horizontal).
Por fim, temos a taxa de quadros. Em todas as soluções que mencionamos, 5 FPS é o suficiente.
Veja a tabela-resumo abaixo. Em caso de dúvidas, consulte a documentação do AIOS para mais informações.

Conclusão
Como mostramos, há vários parâmetros que influenciam o desempenho de uma solução de visão computacional, e a compreensão do significado e importância de cada um é crucial tanto na escolha de seus componentes quanto em sua implementação. Escolha sabiamente e os resultados, e a satisfação de seus clientes, serão garantidos.




