Como sei que meu dataset é suficiente para resolver meu problema?

Estou construindo um sistema de classificação e previsão de vendas de imóveis para a imobiliária que trabalho, mas não sei se meu dataset é suficiente ou se devo buscar ou comprar outros datasets. Vocês podem me dar alguma dica para isso? – Roberto

Olá Roberto, apesar de não conhecer o seu dataset atual, ou conjunto de dados de treinamento para o modelo de previsão de vendas que você está construindo, nem exatamente seus requisitos de saída e previsão, o que seria o ideal para um melhor diagnóstico, posso avaliar em termos genéricos, para sua verificação ou alinhamento, ou seja, fornecer uma resposta referente a qualquer dataset para qualquer problema, o que me parece uma excelente oportunidade para estudo.

Em primeiro lugar, acredito que o mais relevante seja exatamente definires bem o problema que desejas resolver, ou ainda as perguntas que desejas responder com seu modelo, que conforme a complexidade pode conduzir a um volume infinito de datasets, conforme a qualidade de resultados desejada.

Na verdade, é sempre bom lembrar que fazer um sistema que faz previsões é fácil, qualquer modelo banal de inteligência pode conseguir isso. O problema mesmo é fazer previsões com uma qualidade dentro de seus requisitos, que irão provavelmente desafiar as pessoas e as máquinas e seus algoritmos.

A partir daí, tente construir um primeiro modelo de avaliação que busque contemplar todas perguntas, que automaticamente você irá começar a perceber que alguns pontos podem ser inviáveis de serem atendidos, por falta de dados.

Por fim, lembre-se também que é possível que você descubra que o seu problema não pode ser resolvido com seu modelo, apesar de ele usar o que há de mais avançado em termos de plataforma de AI, e nesse caso você deverá repensar o próprio modelo, ao invés do conjunto de dados de treinamento. Entretanto, eu diria que isso é bastante comum em problemas complexos de previsão, como por exemplo no Mercado de Capitais, mas em tese não deveria ser tão crítico para sua aplicação, dentro do que imagino ser uma boa abordagem para tratar com previsão de vendas de imóveis.