Combinando el muestreo intencional y el algoritmo K-means para la captación de usuarios en investigación cualitativa

Aunque varios autores han aplicado – y siguen aplicando – métodos mixtos en sus investigaciones, los enfoques cuantitativo y cualitativo se han considerado, históricamente, como dos formas distintas e independientes de llevar a cabo una investigación. En las últimas décadas y debido al inicio de la era del Big Data, que no es más que una vasta disponibilidad de datos junto a la existencia del poder computacional necesario para procesarlos (Grimmer et al., 2021), la brecha entre los enfoques cuantitativo y cualitativo ha aumentado. La consecuencia es una deshumanización y mitificación de las técnicas cuantitativas y del machine learning (Ziewitz, 2016) y, por lo tanto, la creación de escenarios en los que es complicado detectar las posibilidades que surgen al combinar técnicas cualitativas y de machine learning. Ante dicho contexto, este artículo se basa en la postura de Glaser y Strauss (1967, p.17-18) y defiende que no existe un choque fundamental entre los propósitos y capacidades de los métodos cualitativos y cuantitativos y, también, que cada sistema de datos puede resultar útil tanto en la verificación como en la generación de teorías. En otras palabras, al combinar big data con thick data (Wang, 2016), las investigaciones pueden obtener insights complejos y llenos de matices, lo que conduce a conclusiones más sólidas y significativas. Este enfoque de metodología mixta es una opción prometedora para alcanzar rigor y eficiencia de la investigación en diversos campos de estudio.

UX y métodos mixtos

Precisamente, la investigación de la Experiencia de Usuario (UX) es una disciplina que mantiene una posición firme en la combinación de métodos cualitativos y cuantitativos. En su objetivo de comprender las necesidades, comportamientos y actitudes de los usuarios hacia los productos o servicios, la investigación en UX utiliza encuestas y una amplia gama de experimentos cuantitativos para recopilar grandes cantidades de datos sobre las prácticas y preferencias de los usuarios. Al mismo tiempo, los métodos cualitativos como las entrevistas o los test con usuarios también se utilizan para obtener información valiosa sobre las experiencias, motivaciones y actitudes de los usuarios. En el campo del UX se reconoce la necesidad de un enfoque mixto para comprender realmente las experiencias y percepciones de los usuarios y, en consecuencia, diseñar productos y servicios que satisfagan sus necesidades.

En este sentido, considero la investigación en UX como un campo notablemente apropiado para ser el escenario donde se ponga en práctica una combinación rigurosa, transparente y funcional de técnicas cualitativas y cuantitativas. Este artículo se divide en dos fases, centrándose concretamente en la combinación del muestreo cualitativo intencional (Patton, 2002; Suri, 2011) y el algoritmo K-means (De Soete y Carroll, 1994; Jain, 2010; Tomar, 2022) y su uso durante la fase de captación de usuarios. El muestreo y la captación son momentos cruciales en la investigación, ya que determinan la validez de los datos recogidos. La selección de los participantes puede influir significativamente en los conocimientos obtenidos a lo largo de la investigación, ya que el objetivo es descubrir las necesidades, expectativas y comportamientos de los usuarios. A fin de cuentas, el reto de esta fase es conseguir una muestra lo suficientemente diversa, que tenga en cuenta las diferencias individuales y cualquier posible sesgo.

Sinergias entre el muestreo intencional y K-means

En primer lugar, describiré los dos pilares fundamentales en los que se basa este artículo: el muestreo intencional y K-means.

Muestreo intencional

El muestreo intencional se refiere a la selección intencionada de participantes o casos, en función de su relevancia para las preguntas de la investigación o la hipótesis preliminar. En el muestreo intencional –y en los métodos cualitativos en general– el objetivo no es obtener una muestra representativa de una población, sino seleccionar a informantes que puedan proporcionar datos complejos y variados que se utilizarán para generar insights fundados y significativos (Charmaz, 2006: 14). En otras palabras, la selección del informante debe responder al propósito teórico y a su relevancia a la hora de avanzar en el desarrollo de los objetivos de la investigación (Glaser y Straus, 1967, p.48). En este punto, Small (2009) reflexiona sobre una preocupación común pero compleja a la hora de realizar una investigación cualitativa en su artículo, precisamente titulad, “¿How many cases do I need?». La cuestión sobre qué tamaño de muestra se necesita para la investigación cualitativa a menudo es planteada por investigadores/as individuales, aunque no se discute con tanta frecuencia en la literatura académica (Roland, 2016; Gill, 2020). Así pues, pocos autores explicitan que el número final de usuarios reclutados depende en gran medida de variables exógenas como la financiación disponible, los plazos, el grado de profundidad deseado y otras variables contextuales.

Yo coincido con la posición de Small (2009, p.10) cuando afirma que, al referirse al tamaño de la muestra, los métodos cualitativos a menudo tienden a imitar erróneamente el lenguaje de la estadística clásica. Basándome en esto, rechazo la existencia de una fórmula o criterio objetivo y general que pueda proporcionar una cantidad específica de informantes requeridos para un conjunto de entrevistas, grupos focales, etcétera. Por lo tanto, es responsabilidad del/la investigadora cualitativo equilibrar el alcance de la investigación, los recursos disponibles y la técnica adecuada para determinar un tamaño de muestra.

Volviendo a Glaser y Strauss (1967, p.60), el/la investigadora debe responder a preguntas fundamentales sobre el público objetivo para determinar el tamaño de la muestra y, en última instancia, lograr que esta sea relevante. Estas preguntas incluyen: ¿Cuáles son los subgrupos sociológicos que componen nuestro público objetivo? ¿En cuántos subgrupos debe centrarse la investigación? Y, ¿con qué grado de profundidad debe estudiarse cada subgrupo?

Todas las respuestas a esas preguntas están estrictamente relacionadas con el concepto de saturación teórica. En el campo cualitativo, generalmente se entiende por saturación teórica aquel momento en el que ya no surgen nuevas cuestiones o percepciones al analizar nuevos datos. Autores como Roland (2016, p.1) y Low (2019, p.1) exponen la problemática que presenta la definición anterior. Ambos afirman que no demuestra ninguna orientación didáctica para que el/a investigadora detecte que ha llegado a tal punto. Esta es la razón por la que muchos/as investigadoras utilizan la saturación teórica como herramienta justificativa, es decir, para limitarse a proclamar que la han alcanzado sin demostrar cómo lo han hecho (Charmaz, 2006, p.114). 

No pretendo reflexionar exhaustivamente sobre cómo lograr la saturación teórica en la investigación cualitativa, pero sí defender que una captación que se sostenga en la analítica es el primer paso indispensable para alcanzarla. Para dicho ejercicio, y como ya se ha explicado, será crucial identificar las principales variables sociológicas que caracterizan a nuestro público objetivo y, por lo tanto, tener un conocimiento sólido acerca de los subgrupos que la componen. Partiendo de esta base, el/la investigadora podrá formular hipótesis y preguntas de investigación sólidas sobre cada subgrupo. Además, este conocimiento también puede determinar la dirección que debe tomar la investigación, como por ejemplo a la hora de aplicar metodologías específicas para cada subgrupo. Así, y yendo un paso más allá, deberíamos utilizar el concepto de muestreo intencional estratificado (Patton, 2002, p.240; Suri, 2011, p.70) en lugar de un mero muestreo intencional. Inspirándome en estos dos autores, yo defino el muestreo intencional estratificado como la captación útil que permite examinar las variaciones en la manifestación de un fenómeno, específicamente cuando nuestro público objetivo estratificado está formado por muestras o subgrupos que son internamente homogéneos y distinguibles entre ellos

Recopilando las ideas abordadas hasta el momento, en la segunda fase de este artículo propondré una guía metodológica explicada paso a paso y respaldada por datos, con el fin de ejecutar una selección informada de participantes basada en la técnica de muestreo intencional estratificado. Esta forma de proceder guiará al/la investigadora en la misión de decidir el tamaño y los atributos óptimos de la muestra, que resultan factores clave para lograr la saturación teórica y obtener respuestas relevantes a las preguntas de investigación. El algoritmo K-means es la herramienta necesaria para profundizar en los subgrupos de nuestro público objetivo.

Algoritmo K-means

El agrupamiento de K-means es un algoritmo de aprendizaje no supervisado, cuya función es descubrir estructuras inherentes o agrupaciones dentro de los datos, identificando patrones que no resultan inmediatamente evidentes. Más concretamente, K-means es un algoritmo basado en la distancia, cuyo objetivo es agrupar puntos o casos de datos similares en función de sus atributos (Tomar, 2022). El procedimiento empieza asignando K-centroides de forma aleatoria, que actúan como puntos representativos de cada conglomerado. A continuación, asigna iterativamente cada caso individual al centroide más cercano y actualiza los centroides basándose en la media de los puntos asignados a ellos. Este proceso continúa hasta que los centroides dejan de alterarse de forma significativa, lo que indica que los conglomerados se han estabilizado. El resultado es una partición de los datos en K-grupos distintos, cada uno de los cuales contiene casos individuales cercanos entre sí y alejados de los puntos pertenecientes a otros grupos.

La fórmula matemática en la que se basa la mencionada definición general es la distancia euclídea (Singh et al., 2013: 14). La distancia euclídea es el cálculo de la (des)similitud entre casos individuales. Es decir, determina la distancia en línea recta entre dos puntos en un espacio multidimensional. En el agrupamiento de K-means, la distancia euclídea se utiliza para medir la distancia entre cada punto de datos y los centroides del grupo. Cuanto más cerca estén los puntos de sus respectivos centroides, más similares se considerarán. Al minimizar la suma total de las distancias euclídeas al área contenida dentro de cada conglomerado, K-means encuentra las asignaciones óptimas de conglomerados y las posiciones de los centroides. Entre todos los algoritmos de agrupación, K-means destaca como uno de los más relevantes debido a su facilidad de implementación, simplicidad, eficiencia y éxito empírico (Jain, 2010). Además de la eficacia inherente al propio algoritmo, el lenguaje de programación utilizado para implementar K-means es Python. Como explican Raschka et al. (2020: 2), en las últimas décadas el lenguaje Python ha crecido en popularidad dentro de la comunidad científica, ya que permite la investigación y el desarrollo de técnicas de machine learning. Las librerías pandas, scikit-learn y matplotlib.pyplot son herramientas de gran prestigio que nos permitirán preparar y procesar los datos, implementar el algoritmo y representar gráficamente los resultados. La guía de muestreo intencional estratificado se basa en dichas librerías.

Reuniendo los argumentos presentados y haciendo hincapié en el objetivo principal, nuestra guía de K-means permitirá desarrollar al/la investigadora un entendimiento inicial de los posibles patrones subyacentes de los datos, así como generar hipótesis, detectar anomalías e identificar características destacadas (Muller, 2016, p.5). Todos estos factores son cruciales a la hora de determinar el tamaño y las características de la muestra. Desde un punto de vista más amplio, la combinación de las humanidades digitales con la informática esconde un enorme potencial. En otras palabras, y siguiendo a Nelson (2017, p.1), el diálogo entre la experta interpretación humana y el poder computacional em la detección de patrones de datos puede producir enfoques metodológicos notablemente rigurosos y adaptables a cada investigación particular.