FISI - Ridger Remberto Jáuregui Guerra
FISI - Ridger Remberto Jáuregui Guerra
FISI - Ridger Remberto Jáuregui Guerra
AUTOR:
Ridger Remberto Jáuregui Guerra
ASESOR
Ing. John Clark Santa María Pinedo
CO - ASESOR:
Ing. M.Sc. Pedro Antonio Gonzáles Sánchez
Tarapoto - Perú
2019
viii
ix
x
xi
vi
Dedicatoria
A Dios por haber permitido llegar hasta este punto y haberme dado salud para lograr
mis objetivos, además de su infinita bondad y amor.
A mis padres, Remberto Jáuregui Landa y Beatriz Guerra Ríos, quienes con su amor,
paciencia y esfuerzo me han permitido llegar a cumplir un objetivo más en mi vida, gracias
por inculcar en mí el ejemplo de esfuerzo, dedicación y valentía, de no temer las
adversidades porque Dios está conmigo siempre.
vii
Agradecimiento
Mi más grande y sincero agradecimiento a mis asesores, el Ing. John Clark Santa María
Pinedo y el Ing. M.Sc. Pedro Antonio Gonzáles Sánchez, quienes fueron los principales
colaboradores durante todo este proceso, quienes con su conocimiento, enseñanza y
colaboración permitieron el desarrollo de este trabajo.
Índice
CONCLUSIONES .......................................................................................................... 70
RECOMENDACIONES ................................................................................................. 71
ANEXOS ........................................................................................................................ 75
x
Índice de tablas
Índice de figuras
Figura 30: Diagrama de flujo del algoritmo de búsqueda de información para el cálculo
de similaridad de la misma ............................................................................ 45
Figura 31: Pantalla del inicio de búsqueda del sistema informático.................................. 46
Figura 32: Pantalla que muestra resultados de la búsqueda .............................................. 46
Figura 33: Pantalla que muestra información precisa de un registro de tesis .................... 47
Figura 34: Pantalla para el administrador del sistema informático ................................... 47
Figura 35: Pantalla de administración con registros de tesis............................................. 48
Figura 36: Determinación de la región crítica .................................................................. 52
Figura 37: Ubicación del estadístico de prueba en el gráfico de la distribución normal. ... 57
Figura 38: Interfáz del sistema para la consulta del grado de similaridad. ........................ 58
Figura 39: Cálculo del grado de similaridad de la consulta historiales médicos en
clínica. .......................................................................................................... 59
Figura 40: Cálculo del grado de similaridad de la consulta congestionamiento vehicular. 59
Figura 41: Cálculo del grado de similaridad de la consulta Seguridad cuidadana ............. 60
Figura 42: Cálculo del grado de similaridad de la consulta Simulación del transporte
urbano .......................................................................................................... 61
Figura 43: Cálculo del grado de similaridad de la consulta Sistema de sensores. ............. 61
Figura 44: valoración a la identificación del grado de similaridad de proyectos de tesis ... 63
Figura 45: Resultado de la identificación del grado de similaridad de proyectos de tesis . 65
Figura 46: Identificación del grado de similaridad de proyectos de tesis Pre y Post test
implementación del sistema informático ....................................................... 66
Figura 47: Calificación del sistema informático como herramienta de apoyo, en el
proceso de evaluación del grado de similaridad o duplicidad de un proyecto
de tesis .......................................................................................................... 67
Figura 48: Respecto a la calidad de los resultados de búsqueda (tesis recuperadas) que
sea realiza el sistema informático. ................................................................. 68
Figura 49: Relación de la variable X sobre la variable Y ................................................. 69
xiii
SI : Sistema Informático
TF : Frecuencia de Término
Resumen
Abstract
The Faculty of Systems and Information Engineering of the National University of San
Martin, is constantly developing projects looking for new forms of innovation in order to
meet needs and improve the quality of life of the university community and society in
general. The world of research is very broad, researching a certain subject that was
previously worked on is common, therefore it is difficult to determine the similarity in a
manual way, because there is no technological tool that automates and systematizes these
processes, This generates uncertainty in the world of research, researchers are unaware of
the content of previous research, which can therefore end up generating duplication of the
same. The following research project entitled "Computer system based on the model of
vector space for the identification of the degree of similarity of thesis projects in the School
of Systems and Information Engineering of the UNSM-T", developed with funding from the
National University of San Martín in 2018, having as objective to implement a technological
tool that allows to identify the degree of similarity of thesis projects in the School of Systems
and Information Engineering of the UNSM-T, with this objective, the research question is
the following, how to identify the degree of similarity of the thesis projects in the faculty of
systems engineering and computer science of the UNSM-T? ", the answer to this question
is done through a study of applied type and level of pre-experimental research. In addition,
a pre and posttest was designed, which allowed knowing the situation of a before and after
the implementation of the computer system (http://jauregui.infinitumperu.com/). The
answers that were obtained regarding the quality of the search results (theses recovered
through a query) indicate that 59% of the respondents rated it as "Good" and 41% as "Very
good". Taking into account the aforementioned, it is recommended to massif the use of the
proposal for the identification of the degree of similarity of thesis projects in the FISI, in
such a way as to avoid duplication or develop a thesis project with a high degree of similarity
with an already developed and sustained in that faculty.
Introducción
CAPÍTULO I
REVISIÓN BIBLIOGRÁFICA
• Metabuscadores: Los metabuscadores son páginas web en las que se nos ofrece una
búsqueda sin que haya una base de datos propia detrás: utilizan las bases de varios
buscadores ajenos para ofrecernos los resultados. Un ejemplo de metabuscador es
Metacrawler.
• La equiparación parcial, esto es, la capacidad del sistema para ordenar los resultados
de una búsqueda, basado en el grado de similaridad entre cada documento de la colección y
la consulta.
Su cálculo se efectúa una vez el texto del documento ha sido normalizado, según los
procesos de depuración mencionados. Posteriormente se lleva a cabo el conteo de las veces
que el término aparece presente en el documento. De hecho, se deja bien claro que es
necesario calcular el TF de cada término en cada documento.
El Factor IDF es único para cada término de la colección. El IDF de un término dado
(n) se realiza aplicando el logaritmo en base 10 de N (Número total de documentos de la
colección) dividido entre la “Frecuencia de documentos para un término (n) en la colección”
(o lo que es lo mismo el número de documentos de la colección en los que aparece en termino
(n) dado). Al valor resultante se le suma 1 para corregir los valores para los términos con
IDF muy bajos (Aunque esta variación depende del sistema de recuperación).
La difusión documental es una difusión activa. Es aquella que implica iniciativa por
parte del centro ofreciéndole, a los usuarios, productos documentales que juzga útiles, según
el análisis que se haya hecho de sus necesidades, o señalándole sus problemas de
información y ayudándole a resolverlos. El centro deberá estudiar a sus usuarios con el
objeto de averiguar qué tipo de información necesitan, en conjunto o por grupos, y debe
estudiar también el sistema de difusión más adecuado para cada necesidad. Dentro de la
difusión documental se puede distinguir entre difusión de documentos primarios, la difusión
de documentos secundarios o de referencia de documentos y la difusión selectiva de la
información.
b) Préstamos
Préstamos. El usuario obtiene el documento y puede utilizarlo durante un período de
tiempo determinado. El documento debe ser devuelto.
Obtención de copia del documento. El usuario obtiene una copia del documento que
pasa a ser de su propiedad, no debe devolverlo.
1.5.1.2.2. Difusión de referencia de documentos
La mayoría de centros de documentación elabora algún tipo de publicación
secundaria que contiene referencias de documentos y transmite a los usuarios para su
conocimiento.
Consiste en seleccionar, ordenar y describir las webs de interés para los usuarios del
centro. Se distribuye mediante las redes internas del centro o intranet. (Ahora se empieza a
aplicar el término de Arquitectura de la información a esta actividad). También puede
consistir en enviar, por correo electrónico, las URL de nuevas webs de interés.
Segobia (2005) hace mención que en 1969 se proclamó la regla Ingelfinger por la
que un manuscrito sólo podía ser considerado para publicación si su contenido no había sido
10
Como hemos dicho, la publicación duplicada puede ser abierta, con una cita cruzada
clara al artículo principal y pleno conocimiento y acuerdo por parte de los editores, o bien
ser una publicación de información duplicada oculta. La publicación duplicada abierta está
plenamente justificada en situaciones especiales, y uno de los ejemplos más citados es la
traducción a una lengua diferente de guías de práctica clínica. Actualmente, la mayor parte
de las publicaciones de información científicas son de fácil acceso. En ocasiones, sin
embargo, los editores de dos revistas con audiencia diferente pueden ponerse de acuerdo
sobre la conveniencia de publicar un mismo artículo. Finalmente, la publicación duplicada
puede ser oculta o encubierta sin conocimiento de los editores y sin cita cruzada al
documento original. Este tipo de conducta es totalmente inaceptable en el mundo científico.
También es lógico imaginar que la similitud máxima sólo se da cuando todos los
componentes de los vectores son iguales, en este caso la función del coseno obtiene su
máximo valor, la unidad. Lo normal es que los términos de las columnas de la matriz hayan
sido filtrados (supresión de palabras vacías) y que en lugar de corresponder a palabras,
equivalgan a su raíz “stemmed” (agrupamiento de términos en función de su base léxica
común, por ejemplo: economista, económico, economía, económicamente, etc.).
Generalmente las tildes y las mayúsculas/ minúsculas son ignorados. Esto se hace para que
las dimensiones de la matriz, de por sí considerablemente grandes no alcancen valores
imposibles de gestionar. No obstante podemos encontrar excepciones a la regla general, tal
como parece ser el caso de Yahoo!, que no ignora las palabras vacías.
Para finalizar, la del coseno no es la única función de similitud. Existen otras, las cuales no
son difíciles de calcular sino más bien de interpretar y que por tanto son menos aplicadas en
Recuperación de Información.
compartir con otro individuo la forma de pensar, creer o bien sea tener los mismos ideales
principios.
• La equiparación parcial, esto es, la capacidad del sistema para ordenar los resultados
de una búsqueda, basado en el grado de similaridad entre cada documento de la colección y
la consulta.
• La ponderación de los términos en los documentos, no limitándose a señalar la
presencia o ausencia de los mismos, sino adscribiendo a cada término en cada documento
un número real que refleje su importancia en el documento.
• La ponderación de los términos en la consulta, de manera que el usuario puede
asignar pesos a los términos de la consulta que reflejen la importancia de los mismos en
relación a su necesidad informativa.
1.10.4 Información científica
EcuRed (2017) Conjunto de datos científicos que caracterizan una situación o
materia, no conocidas por el sujeto, transmitidas a él por algún medio, que aumentan su
conocimiento en algo y que pueden facilitar su actuación.
1.10.5 Tesis
EcuRed (2017) Tesis proviene del latín thesis que, a su vez, deriva de un vocablo
griego. Se trata de una proposición o conclusión que se mantiene con razonamientos. La
14
CAPÍTULO II
MATERIAL Y MÉTODOS
Hipótesis nula (Ho): Con el uso de un sistema informático basado en el modelo de espacio
vectorial no se mejorará la identificación del grado de similaridad de proyectos de tesis de
la Facultad de Ingeniería de Sistemas e Informática de la UNSM-T.
Sistema de variables
Se consideró las siguientes variables de estudio:
Variable dependiente
Y: Grado de similaridad.
Indicadores:
Y1: Valoración de la identificación del grado de similaridad
Y2: Número de tesis evaluadas en una consulta
Variable independiente
X: Sistema informático basado en el modelo de espacio vectorial.
Indicadores:
X1: Valoración del sistema por el usuario.
Tabla 1
Escala de medición de las variables
Variable Indicador Escala de medición
Y1: Valoración de la
identificación del grado de Cualitativa
Dependiente:
similaridad.
Grado de similaridad
Y2: Número de tesis evaluadas en
Cuantitativa
una consulta.
Independiente:
Sistema informático X1: Valoración del sistema
Cualitativa
basado en el modelo Informático.
de espacio vectorial.
Fuente: Elaboración propia
16
La investigación es de tipo aplicada, cabe mencionar que sus aportes están dirigidos
a la solución, se caracteriza porque los resultados obtenidos se aplicaron y utilizaron de
forma inmediata para resolver alguna situación problemática. La investigación aplicada se
encuentra íntimamente ligada a la investigación teórica, ya que depende de sus
descubrimientos y aportes teóricos.
Dónde:
2.5.1. Población
La población se conformó por 26 docentes nombrados en la Facultad de Ingeniería de
Sistemas e Informática de la Universidad Nacional de San Martín.
17
2.5.2. Muestra
Para el cálculo de la muestra se aplicó la fórmula de muestro de poblaciones finitas con un
nivel de probabilidad de éxito del 95%.
𝐍 ∗ 𝐙𝐚𝟐 ∗ 𝐩 ∗ 𝐪
𝒏=
𝐝𝟐 ∗ (𝑵 − 𝟏) + 𝒁𝒂𝟐 ∗ 𝒑 ∗ 𝒒
Donde:
N = 26
Za = 1.962 (seguridad del 95%)
p = proporción esperada (en este caso 90% = 0.9)
q = 1-p (en este caso 1 - 0.9 = 0.1)
d = precisión (se usó el 5%)
Al reemplazar los datos, en la fórmula tenemos:
𝟐𝟔 ∗ 𝟏. 𝟗𝟔𝟐𝟐 ∗ 𝟎. 𝟗 ∗ 𝟎. 𝟏
𝒏=
𝟎. 𝟎𝟓𝟐 ∗ (𝟐𝟔 − 𝟏) + 𝟏. 𝟗𝟔𝟐𝟐 ∗ 𝟎. 𝟗 ∗ 𝟎. 𝟏
𝒏 = 21.03
La cual nos dio una muestra de valor de 22 docentes.
Tabla 2
Técnicas e instrumentos a utilizar en el estudio
Técnica Justificación Instrumentos Aplicado en…
1. Encuesta 1. Permite conocer la 1. Cuestionario. 1. Pre y Post test
valoración del sistema
por el usuario
2. Registros 2. Proporciona la 2. Sistema 2. Procesos que se
información del sistema Informático desarrollan dentro del
informático. Sistema informático.
3. Análisis de 3. Para obtener la 3. Fichas 3. La bibliografía
documentos información de las bibliográficas. necesaria para
fuentes secundarias desarrollar el marco
referentes a temas de la teórico y la información
investigación. complementaria.
Fuente: Elaboración propia
18
Descripción de propuesta
- Registrar Usuario
- Generar Lista Invertida
- Buscar Tesis
- Comentar Tesis
a) Identificación de Actores
- Usuario
- Administrador
Figura 4: Diagrama de caso de uso de negocio. (Fuente: Elaboración propia – Generado por RSA)
20
Tabla 3
ECUN Consulta de Registros de Tesis
Caso de Uso de Negocio Consulta de Registros de Tesis
Actor Cliente: usuario del sistema
Este caso de uso de negocio “Consulta de
Registros de Tesis”, permite al actor tener
un listado de las tesis que corresponden a
la relevancia de los términos de su
búsqueda basado en los campos Hipótesis
y Título de cada registro.
El actor tendrá la necesidad de buscar
Resumen
registros de tesis y verificar su similaridad,
por ello ingresará al sistema una cadena de
caracteres que corresponden a su
búsqueda, de modo que el sistema
devuelve un listado en donde se muestran
los registros de tesis y la similaridad
expresada en porcentaje.
Tabla 4
ECUN – Mantenimiento
Caso de Uso de Negocio Mantenimiento
Actor Administrador
Este caso de uso de Negocio “Mantenimiento”, permite el
total control sobre los datos de los registros de tesis,
teniendo en cuenta el inventario que la Facultad de
Ingeniería de Sistemas e Informática de la UNSM-T posee
Resumen
sobre estos registros.
Estos datos permiten que el usuario pueda generar una
Lista invertida válida que sirva de índice para llevar a cabo
la consulta de registros de tesis.
Registrar tesis
Propósito
Generar lista invertida
Objetivo Tener control sobre los registros de tesis del sistema.
Fuente: Elaboración propia
Tabla 5
ECUN - Seguridad
Caso de Uso de Negocio Seguridad
Actor Administrador
Este caso de uso de Negocio “Seguridad”
permite tener el control de los
administradores del sistema, de modo que
Resumen
sólo los usuarios registrados tengan el
derecho de Mantenimiento y de registrar,
editar y eliminar los registros de tesis.
Figura 5: Diagrama MON – búsqueda de registro de tesis. (Fuente: Elaboración propia – Generado por RSA)
23
- MON Mantenimiento
Figura 6: Diagrama MON – Mantenimiento (Fuente: Elaboración propia – Generado por RSA)
- MON Seguridad
Figura 7: Diagrama MON – Seguridad. (Fuente: Elaboración propia – Generado por RSA)
24
Modelo de Dominio
Figura 10: MCUR – Búsqueda de registro de tesis. (Fuente: Elaboración propia – Generado por RSA)
26
Tabla 6
ECUR Seguridad: Registrar Usuario
Caso de Uso Registrar Usuario
Actores Administrador del Sistema
Propósito Mantener una lista de usuarios registrados
Permite mantener una lista de usuarios registrados, que
Resumen discrimine el acceso al mantenimiento del sistema sólo a
aquellos que se encuentran registrados
El Administrador ha presionado el botón “Nuevo” de su
Pre-Condición
interfaz
- ECUR Mantenimiento
Tabla 7
ECUR Mantenimiento: Registrar Tesis
Caso de Uso Registrar Tesis
Actores Administrador del Sistema
Propósito Mantener una lista de las Tesis registradas
Permite mantener una lista de registros de tesis, que sirvan
Resumen como resultado de las búsquedas que los usuarios deseen
realizar, desde la respectiva interfaz.
El Administrador ha presionado el botón “Nuevo” de su
Pre-Condición
interfaz.
Tabla 8
ECUR Mantenimiento: Generar lista invertida
Caso de Uso Generar Lista Invertida
Actores Administrador del Sistema
Propósito Procesar los registros con el algoritmo de índice invertido
Resumen Permite mantener la lista invertida de registros de tesis, que
sirven como base en el resultado de las búsquedas que los
usuarios deseen realizar, desde la respectiva interfaz.
Pre-Condición El Administrador ha presionado el botón “Generar” de su
interfaz
Flujo Básico
Generar la Lista Invertida
Flujo Alternativo Inclusión:
Ninguna inclusión.
Excepción Ninguna excepción que el actor tenga que atender.
Post-Condición El sistema actualiza la lista invertida.
Fuente: Elaboración propia
Figura 11: Diagrama de secuencias búsqueda de registros de tesis. (Fuente: Elaboración propia – Generado
por RSA)
29
Figura 12: Diagrama de secuencia editar registro de tesis. (Fuente: Elaboración propia – Generado por RSA)
Figura 13: Diagrama de secuencia crear registro de tesis. (Fuente: Elaboración propia – Generado por RSA)
30
Figura 14: Diagrama de secuencia generar lista invertida. (Fuente: Elaboración propia – Generado por RSA)
Figura 15: Diagrama de secuencia editar usuario sistema. (Fuente: Elaboración propia – Generado por RSA)
31
Figura 16: Diagrama de secuencia crear usuario sistema. (Fuente: Elaboración propia – Generado por RSA)
Figura 17: Diagrama de despliegue. (Fuente: Elaboración propia – Generado por RSA)
32
Figura 18: Maquetado de software web – Página principal de búsqueda. (Fuente: Elaboración propia)
Figura 19: Maquetado de software web – Página de resultados. (Fuente: Elaboración propia)
Figura 20: Maquetado de software web – Página de resultados. (Fuente: Elaboración propia)
33
Figura 21: Maquetado de software web – Página de detalle de resultado. (Fuente: Elaboración Propia)
Figura 22: Maquetado de software web – Página de administración. (Fuente: Elaboración Propia)
Login de Adm.Invertida
Lista de Tesis
administración
Seguridad Usuarios
Principal
Búsqueda
Index Resultados de
búsqueda Detalle de Resultados
Figura 24: Modelo de base de datos. (Fuente: Elaboración Propia – Generado por MySQL Workbench)
Componentes cartesianas
𝑎⃗ = (𝑎𝑥 , 𝑎𝑦 )
En tres dimensiones
𝑎⃗ = (𝑎𝑥 , 𝑎𝑦 , 𝑎𝑧 )
Figura 25: Gráfico de la estructura del modelo de espacio vectorial. (Fuente: Elaboración Propia)
35
Para la consulta que posteriormente hará el usuario, se creó la estructura lo cual quedó
definido de la siguiente de la manera:
Figura 26: Estructura de palabras para su aplicación mediante el modelo de espacio vectorial. (Fuente:
Elaboración propia)
Donde:
36
𝑁
𝑖𝑑𝑓 (𝑡) = log 2
𝑛𝑡
Donde:
N= Número de documentos
Donde:
1.8.2 Implementación de los algoritmos del modelo de espacio vectorial para el cálculo de
similitud.
N <- size of D
dictionary <- {}
invert_list <- matrix[]
37
DO
terms <- terms UNION {[first term from document_txt]}
document_txt <- document_txt - [first term from document_txt]
WHILE document_txt is not empty
content <- {}
data[id_content] <- {}
FOR EACH id IN [ KEYS OF invert_list[term] ]
data[id_content][id] <- invert_list[term][id]
END FOR
data[idf] <- idf[term]
content <- content UNION {data}
END FOR
1 3
39
Figura 29: Diagrama de flujo del algoritmo para generar la lista invertida. (Fuente: elaboración propia)
40
invert_list <- {}
idf <- matrix[]
terms <- {}
frecuencia_term_query[term] = count
END FOR
weight_query <- matrix[]
k <- 0
41
k <- k + (weight_query[term] ^ 2)
END FOR
query_norm <- SQUARE ROOT OF k
weight <- matrix[]
FOR EACH term in SET OF KEYS FROM invert_list
FOR EACH id IN relevant_document_ids
IF id EXISTS IN SET OF KEYS FROM invert_list[term] THEN
weight[id][term] <- invert_list[term][id] * idf[term]
ELSE
weight[id][term] <- 0
END IF
END FOR
END FOR
scores <- matrix[]
FOR EACH id IN relevant_document_ids
document_norm <- 0
FOREACH term IN SET OF KEYS FROM invert_list
document_norm <- document_norm + weight[id][term] ^ 2
END FOR
RETURN scores
42
1
43
4 6
5
44
9
45
10
12
Figura 30: Diagrama de flujo del algoritmo de búsqueda de información para el cálculo de similaridad de la
misma. (Fuente: Elaboración propia)
46
Figura 31: Pantalla del inicio de búsqueda del sistema informático. (Fuente: Elaboración Propia)
Figura 32: Pantalla que muestra resultados de la búsqueda. (Fuente: Elaboración Propia)
47
Figura 33: Pantalla que muestra información precisa de un registro de tesis. (Fuente: Elaboración Propia)
Figura 34: Pantalla para el administrador del sistema informático. (Fuente: Elaboración Propia)
48
Figura 35: Pantalla de administración con registros de tesis. (Fuente: Elaboración Propia)
Para poder comprobar estadísticamente la diferencia entre el pre y post test se utilizó
lo siguiente:
𝑿𝟏 + 𝑿𝟐 + 𝑿 …
𝐌=
𝑵
Dónde:
M: Media aritmética
X: Frecuencia de un valor cualquiera de la variable
N: Número total de los valores considerados.
Desviación Estándar.- Es una medida de dispersión de las variables cuantitativas.
Excel 2013.- Software que se utilizó para la creación de gráficos y calcular el promedio y
desviación estándar ya que cuenta con una serie de funciones matemáticas que permite
sistematizar y automatizar cálculos manuales.
Presentación de datos
Tabla 9
Estadística de fiabilidad del cuestionario de la variable dependiente (y) en el pre
test
Alpha de N° de elementos
Cronbach
Pre Test 0.815 7
Fuente: elaboración propia con spss
En la tabla 10 se observa los datos estadísticos calculados por ítem, cabe mencionar
que la correlación total de elementos corregidos son superiores a 0.3 lo cual es aceptable.
50
Tabla 10
Estadísticas de total de elemento de la variabla dependiente (y) en el pre test
Media de Varianza de Correlación Correlación Alfa de
escala si el escala si el total de múltiple al Cronbach si
elemento se ha elemento se ha elementos cuadrado el elemento se
suprimido suprimido corregida ha suprimido
Item 1 10,7273 10,208 0,376 0,825 10,7273
Item 2 11,0909 10,468 0,493 0,801 11,0909
Item 3 10,8636 10,028 0,566 0,789 10,8636
Item 4 11,0909 9,801 0,587 0,786 11,0909
Item 5 11,0000 9,619 0,592 0,784 11,0000
Item 6 11,0000 9,619 0,592 0,784 11,0000
Item 7 10,8636 8,885 0,704 0,762 10,8636
Fuente: elaboración propia con spss
El análisis de Alpha de Cronbach se aplicó al cuestionario de la variable dependiente
en el post test (Y: grado de similaridad) de tal manera como se puede observar en la tabla
11 el valor del post test es superior a 0.70 lo cual representa un nivel de fiabilidad “Buena”.
Tabla 11
Estadística de fiabilidad del cuestionario de la variable dependiente (y) en el post
test
Alpha de N° de elementos
Cronbach
Post Test 0.794 7
Fuente: elaboración propia con spss
En la tabla 12 se observa los datos estadísticos calculados por ítem, cabe mencionar
que la correlación total de elementos corregidos son superiores a 0.3 lo cual es aceptable, no
se muestra ningún ítem con un resultado inferior a 0.3
Tabla 12
Estadísticas de total de elemento de la variabla dependiente (y) en el post test
Media de Varianza de Correlación Correlación Alfa de
escala si el escala si el total de múltiple al Cronbach si
elemento se ha elemento se ha elementos cuadrado el elemento se
suprimido suprimido corregida ha suprimido
Item 1 26,8636 4,600 0,319 0,804 26,8636
Item 2 26,7273 4,494 0,365 0,797 26,7273
Item 3 26,9091 3,801 0,780 0,718 26,9091
Item 4 26,6364 4,052 0,629 0,747 26,6364
Item 5 26,8182 4,537 0,343 0,800 26,8182
Item 6 26,8636 4,123 0,570 0,758 26,8636
Item 7 26,8182 3,870 0,704 0,732 26,8182
Fuente: elaboración propia con spss
51
Tabla 13
Estadística de fiabilidad del cuestionario de la variable independiente (x) en el post
test
Alpha de N° de elementos
Cronbach
Post Test 0.773 4
Fuente: elaboración propia con spss
En la tabla 14 se observa los datos estadísticos calculados por ítem, cabe mencionar
que la correlación total de elementos corregidos son superiores a 0.3 lo cual es aceptable
Tabla 14
Estadísticas de total de elemento de la variabla dependiente (y) en el post test
Media de Varianza de Correlación Correlación Alfa de
escala si el escala si el total de múltiple al Cronbach si
elemento se ha elemento se ha elementos cuadrado el elemento se
suprimido suprimido corregida ha suprimido
Item 1 13,5909 1,301 0,358 0,669 13,5909
Item 2 13,4545 1,212 0,543 0,552 13,4545
Item 3 13,7273 1,160 0,497 0,576 13,7273
Item 4 13,7727 1,232 0,430 0,622 13,7727
Fuente: elaboración propia con spss
Ho : Upre ≥ Upos significó que la valoración al grado de similaridad en el pre test es mayor
o igual a la valoración al grado de similaridad en el post test.
Ha : Upre < Upos significó que la valoración al grado de similaridad en el pre test es menor
a la valoración al grado de similaridad en el post test.
𝑡 = −1.812
Figura 36: Determinación de la región crítica. (Fuente: Elaboración propia)
Regla de decisión:
ACEPTAR Ho si U ϵ Zona de Aceptación
¿Cómo califica
¿Cómo califica el La aprobación de un proyecto de tesis está
En calidad de jurado calificador a las
proceso de basada en el informe de observaciones que ¿Cómo usted califica a La posibilidad El tiempo que usted
de un proyecto de tesis, cómo herramientas
evaluación de los presenta el jurado calificador. Si existiera un la disponibilidad de de obtener podría tardarse en
usted califica a la información que usted
proyectos de tesis en tema de duplicidad o de un alto grado de acceso a todas las tesis acceso al evaluar duplicidad o
Nº DOCENTES
TOTAL
TOTAL
que le brindan para determinar si dispone para
la FISI para similitud entre tesis que ya fueron que han sido número total grado de similitud de un
un proyecto de tesis, entregado determinar
determinar sustentadas, la principal responsabilidad sustentadas en la FISI de tesis proyecto de tesis con el
para su evaluación, es una duplicidad o
duplicidad o recae en el jurado calificador. Entonces para determinar sustentadas en número total de tesis
propuesta de un trabajo bastante alto grado de
similitud con los siguiendo esta premisa, ¿cómo usted califica duplicidad o alto grado la FISI, lo sustentadas en la FISI.
similar a uno que ya fue similitud en los
trabajos aprobados o al proceso de aprobación de proyectos de de similitud? considera Lo considera
aprobado o sustentado en la FISI proyectos de
sustentados? tesis en la FISI
tesis?
1 4 2 1 7 1 3 2 2 8
2 3 2 3 8 2 2 2 3 9
3 3 2 2 7 2 3 2 2 9
4 3 3 3 9 3 3 4 3 13
5 1 1 2 4 2 1 1 2 6
6 3 1 2 6 3 2 2 2 9
7 2 3 3 8 2 2 2 3 9
8 3 1 2 6 1 1 2 1 5
9 2 1 1 4 1 1 1 1 4
10 2 2 2 6 1 2 2 2 7
54
11 2 1 2 5 2 1 2 2 7
12 2 1 1 5 2 1 3 1 7
13 2 2 3 7 3 3 2 4 12
14 2 2 2 6 1 1 1 1 4
15 1 2 1 4 2 1 1 2 6
16 1 1 2 4 1 2 2 2 7
17 2 1 2 5 1 2 1 1 5
18 1 2 2 5 2 2 1 2 7
19 1 1 2 4 1 2 1 1 5
20 2 2 1 5 1 1 2 1 5
21 2 1 2 5 1 1 2 1 5
22 1 2 1 4 1 2 1 2 6
Tabla 16
Datos obtenidos en el post test
VALORACIÓN DEL GRADO DE SIMILARIDAD
NUMERO DE TESIS EVALUADAS POR CONSULTA VALORACIÓN DEL SISTEMA INFORMÁTICO
DE PROYECTOS DE TESIS
En calidad de La aprobación de un
jurado proyecto de tesis está
calificador de basada en el informe
un proyecto de de observaciones que ¿Cómo usted Cuando Con respecto
tesis, cómo presenta el jurado califica al usted usa el a la calidad de
El tiempo que
usted califica a ¿Cómo calificador. Si Sistema Sistema los resultados
usted podría
la información califica el existiera un tema de ¿Cómo usted ¿Cómo califica Informático, Informático de la
tardarse en
que le brindan proceso de duplicidad o de un califica a la a las como ¿Qué búsqueda
La posibilidad evaluar ¿Qué
para evaluación de alto grado de disponibilidad de herramientas herramienta calificación (tesis
de obtener duplicidad o calificación
Nº DOCENTES
determinar si los proyectos similitud entre tesis acceso a todas que usted de apoyo, en le daría al recuperadas)
TOTAL
TOTAL
TOTAL
acceso al grado de le daría a la
un proyecto de de tesis en la que ya fueron las tesis que han dispone para el proceso de tiempo de que realiza el
número total similitud de un facilidad de
tesis, FISI para sustentadas, la sido sustentadas determinar evaluación evaluación Sistema
de tesis proyecto de interacción
entregado para determinar principal en la FISI para duplicidad o del grado de del grado de Informático,
sustentadas en tesis con el con el
su evaluación, duplicidad o responsabilidad recae determinar alto grado de similitud o similitud de para ser
la FISI, lo número total Sistema
es una similitud con en el jurado duplicidad o alto similitud en los duplicidad un proyecto usadas en el
considera: de tesis Informático?
propuesta de los trabajos calificador. Entonces grado de proyectos de de un de tesis con proceso de
sustentadas en
un trabajo aprobados o siguiendo esta similitud? tesis? proyecto de los todos las evaluación de
la FISI. Lo
bastante sustentados? premisa, ¿cómo tesis a ser tesis un proyecto
considera:
similar a uno usted califica al aprobado en sustentadas de tesis. Lo
que ya fue proceso de la FISI? en la FISI? considera
aprobado o aprobación de
sustentado en proyectos de tesis en
la FISI la FISI
OPCION OPCION OPCION OPCION OPCION OPCION OPCION OPCION OPCION OPCION OPCION
56
1 4 4 4 12 4 4 4 5 17 4 5 4 4 17
2 5 5 5 15 5 4 5 5 19 5 5 5 5 20
3 4 5 5 14 5 5 4 5 19 5 5 5 5 20
4 5 4 4 13 4 5 5 5 19 5 5 5 4 19
5 4 4 4 12 4 4 5 5 18 4 5 4 4 17
6 4 4 4 12 4 4 5 5 18 5 5 5 5 20
7 4 4 4 12 4 4 5 5 18 5 5 5 4 19
8 4 4 5 13 4 5 5 5 19 5 5 4 4 18
9 4 4 4 12 5 5 5 5 20 5 5 5 4 19
10 5 4 4 13 4 5 4 5 18 5 5 4 4 18
11 4 4 5 13 5 5 5 5 20 4 5 5 5 19
12 4 5 4 13 4 4 5 5 18 5 5 4 5 19
13 4 4 4 12 4 4 5 5 18 5 5 5 5 20
14 4 4 4 12 4 4 4 5 17 5 4 4 4 17
15 4 5 5 14 5 4 5 4 18 5 5 5 5 20
16 4 4 4 12 5 4 4 5 18 4 5 4 5 18
17 5 5 5 15 5 5 5 5 20 4 4 4 4 16
18 4 5 4 13 4 4 4 4 16 4 4 5 4 17
19 5 5 4 14 4 4 4 4 16 5 4 4 4 17
20 5 5 5 15 5 5 4 4 18 4 4 4 4 16
21 5 5 4 14 4 4 4 4 16 4 5 4 5 18
22 5 5 4 14 4 4 4 4 16 4 4 4 4 16
Fuente: Elaboración propia
57
Decisión:
U < t numéricamente -18.290381< -1.812
Por tanto se Rechaza la H o y se ACEPTA la Ha
𝑈 = −29.910718 𝑡 = −1.812
Figura 37: Ubicación del estadístico de prueba en el gráfico de la distribución normal. (Fuente: Elaboración
propia)
58
CAPÍTULO III
RESULTADOS Y DISCUSIÓN
Para la identificación del grado de similaridad se realizó las respectivas pruebas del
sistema, de tal manera que proporcionando a dicho sistema los parámetros establecidos
(título, variables o hipótesis) se consultó con las tesis alojadas en la base de datos del sistema
informático, cabe mencionar que dicha información que extraída del repositorio de tesis de
la Universidad Nacional de San Martín, haciendo posible la obtención del grado de
similaridad de la consulta echa por el usuario.
Figura 38: Interfáz del sistema para la consulta del grado de similaridad. (Fuente: elaboración propia)
Figura 39: Cálculo del grado de similaridad de la consulta historiales médicos en clínica. (Fuente: elaboración
propia)
La siguiente prueba que se hizo fue con la siguiente consulta: “congestionamiento vehicular”
Figura 40: Cálculo del grado de similaridad de la consulta congestionamiento vehicular. (Fuente:
elaboración propia)
60
La siguiente prueba que se hizo fue con la siguiente consulta: “Seguridad cuidadana”
La siguiente prueba que se hizo fue con la siguiente consulta: “Simulación del
transporte urbano”
El sistema informático mostró que la consulta echa por el usuario “Simulación del
transporte urbano” se consultó con 51 tesis, obteniendo la similaridad más relevante del
60.79% con la tesis “Simulación del sistema de transporte urbano de la cuidad de tarapoto
para planificar escenarios futuros”, (Ver figura 42)
61
Figura 42: Cálculo del grado de similaridad de la consulta Simulación del transporte urbano. (Fuente:
elaboración propia)
La siguiente prueba que se hizo fue con la siguiente consulta: “Sistema de sensores”
Figura 43: Cálculo del grado de similaridad de la consulta Sistema de sensores. (Fuente elaboración propia)
62
Tabla 17
Resumen de los indicadores de la identificación del grado de similaridad de proyectos de
tesis en la FISI, antes de la implementación del sistema informático
Variable Indicador N° Porcentaje
Pésimo 0 0%
Valoración de la
Malo 6 27%
identificación del
Regular 10 45%
grado de
Bueno 5 23%
similaridad.
Muy bueno 1 5%
Pésimo 2 9%
Número de tesis Malo 14 64%
evaluadas en una Regular 5 23%
consulta Bueno 1 5%
Muy bueno 0 0%
Fuente: Elaboración propia
Grado de similaridad
MALO
77%
Figura 44: valoración a la identificación del grado de similaridad de proyectos de tesis (Pre Test). (Fuente:
Elaboración propia)
64
Tabla 18
Resumen de los indicadores de la identificación del grado de similaridad de proyectos de
tesis en la FISI, después de la implementación del sistema informático.
Variable Indicador N° Porcentaje
Pésimo 0 0%
Valoración de la
Malo 0 0%
identificación del
Regular 0 0%
grado de
Bueno 8 36%
similaridad.
Muy bueno 14 64%
Pésimo 0 0%
Número de tesis Malo 0 0%
evaluadas en una Regular 4 18%
consulta Bueno 18 82%
Muy bueno 0 0%
Fuente: Elaboración propia
65
Grado de similaridad
PÉSIMO
MALO 0% REGULAR
MUY BUENO 0% 0%
23%
PÉSIMO
MALO
REGULAR
BUENO
MUY BUENO
BUENO
77%
Figura 45: Resultado de la identificación del grado de similaridad de proyectos de tesis (Post Test). (Fuente:
Elaboración propia)
En cuanto a la identificación del grado de similaridad de proyectos de tesis, se pudo
constatar que mejoró en un 59% al incrementar su puntuación de 12.77272727 a 31.1363636
gracias a la implementación del sistema informático. (Ver Tabla 19 y Figura 46)
Tabla 19
Comparación proporcional del grado de similaridad de proyectos de tesis en relación con
la implementación del buscador informático
Variable Medición
Media 12.7727273
Pre Test
N° 22
Grado de similaridd
Media 31.1363636
Post Test
N° 22
Fuente: Elaboración propia
66
35
30
25 31.13636364
20
15
10 12.77272727
5
0
Pre Test Pos Test
Figura 46: Identificación del grado de similaridad de proyectos de tesis Pre y Post test implementación del
sistema informático. (Fuente: Elaboración propia)
Los datos son contundentes, sobre la mejora que se obtuvo en la identificación del
grado de similaridad de proyectos de tesis en la Facultad de Ingeniería de Sistemas e
Informática de la UNSM-T es un claro reflejo de la implementación del sistema informático.
Tabla 20
Del sistema informático como herramienta de apoyo, en el proceso de evaluación del
grado de similaridad de proyectos de tesis
Escala de medición N° Porcentaje
Pésimo 0 0%
Malo 0 0%
Regular 0 0%
Bueno 9 41%
Muy bueno 13 59%
PESIMO MALO
REGULAR 0% 0%
0% BUENO
41%
MUY BUENO
59%
Figura 47: Calificación del sistema informático como herramienta de apoyo, en el proceso de evaluación del
grado de similaridad o duplicidad de un proyecto de tesis. (Fuente: Elaboración propia)
Tabla 21
Respecto a la calidad de los resultados de la búsqueda (tesis recuperadas) que realiza el
Sistema Informático
Escala de medición N° Porcentaje
Pésimo 0 0%
Malo 0 0%
Regular 0 0%
Bueno 13 59%
Muy bueno 9 41%
Fuente: Ficha de recolección de datos
BUENO
59%
Figura 48: Respecto a la calidad de los resultados de búsqueda (tesis recuperadas) que sea realiza el sistema
informático. (Fuente: Ficha de Recolección de Datos)
Teniendo en cuenta los resultados antes mostrados, podemos afirmar que la hipótesis
alterna se confirma y por lo tanto se acepta, de modo que: “La implementación de un sistema
informático basado en el Modelo de Recuperación Vectorial, se logró mejorar la
identificación del grado de similaridad de proyectos de tesis de la Facultad de Ingeniería de
Sistemas e Informática de la UNSM-T.
69
Y
4.65
4.60
4.55
4.50
4.45
4.40
4.35
y = 3.0933x3 - 43.76x2 + 206.39x - 319.98
4.30
R² = 1
4.25
4.20
4.15
4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5 5.1
Figura 49: Relación de la variable X sobre la variable Y. (Fuente: Ficha de Recolección de datos)
.
70
CONCLUSIONES
1. Se cuenta con una base de datos de las tesis desarrolladas y sustentadas, de tal manera
que permite el rápido acceso a la información cuando el usuario lo requiera.
2. Se desarrolló un aplicativo web (desarrollado aplicando metodología RUP) que
permitió automatizar y sistematizar los procesos manuales para identificar el grado de
similaridad de proyectos de tesis brindando datos relevantes de las tesis evaluadas en la
consulta echa por el usuario, logrando ser calificado por el 82% de los encuestados
como una herramienta “Muy bueno” y útil en el proceso de identificación del grado de
similaridad de proyectos de tesis y el 18% de los mismos lo calificaron como “Bueno”.
3. Se obtuvo un incremente de la identificación del grado de similaridad de proyectos de
tesis, en cuanto al uso del sistema informático, paso de ser calificado por los usuarios
de “Regular” (18%), “Malo” (77%) y “Pésimo” (5%), a “Bueno” (77%) y “Muy
Bueno” (23%), cabe mencionar que en cuanto a la calificación de la calidad de los
resultados de búsqueda (tesis recuperadas en una consulta) el 59% de los encuestados
lo calificaron como “Bueno” y el 41% como “Muy Bueno”.
Teniendo en cuenta las conclusiones antes mencionadas y después de haber sido verificada
la hipótesis de trabajo se afirma que: Con el uso de un sistema informático basado en el
modelo de espacio vectorial se mejoró la identificación del grado de similaridad de
proyectos de tesis de la Facultad de Ingeniería de Sistemas e Informática de la UNSM-T
71
RECOMENDACIONES
REFERENCIAS BIBLIOGRÁFICAS
Al-Anzi, F. & Abuzeina, D. (2017). Toward an enhanced Arabic text classification using
cosine similarity and Latent Semantic Indexing. Journal of King Saud University -
Computer and Information Sciences, 29(2), 189–195.
https://doi.org/10.1016/J.JKSUCI.2016.04.001
Alzahrani, S. & Palade, V. (2015). Uncovering highly obfuscated plagiarism cases using
fuzzy semantic-based similarity model. Journal of King Saud University - Computer
and Information Sciences, 27(3), 248–268. https://doi.org/10.1016/j.jksuci.2014.12.001
Baba, K. & Minami, T. (2017). Plagiarism detection using document similarity based on
distributed representation. Procedia Computer Science, 111, 382–387.
https://doi.org/10.1016/J.PROCS.2017.06.038
Oviedo, H. & Campo, A. (2005). Aproximación al uso del coeficiente alfa de Cronbach.
Revista Colombiana de Psiquiatría, XXXIV (4), 572-580
Hadzic, D. & Sarajlic, N. (2018). Methodology for fuzzy duplicate record identification
73
Paradis, R. D., Guo, J. K., Moulton, J., Cameron, D., & Kanerva, P. (2013). Finding
Semantic Equivalence of Text Using Random Index Vectors. Procedia Computer
74
Saralegi Urizar, X., & Alegria Loinaz, I. (2007). Similitud entre documentos multilingües
de carácter científico-técnico en un entorno Web. Universidad del País Vasco, 71-78.
Recuperado de http://www.redalyc.org/html/5157/515751739009/
Tong, S., & Chang, E. (2001). Support vector machine active learning for image retrieval.
In Proceedings of the ninth ACM international conference on Multimedia (pp. 107-118).
ACM.
75
ANEXOS
TESIS:
FECHA:….…/………/…..…
Instrucciones:
Marca con una equis (X) una de las alternativas, que desde su criterio, corresponda a la
opción que mejor represente su opinión:
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
76
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
4. ¿Cómo usted califica a la disponibilidad de acceso a todas las tesis que han sido
sustentadas en la FISI para determinar duplicidad o alto grado de similitud?
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
5. ¿Cómo califica a las herramientas que usted dispone para determinar duplicidad o
alto grado de similitud en los proyectos de tesis?:
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
7. El tiempo que usted podría tardarse en evaluar duplicidad o grado de similitud de un
proyecto de tesis con el número total de tesis sustentadas en la FISI. Lo considera:
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
MUCHAS GRACIAS.
77
TESIS:
FECHA:….…/………/…..…
Instrucciones:
Marca con una equis (X) una de las alternativas, que desde su criterio, corresponda a la
opción que mejor represente su opinión:
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
78
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
1. ¿Cómo usted califica a la disponibilidad de acceso a todas las tesis que han sido
sustentadas en la FISI para determinar duplicidad o alto grado de similitud?
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
2. ¿Cómo califica a las herramientas que usted dispone para determinar duplicidad o
alto grado de similitud en los proyectos de tesis?:
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
4. El tiempo que usted podría tardarse en evaluar duplicidad o grado de similitud de un
proyecto de tesis con el número total de tesis sustentadas en la FISI. Lo considera:
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
79
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
MUCHAS GRACIAS.
80
a) Recursos de software
JavaScript
HTML5
SQL
CSS
b) Recursos de hardware
Para las pruebas del funcionamiento del sistema se utilizó un servidor, el cual cumple los
requerimientos necesarios para la implementación del Sistema informático basado en el
modelo de espacio vectorial para la identificación del grado de similaridad de proyectos de
tesis de la Facultad de Ingeniería de Sistemas e Informática de la UNSM-T
- Memoria RAM: 4 GB