FISI - Ridger Remberto Jáuregui Guerra

vi
UNIVERSIDAD NACIONAL DE SAN MARTÍN – TARAPOTO

vii
FACULTAD DE INGENIERÍA DE SISTEMAS E INFORMÁTICA

ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS E INFORMÁTICA
INSTITUTO DE INVESTIGACIÓN Y DESARROLLO
CONCURSO DE PROYECTOS DE INVESTIGACION PARA TESIS A
NIVEL DE PREGRADO 2018
Sistema informático basado en el modelo de espacio vectorial para la

identificación del grado de similaridad de proyectos de tesis en la Facultad
de Ingeniería de Sistemas e Informática de la UNSM-T
Tesis para optar el título profesional de Ingeniero de Sistemas e Informática
AUTOR:
Ridger Remberto Jáuregui Guerra
ASESOR
Ing. John Clark Santa María Pinedo
CO - ASESOR:
Ing. M.Sc. Pedro Antonio Gonzáles Sánchez
Tarapoto - Perú
2019
viii
ix
x
xi
vi
Dedicatoria
El presente trabajo está dedicado:
A Dios por haber permitido llegar hasta este punto y haberme dado salud para lograr
mis objetivos, además de su infinita bondad y amor.
A mis padres, Remberto Jáuregui Landa y Beatriz Guerra Ríos, quienes con su amor,
paciencia y esfuerzo me han permitido llegar a cumplir un objetivo más en mi vida, gracias
por inculcar en mí el ejemplo de esfuerzo, dedicación y valentía, de no temer las
adversidades porque Dios está conmigo siempre.
vii
Agradecimiento
Mi más grande y sincero agradecimiento a mis asesores, el Ing. John Clark Santa María
Pinedo y el Ing. M.Sc. Pedro Antonio Gonzáles Sánchez, quienes fueron los principales
colaboradores durante todo este proceso, quienes con su conocimiento, enseñanza y
colaboración permitieron el desarrollo de este trabajo.
A la Universidad Nacional de San Martín – Tarapoto a través del Instituto de

Investigación y Desarrollo, por brindarme las facilidades económicas para desarrollar mí
proyecto de tesis y poder cumplir este objetivo profesional.
viii
Índice
Dedicatoria .................................................................................................................... viii

Agradecimiento............................................................................................................... vii
Índice ............................................................................................................................. viii
Índice de tablas ................................................................................................................. x
Índice de figuras .............................................................................................................. xi
Lista de siglas y abreviaturas .......................................................................................... xiii
Resumen ........................................................................................................................ xiv
Abstract .......................................................................................................................... xv
Introducción .................................................................................................................... xv
CAPÍTULO I .................................................................................................................... 3
REVISIÓN BIBLIOGRÁFICA ......................................................................................... 3
1.1 Buscador informático .......................................................................................... 3
1.2 Modelos para la recuperación de información ..................................................... 3
1.3 Modelo de recuperación vectorial ....................................................................... 4
1.4 Medida de la precisión media .............................................................................. 6
1.5 Difusión de información ..................................................................................... 6
1.6 Sistema informático basado en el modelo de espacio vectorial y su influencia
en el proceso de identificación de grado de similitud de información ................... 9
1.7 Duplicidad de información .................................................................................. 9
1.8 Sistema informático .......................................................................................... 11
1.9 Cálculo de similitud .......................................................................................... 11
1.10 Definición de términos básicos ......................................................................... 12
CAPÍTULO II ................................................................................................................. 15
MATERIAL Y MÉTODOS ............................................................................................ 15
2.1 Sistema de hipótesis .......................................................................................... 15
2.2 Tipo de investigación ........................................................................................ 16
2.3 Nivel de investigación ....................................................................................... 16
2.4 Diseño de investigación .................................................................................... 16
2.5 Población y muestra .......................................................................................... 16
2.6 Técnicas e instrumentos de recolección de datos ............................................... 17
2.7 Técnicas de procedimiento y análisis de datos ................................................... 18
ix
CAPITULO III ............................................................................................................... 58
RESULTADOS Y DISCUSIÓN ..................................................................................... 58
CONCLUSIONES .......................................................................................................... 70
RECOMENDACIONES ................................................................................................. 71
REFERENCIAS BIBLIOGRÁFICAS ............................................................................. 72
ANEXOS ........................................................................................................................ 75
x
Índice de tablas
Tabla 1: Escala de medición de las variables ................................................................... 15

Tabla 2: Técnicas e instrumentos a utilizar en el estudio.................................................. 17
Tabla 3: ECUN Consulta de Registros de Tesis ............................................................... 20
Tabla 4: ECUN – Mantenimiento .................................................................................... 21
Tabla 5: ECUN - Seguridad ............................................................................................ 21
Tabla 6: ECUR Seguridad: Registrar Usuario.................................................................. 26
Tabla 7: ECUR Mantenimiento: Registrar Tesis .............................................................. 27
Tabla 8: ECUR Mantenimiento: Generar lista invertida .................................................. 28
Tabla 9: Estadística de fiabilidad del cuestionario de la variable dependiente (y) en
el pre test ........................................................................................................... 49
Tabla 10: Estadísticas de total de elemento de la variabla dependiente (y) en el pre test .. 50
Tabla 11: Estadística de fiabilidad del cuestionario de la variable dependiente (y) en
el post test ......................................................................................................... 50
Tabla 12: Estadísticas de total de elemento de la variabla dependiente (y) en el post test . 50
Tabla 13: Estadística de fiabilidad del cuestionario de la variable independiente (x)
en el post test .................................................................................................. 51
Tabla 14: Estadísticas de total de elemento de la variabla dependiente (y) en el post test . 51
Tabla 15: Datos obtenidos en el pre test .......................................................................... 53
Tabla 16: Datos obtenidos en el post test ......................................................................... 55
Tabla 17: Resumen de los indicadores de la identificación del grado de similaridad de
proyectos de tesis en la FISI, antes de la implementación del sistema
informático ..................................................................................................... 63
Tabla 18: Resumen de los indicadores de la identificación del grado de similaridad de
proyectos de tesis en la FISI, después de la implementación del sistema
informático. .................................................................................................... 64
Tabla 19: Comparación proporcional del grado de similaridad de proyectos de tesis en
relación con la implementación del buscador informático ................................ 65
Tabla 20: Del sistema informático como herramienta de apoyo, en el proceso de
evaluación del grado de similaridad de proyectos de tesis................................ 67
Tabla 21: Respecto a la calidad de los resultados de la búsqueda (tesis recuperadas) que
realiza el Sistema Informático ......................................................................... 68
xi
Índice de figuras
Figura 1: Cálculo del TF de un término. ............................................................................ 5

Figura 2: Cálculo del IDF de un término. .......................................................................... 5
Figura 3: Formula de la similaridad. ................................................................................ 12
Figura 4: Diagrama de caso de uso de negocio. ............................................................... 19
Figura 5: Diagrama MON – búsqueda de registro de tesis. .............................................. 22
Figura 6: Diagrama MON – Mantenimiento .................................................................... 23
Figura 7: Diagrama MON – Seguridad. ........................................................................... 23
Figura 8: MCUR – Seguridad. ......................................................................................... 24
Figura 9: MCUR – Mantenimiento. ................................................................................. 25
Figura 10: MCUR – Búsqueda de registro de tesis .......................................................... 25
Figura 11: Diagrama de secuencias búsqueda de registros de tesis. .................................. 28
Figura 12: Diagrama de secuencia editar registro de tesis. ............................................... 29
Figura 13: Diagrama de secuencia crear registro de tesis. ................................................ 29
Figura 14: Diagrama de secuencia generar lista invertida. ............................................... 30
Figura 15: Diagrama de secuencia editar usuario sistema. ............................................... 30
Figura 16: Diagrama de secuencia crear usuario sistema. ................................................ 31
Figura 17: Diagrama de despliegue. ................................................................................ 31
Figura 18: Maquetado de software web – Página principal de búsqueda. ......................... 32
Figura 19: Maquetado de software web – Página de resultados........................................ 32
Figura 20: Maquetado de software web – Página de resultados........................................ 32
Figura 21: Maquetado de software web – Página de detalle de resultado. ........................ 33
Figura 22: Maquetado de software web – Página de administración. ............................... 33
Figura 23: Mapa de navegación....................................................................................... 33
Figura 24: Modelo de base de datos ................................................................................ 34
Figura 25: Gráfico de la estructura del modelo de espacio vectorial. ................................ 34
Figura 26: Estructura de palabras para su aplicación mediante el modelo de espacio
vectorial ........................................................................................................ 35
Figura 27: Información recolectada. ................................................................................ 35
Figura 28: Lista invertida. ............................................................................................... 35
Figura 29: Diagrama de flujo del algoritmo para generar la lista invertida. ...................... 39
xii
Figura 30: Diagrama de flujo del algoritmo de búsqueda de información para el cálculo
de similaridad de la misma ............................................................................ 45
Figura 31: Pantalla del inicio de búsqueda del sistema informático.................................. 46
Figura 32: Pantalla que muestra resultados de la búsqueda .............................................. 46
Figura 33: Pantalla que muestra información precisa de un registro de tesis .................... 47
Figura 34: Pantalla para el administrador del sistema informático ................................... 47
Figura 35: Pantalla de administración con registros de tesis............................................. 48
Figura 36: Determinación de la región crítica .................................................................. 52
Figura 37: Ubicación del estadístico de prueba en el gráfico de la distribución normal. ... 57
Figura 38: Interfáz del sistema para la consulta del grado de similaridad. ........................ 58
Figura 39: Cálculo del grado de similaridad de la consulta historiales médicos en
clínica. .......................................................................................................... 59
Figura 40: Cálculo del grado de similaridad de la consulta congestionamiento vehicular. 59
Figura 41: Cálculo del grado de similaridad de la consulta Seguridad cuidadana ............. 60
Figura 42: Cálculo del grado de similaridad de la consulta Simulación del transporte
urbano .......................................................................................................... 61
Figura 43: Cálculo del grado de similaridad de la consulta Sistema de sensores. ............. 61
Figura 44: valoración a la identificación del grado de similaridad de proyectos de tesis ... 63
Figura 45: Resultado de la identificación del grado de similaridad de proyectos de tesis . 65
Figura 46: Identificación del grado de similaridad de proyectos de tesis Pre y Post test
implementación del sistema informático ....................................................... 66
Figura 47: Calificación del sistema informático como herramienta de apoyo, en el
proceso de evaluación del grado de similaridad o duplicidad de un proyecto
de tesis .......................................................................................................... 67
Figura 48: Respecto a la calidad de los resultados de búsqueda (tesis recuperadas) que
sea realiza el sistema informático. ................................................................. 68
Figura 49: Relación de la variable X sobre la variable Y ................................................. 69
xiii
Lista de siglas y abreviaturas
CIERM: Comité Internacional de Editores de Revistas Médicas
DAP : Detección Automática de Plagio
DSI : Difusión Selectiva de Información
FISI : Facultad de Ingeniería de Sistemas e Informática
IDF : Frecuencia Inversa de Documento
MAP : Medida de la precisión media
RSA : Rational Software Architect
SI : Sistema Informático
TF : Frecuencia de Término
UNSM-T: Universidad Nacional de San Martín - Tarapoto.
URL : Localizador Uniforme de Recursos

xiv
Resumen
La Facultad de Ingeniería de Sistemas e Informática de la Universidad Nacional de San

Martín, está en constante desarrollo de proyectos buscando nuevas formas de innovación
con la finalidad de satisfacer necesidades y la mejora de calidad de vida de la comunidad
universitaria y la sociedad en general. El mundo de la investigación es muy amplio,
investigar sobre un determinado tema que ya fue trabajado anteriormente es algo común,
por ende es difícil determinar la similitud de una manera manual, porque no se cuenta con
una herramienta tecnológica que automatice y sistematice dichos procesos, esto genera una
incertidumbre en el mundo de la investigación, los investigadores desconocen el contenido
de anteriores investigaciones, que por consiguiente pueden terminar generando duplicidad
de las mismas. El presente proyecto de investigación titulado “Sistema informático basado
en el modelo de espacio vectorial para la identificación del grado de similaridad de proyectos
de tesis en la Facultad de Ingeniería de Sistemas e Informática de la UNSM-T”, desarrollado
con financiamiento de la Universidad Nacional de San Martín en el año 2018, teniendo como
objetivo implementar una herramienta tecnológica que permita identificar el grado de
similaridad de proyectos de tesis en la Facultad de Ingeniería de Sistemas e Informática de
la UNSM-T, con este objetivo, la pregunta de investigación es la siguiente, ¿Cómo
indentificar el grado de similaridad de los proyectos de tesis en la facultad de ingeniería de
sistemas e informática de la UNSM-T?”, la respuesta a dicha interrogante se hace a través
de un estudio de tipo aplicada y nivel de investigación pre-experimental. Además se diseñó
un pre y pos test, lo cual permitió conocer la situación de un antes y un después de la
implementación del sistema informático (http://jauregui.infinitumperu.com/). Las
respuestas que se obtuvo respecto a la calidad de los resultados de la búsqueda (tesis
recuperadas mediante una consulta) nos indican que el 59% de los encuestados lo califica
como “Bueno” y el 41% como “Muy bueno”. Teniendo en cuenta lo antes mencionado, se
recomienda masificar el uso de la propuesta para la identificación del grado de similaridad
de proyectos de tesis en la FISI, de tal manera evitar duplicidad o desarrollar un proyecto de
tesis con un alto grado de similitud con una ya desarrollada y sustentada en dicha facultad.
Palabras clave: Automatización, Calidad, Modelo vectorial, Similitud, Sistematización.

xv
Abstract
The Faculty of Systems and Information Engineering of the National University of San
Martin, is constantly developing projects looking for new forms of innovation in order to
meet needs and improve the quality of life of the university community and society in
general. The world of research is very broad, researching a certain subject that was
previously worked on is common, therefore it is difficult to determine the similarity in a
manual way, because there is no technological tool that automates and systematizes these
processes, This generates uncertainty in the world of research, researchers are unaware of
the content of previous research, which can therefore end up generating duplication of the
same. The following research project entitled "Computer system based on the model of
vector space for the identification of the degree of similarity of thesis projects in the School
of Systems and Information Engineering of the UNSM-T", developed with funding from the
National University of San Martín in 2018, having as objective to implement a technological
tool that allows to identify the degree of similarity of thesis projects in the School of Systems
and Information Engineering of the UNSM-T, with this objective, the research question is
the following, how to identify the degree of similarity of the thesis projects in the faculty of
systems engineering and computer science of the UNSM-T? ", the answer to this question
is done through a study of applied type and level of pre-experimental research. In addition,
a pre and posttest was designed, which allowed knowing the situation of a before and after
the implementation of the computer system (http://jauregui.infinitumperu.com/). The
answers that were obtained regarding the quality of the search results (theses recovered
through a query) indicate that 59% of the respondents rated it as "Good" and 41% as "Very
good". Taking into account the aforementioned, it is recommended to massif the use of the
proposal for the identification of the degree of similarity of thesis projects in the FISI, in
such a way as to avoid duplication or develop a thesis project with a high degree of similarity
with an already developed and sustained in that faculty.
Keywords: Automation, Quality, Vector model, Similarity, systematization.

1
Introducción
El Proyecto de Investigación titulado “Sistema informático basado en el modelo de

espacio vectorial para la identificación del grado de similaridad de proyectos de tesis en la
Facultad de Ingeniería de Sistemas e Informática de la UNSM-T”, presentado por Bach.
Ridger Remberto Jáuregui Guerra, en el marco del Reglamento de concurso de Proyectos de
tesis de pregrado UNSM-T periodo 2018, tuvo como objetivo general Identificar el grado
de similaridad de proyectos de tesis en la Facultad de Ingeniería de Sistemas e Informática
de la UNSM-T, cabe mencionar que dicho proyecto se desarrolló entre los meses de Agosto
a Diciembre del año 2018.
Actualmente en la Facultad de Sistemas e Informática de la Universidad Nacional de

San Martín para determinar un tema a desarrollar como tesis en la obtención del título
profesional, se realiza sin verificar si el tema elegido ya fue realizado por otro tesista, muchas
veces este proceso se lo puede hacer de forma manual, que por consiguiente demandaría de
mucho tiempo porque no existe una herramienta tecnológica que automatice y sistematice
dicho proceso evitando pérdida de tiempo, esto es un problema común tanto en egresados
como también en alumnos pertenecientes al curso de investigación I, al momento de elegir
la línea de investigación y el tema a investigar no se determina el grado de similaridad que
puede existir entre una propuesta de tesis a realizar con una tesis ya presentado y sustentado
en dicha facultad, si el docente de dicho curso tampoco tiene conocimiento sobre ello, se
procede a investigar, que por consiguiente el tesista dedica su tiempo a desarrollar una
determinada propuesta de tesis que después será desestimado cuando le asignen sus
respectivos jurados. Si el tema elegido no fue sometido al proceso de identificación de
similaridad y el tesista procede a ejecutar y posteriormente sustentar su proyecto, en pocas
oportunidades se consigue determinar la similitud cuando uno de los jurados calificadores
recuerda haber sido jurado de una tesis similar a la presentada. Por otro lado, si el jurado
calificador no ha detectado la similitud, el proyecto es aprobado sin tener conocimiento que
el tema presentado ya se desarrolló anteriormente, por consiguiente el tesista aporta un
proyecto que se estaría denominando como duplicidad. Esto quiere decir, que existe una
forma deficiente de identificar el grado de similitud de una propuesta de tesis en dicha
facultad, lo cual con la implementación de la herramienta tecnológica como solución a la
problemática se mejoró. Para el desarrollo del presente trabajo de investigación se inició
recopilando información referente a las tesis que se encuentran alojadas en el repositorio de
2
tesis de la UNSM-T, se realizó una encuesta a 22 docentes de la Facultad de Ingeniería de

Sistemas e Informática para conocer la realidad problemática de tal manera que el que el
77% de los encuestados califican como “Malo” a la identificación del grado de similitud de
proyectos de tesis ya que no cuentan con una herramienta tecnológica que permita
automatizar y sistematizar dicho proceso, de tal manera el presente proyecto de
investigación está orientado implementar una herramienta tecnológica basado en el modelo
de espacio vectorial que mejore el proceso de identificación del grado de similaridad de
proyectos de tesis.
Con los resultados obtenidos después de la implementación de la herramienta antes

mencionada, se demostró que se logró mejorar significativamente el proceso de
identificación de similitud de proyectos de tesis, de tal manera que se aceptó la hipótesis
“Con el uso de un sistema informático basado en el modelo de espacio vectorial se mejorará
la identificación del grado de similaridad de los proyectos de tesis de la Facultad de
Ingeniería de Sistemas e Informática de la UNSM-T”, cabe mencionar que dicha
herramienta automatiza y sistematiza el proceso manual, logrando una calificación del 77%
por parte los encuestados como “Muy bueno” y 23% de los mismos lo calificaron como
“Muy bueno”, es decir se mejoró significativamente la identificación de simiralidad.
El presente informe final de este proyecto de investigación, consta de tres (3)
capítulos, el primero referido las revisión bibliográficas, donde se establece, organiza y se
resume las referencias bibliográficas, exponiendo fundamentos teóricos científicos y
definición de términos, de tal manera se pueda tener una base de conocimiento sobre el tema
desarrollado, el segundo capítulo consta de los materiales y métodos, en este capítulo se
describe aquellos métodos y materiales que se usó para el desarrollo del proyecto, también
comprende el sistema de hipótesis, variables, tipo y diseño de investigación y la población
y muestra, el tercer capítulo hace referencia a los resultados de la investigación, donde se
detalla los resultados obtenidos en el desarrollo del trabajo, cabe mencionar que dichos
resultados son mostrados mediante tablas y figuras, contribuyendo respuesta a la
problemática y objetivos de la investigación realizada.
Finalmente, se incluye conclusiones y recomendaciones en base a los resultados
obtenidos después de diseñar, desarrollar, implementar y evaluar la solución propuesta, cabe
mencionar que con la investigación se espera haber contribuido con nuevo conocimiento,
beneficiando directa e indirectamente a la investigación de la Facultad de Ingeniería de
Sistemas e Informática de la UNSM-T.
3
CAPÍTULO I
REVISIÓN BIBLIOGRÁFICA
1.1 Buscador informático

1.1.1. Tipos de Buscadores
Soguero (2015) Afirma que los buscadores se pueden clasificar en tres tipos, según
la forma de obtener las direcciones que almacenan en su base de datos.
• Índices de búsqueda: En los índices de búsqueda, la base de datos con direcciones

la construye un equipo humano. Es decir, un grupo de personas va rastreando la red en busca
de páginas. Vistas éstas son clasificadas por categorías o temas y subcategorías en función
de su contenido. De este modo, la base de datos de un índice de búsqueda contiene una lista
de categorías y subcategorías relacionadas con un conjunto de direcciones de páginas web
que tratan esos temas.
• Motores de búsqueda: En este caso, el rastreo de la web lo hace un programa,

llamado araña ó motor (de ahí viene el nombre del tipo de buscador). Este programa va
visitando las páginas y, a la vez, creando una base de datos en la que relaciona la dirección
de la página con las 100 primeras palabras que aparecen en ella. Como era de esperar, el
acceso a esta base de datos se hace por palabras clave: la página del buscador me ofrece un
espacio para que yo escriba la ó las palabras relacionadas con el tema que me interesa, y
como resultado me devuelve directamente un listado de páginas que contienen esas palabras
clave.
• Metabuscadores: Los metabuscadores son páginas web en las que se nos ofrece una
búsqueda sin que haya una base de datos propia detrás: utilizan las bases de varios
buscadores ajenos para ofrecernos los resultados. Un ejemplo de metabuscador es
Metacrawler.
1.2 Modelos para la recuperación de información

Martínez (2006) Bajo el término modelos de recuperación se engloba todas aquellas
técnicas que tienen por objetivo facilitar el proceso de comparación entre una consulta
determinada y un conjunto de textos sobre los que se realiza la consulta. Se trata de
herramientas muy utilizadas dentro del campo de la recuperación y organización de la
información.
4
1.2.1 Modelo Booleano

Es un modelo de recuperación simple, basado en la teoría de conjuntos y el álgebra
booleana. Dada su inherente simplicidad y su pulcro formalismo ha recibido gran atención
y sido adoptado por muchos de los primeros sistemas bibliográficos comerciales. Su
estrategia de recuperación está basada en un criterio de decisión binario (pertinente o no
pertinente) sin ninguna noción de escala de medida, sin noción de un emparejamiento parcial
en las condiciones de la pregunta.
1.2.2 Modelo Vectorial
El modelo de recuperación vectorial o de espacio vectorial propone un marco en el
que es posible el emparejamiento parcial, asignando pesos no binarios a los términos índice
de las preguntas y de los documentos. Estos pesos de los términos se usan para computar el
grado de similitud entre cada documento guardado en el sistema y la pregunta del usuario.
1.2.3 Modelo Probabilístico
El modelo de recuperación probabilístico se basa en la equiparación probabilística,
dados un documento y una pregunta, es posible calcular la probabilidad de que ese
documento sea relevante para esa pregunta.
1.3 Modelo de recuperación vectorial

También conocido como el modelo de espacio vectorial, según Robertson (2004) el
modelo de recuperación vectorial se basa en el grado de similitud de una consulta dada por
el usuario con respecto a los documentos de la colección cuyos términos fueron ponderados
mediante TF-IDF. El modelo de recuperación vectorial fue presentado por Salton en 1975 y
posteriormente asentado en 1983 junto con Mc Gill y se basa en tres principios esenciales.
• La equiparación parcial, esto es, la capacidad del sistema para ordenar los resultados
de una búsqueda, basado en el grado de similaridad entre cada documento de la colección y
la consulta.
• La ponderación de los términos en los documentos, no limitándose a señalar la

presencia o ausencia de los mismos, sino adscribiendo a cada término en cada documento
un número real que refleje su importancia en el documento.
• La ponderación de los términos en la consulta, de manera que el usuario puede

asignar pesos a los términos de la consulta que reflejen la importancia de los mismos en
relación a su necesidad informativa.
5
Factor TF: Term Frequency : Frecuencia de Aparición de un Término. Es la suma de

todas las ocurrencias o el número de veces que aparece un término en un documento. A este
tipo de frecuencia de aparición también se la denomina “Frecuencia de aparición relativa”
por que atañe a un documento en concreto y no a toda la colección.
Su cálculo se efectúa una vez el texto del documento ha sido normalizado, según los
procesos de depuración mencionados. Posteriormente se lleva a cabo el conteo de las veces
que el término aparece presente en el documento. De hecho, se deja bien claro que es
necesario calcular el TF de cada término en cada documento.
Figura 1: Cálculo del TF de un término.(Fuente Robertson, 2004)
El factor IDF de un término es inversamente proporcional al número de documentos

en los que aparece dicho término. Esto significa que cuanto menor sea la cantidad de
documentos, así como la frecuencia absoluta de aparición del término, mayor será su factor
IDF y a la inversa, cuanto mayor sea la frecuencia absoluta relativa a una alta presencia en
todos los documentos de la colección, menor será su factor discriminatorio.
El Factor IDF es único para cada término de la colección. El IDF de un término dado
(n) se realiza aplicando el logaritmo en base 10 de N (Número total de documentos de la
colección) dividido entre la “Frecuencia de documentos para un término (n) en la colección”
(o lo que es lo mismo el número de documentos de la colección en los que aparece en termino
(n) dado). Al valor resultante se le suma 1 para corregir los valores para los términos con
IDF muy bajos (Aunque esta variación depende del sistema de recuperación).
Figura 2: Cálculo del IDF de un término. (Fuente: Robertson, 2004)

6
1.4 Medida de la precisión media

Souza (2010) Es una medida que intenta sumar todos los valores de los promedios
de las precisiones, o sea que tan preciso es el modelo de recuperación de información web
para retornar páginas web (documentos) que sean relevantes o importantes para el usuario.
La fórmula utilizada es la siguiente:
1.5 Difusión de información

Castillo (2006) La difusión implica propagar algo, una información, dato o noticia,
con la misión de hacerlo público y de ese modo ponerlo en conocimiento de una importante
cantidad de individuos que lo desconocen hasta ese momento.
1.5.1 Formas de difusión

No hay una forma única de difusión, sino diferentes tipos de productos y servicios
capaces de vehicular la información hacia los usuarios. Con objeto de sistematizar se pueden
distinguir dos formas básicas de difusión, la difusión bajo demanda y la difusión
documental.
En cuanto a las vías de difusión puede ser: papel impreso, tablones de anuncios,
expositores, soporte magnético para consultar en ordenadores, página web, correo
electrónico, difusión verbal (persona a persona, conferencias, cursos), medios audiovisuales
(videos informativos).
1.5.1.1 La difusión bajo demanda

Se trata de una difusión pasiva. La iniciativa parte del usuario que necesita
información. Se realiza cuando el usuario se dirige al centro con el objetivo de solicitar una
información concreta. El documentalista interroga al sistema y recupera la información
solicitada. Las búsquedas bibliográficas y documentales responden a esta necesidad de
información planteada por el usuario. Pueden realizarse sobre base de datos documentales
creadas por el propio centro pero, también, sobre bases externas.
Se considera también difusión bajo demanda la consulta en línea a una base de

datos por parte del usuario sin la medición de un documentalista.
7
1.5.1.2 La difusión documental
La difusión documental es una difusión activa. Es aquella que implica iniciativa por
parte del centro ofreciéndole, a los usuarios, productos documentales que juzga útiles, según
el análisis que se haya hecho de sus necesidades, o señalándole sus problemas de
información y ayudándole a resolverlos. El centro deberá estudiar a sus usuarios con el
objeto de averiguar qué tipo de información necesitan, en conjunto o por grupos, y debe
estudiar también el sistema de difusión más adecuado para cada necesidad. Dentro de la
difusión documental se puede distinguir entre difusión de documentos primarios, la difusión
de documentos secundarios o de referencia de documentos y la difusión selectiva de la
información.
1.5.1.2.1. Difusión de documentos primarios
a) Consulta directa en el centro

En acceso controlado. El usuario puede consultar los ficheros pero debe solicitar el
documento que necesite a un empleado del centro. Se aplica a colecciones de documentos
especiales por su contenido o soporte, obras raras o únicas, materiales débiles, materiales
valiosos.
Libre acceso. Los documentos se encuentran a disposición del usuario ordenados
generalmente según criterios temáticos. Da más libertad al usuario pero disminuye el control
de los fondos y requiere más espacio. También supone hacer frente a la complejidad que
supone la ordenación de los fondos
8
b) Préstamos
Préstamos. El usuario obtiene el documento y puede utilizarlo durante un período de
tiempo determinado. El documento debe ser devuelto.
Obtención de copia del documento. El usuario obtiene una copia del documento que
pasa a ser de su propiedad, no debe devolverlo.
1.5.1.2.2. Difusión de referencia de documentos
La mayoría de centros de documentación elabora algún tipo de publicación
secundaria que contiene referencias de documentos y transmite a los usuarios para su
conocimiento.
1.5.1.2.3. Difusión selectiva de la información
Es un sistema de difusión “a la carta”, por el cual se ofrece a cada usuario las

referencias de documentos correspondientes a sus temas de interés seleccionados a partir de
todos los documentos recibidos durante un determinado período.
La difusión selectiva de información (DSI) ha sido tradicionalmente un problema no

resuelto de Centros de Documentación, Centros de Información y Bibliotecas. Los perfiles
de usuarios están, la información está, pero mantener un servicio de diseminación selectiva
funcionando en forma eficiente consume significativos recursos organizacionales y es casi
inevitable que en un procesamiento manual o semiautomático, que implica la administración
de listas de usuarios, la elaboración de índices y boletines, la producción y compaginación
de fotocopias, el mantenimiento de listas de direcciones de correo y teléfonos, la elaboración
y etiquetados de sobres y el envío por correo o por fax, se cometan errores. No se puede
pensar en atender requerimientos demasiado específicos con herramientas manuales o
semiautomáticas.
Para realizar un DSI automatizado se requiere algún programa informático que

integre en un único concepto el acceso y la búsqueda en la base de datos, la agenda del
sistema operativo y el correo electrónico. En los DSI automatizados las consultas a las bases
de datos se realizan automáticamente y las respuestas que se obtienen se envían a cada
usuario registrado en la lista de correos asociada al servicio. El mensaje de correo tendrá en
forma anexa un documento con las referencias de aquellos documentos que se ajusten al
perfil de información que ha solicitado o bien los textos íntegros de los documentos si el
centro posee una base de datos fuente textuales.
9
1.5.1.2.4. Difusión de recursos Web
Consiste en seleccionar, ordenar y describir las webs de interés para los usuarios del
centro. Se distribuye mediante las redes internas del centro o intranet. (Ahora se empieza a
aplicar el término de Arquitectura de la información a esta actividad). También puede
consistir en enviar, por correo electrónico, las URL de nuevas webs de interés.
1.6 Sistema informático basado en el modelo de espacio vectorial y su influencia en

el proceso de identificación de grado de similitud de información
Lizcano (2013) En la actualidad se cuenta con grandes avances tecnológicos

buscando nuevas formas de innovar en beneficio de la sociedad, por ende el desarrollo de
los sistemas automatizados basado en el modelo de espacio vectorial se inició con el objetivo
de facilitar el manejo de grandes cantidades de información, previamente almacenada, por
medio de consultas a los documentos contenidos en bases de datos. Los procesos manuales
con el tiempo se fueron conceptuando como sentencias formales de expresiones de
necesidades de información, determinando el tiempo perdido al ejercer procesos de dicha
forma y suelen venir expresadas por medio de interrogaciones planteadas en base al
problema presentado. Un documento es un objeto de datos, de naturaleza textual
generalmente, aunque la evolución tecnológica ha propiciado la profusión de documentos
multimedia, incorporándose al texto fotografías, ilustraciones gráficas, vídeo, audio, etc que
muchas veces causa dificultad interactuar de forma manual con la misma generando pérdida
de tiempo en tanto a resolución de problemas. El sistema informático basado en el modelo
de espacio vectorial cumple con múltiples funciones automatizando y sistematizando
procesos manuales al interactuar con documentos en diferentes aspectos (duplicidad de
información, grado de similitud, recuperación de información, etc)
Un sistema informático basado en el modelo de espacio vectorial, brinda resultados

relevantes que ayude al usuario tomar decisiones teniendo en cuenta el resultado obtenido,
de esta manera en cuanto a proyectos de tesis se refiere, evita duplicidad de la misma,
permitiendo mitigar este problema que en la actualidad es muy común en el mundo de la
investigación
1.7 Duplicidad de información
Segobia (2005) hace mención que en 1969 se proclamó la regla Ingelfinger por la
que un manuscrito sólo podía ser considerado para publicación si su contenido no había sido
10
publicado previamente. El término información duplicada o redundante ha sido definido por

el CIERM como la publicación de un artículo cuyo contenido es sustancialmente similar al
de otro ya publicado. Siendo estrictos, información duplicada significa simplemente eso:
información duplicada o duplicidad de información. Ésta puede ser total o parcial, en
formato electrónico o en papel, en la misma lengua o en un idioma diferente, puede incluir
datos nuevos o simplemente reproducir los mismos resultados de la publicación inicial sin
añadir ninguna información, y puede realizarse en revistas incluidas o no en el Index
Medicus, o bien en suplementos. En definitiva, esta práctica representa una forma de
autoplagio que, como veremos, tiene importantes implicaciones.
Existe un amplio consenso en que la publicación previa de un resumen en un

congreso científico no constituye publicación de información duplicada. Incluso la
reproducción por periodistas o personal especializado no médico de parte de los datos o
figuras en una webcast suele considerarse aceptable por la mayor parte de los editores. Esto
es así porque lo que realmente define e identifica a una publicación científica como tal es
haber pasado por un proceso de peer review. Este requisito no se produce en los supuestos
antes mencionados. También hay cierto acuerdo en que el problema abarca un amplio
abanico de posibilidades con implicaciones muy diversas. Así, no es igual que un mismo
autor reproduzca información similar en varios artículos de revisión que realizar una
publicación de información duplicada de un artículo científico original cuyo mayor interés
radica, precisamente, en que se supone que la información aportada es novedosa.
Un problema diferente, pero estrechamente relacionado, se produce cuando de un

estudio único, cuyos datos se han obtenido durante el mismo proyecto de investigación, se
realizan publicaciones parciales en artículos diferentes (salami publication o salami slicing).
De hecho, este tema también ha suscitado controversias y parodias, como intentar determinar
cuál es la mínima unidad publicable. Excepciones a estas consideraciones incluirían la
publicación independiente de datos relevantes y diferenciados entre sí, obtenidos en los
grandes estudios clínicos o epidemiológicos, que no fueron presentados en el estudio
principal. Aquí es preciso reconocer que la presión por limitar cada vez más el número total
de palabras de un manuscrito favorece la presentación de datos adicionales en una
publicación diferente. En cualquier caso, para que la publicación de manuscritos diferentes
procedentes de una misma base de datos sea legítima es imprescindible que el lector los
pueda relacionar fácilmente por medio de las correspondientes citas cruzadas.
11
Como hemos dicho, la publicación duplicada puede ser abierta, con una cita cruzada
clara al artículo principal y pleno conocimiento y acuerdo por parte de los editores, o bien
ser una publicación de información duplicada oculta. La publicación duplicada abierta está
plenamente justificada en situaciones especiales, y uno de los ejemplos más citados es la
traducción a una lengua diferente de guías de práctica clínica. Actualmente, la mayor parte
de las publicaciones de información científicas son de fácil acceso. En ocasiones, sin
embargo, los editores de dos revistas con audiencia diferente pueden ponerse de acuerdo
sobre la conveniencia de publicar un mismo artículo. Finalmente, la publicación duplicada
puede ser oculta o encubierta sin conocimiento de los editores y sin cita cruzada al
documento original. Este tipo de conducta es totalmente inaceptable en el mundo científico.
1.8 Sistema informático
EcuRed (2017) Un sistema informático, puede ser definido como un sistema de

información que basa la parte fundamental de su procesamiento, en el empleo de
la computación, como cualquier sistema, es un conjunto de funciones
interrelacionadas, hardware, software y de recurso humano. Un sistema informático normal
emplea un sistema que usa dispositivos que se usan para programar y almacenar programas
y datos. Si además de la información, es capaz de almacenar y difundir los conocimientos
que se generan sobre cierta temática, tanto dentro, como en el entorno de la entidad, entonces
está en presencia de un sistema de gestión de información y conocimientos. Como utilizador
final emplea esa información en dos actividades fundamentales: la toma de decisiones y el
control.
1.9 Cálculo de similitud

García (2006) Se dispone de varias fórmulas que nos permiten realizar este cálculo,
la más conocida es la Función del Coseno, que equivale a calcular el producto escalar de dos
vectores de documentos (A y B) y dividirlo por la raíz cuadrada del sumatorio de los
componentes del vector A multiplicada por la raíz cuadrada del sumatorio de los
componentes del vector B.
De esta manera se calcula este valor de similitud. Como es obvio, si no hay

coincidencia alguna entre los componentes, la similitud de los vectores será cero ya que el
producto escalar será cero (circunstancia muy frecuente en la realidad ya que los vectores
llegan a tener miles de componentes y se da el caso de la no coincidencia con mayor
frecuencia de lo que cabría pensar).
12
También es lógico imaginar que la similitud máxima sólo se da cuando todos los
componentes de los vectores son iguales, en este caso la función del coseno obtiene su
máximo valor, la unidad. Lo normal es que los términos de las columnas de la matriz hayan
sido filtrados (supresión de palabras vacías) y que en lugar de corresponder a palabras,
equivalgan a su raíz “stemmed” (agrupamiento de términos en función de su base léxica
común, por ejemplo: economista, económico, economía, económicamente, etc.).
Generalmente las tildes y las mayúsculas/ minúsculas son ignorados. Esto se hace para que
las dimensiones de la matriz, de por sí considerablemente grandes no alcancen valores
imposibles de gestionar. No obstante podemos encontrar excepciones a la regla general, tal
como parece ser el caso de Yahoo!, que no ignora las palabras vacías.
Para finalizar, la del coseno no es la única función de similitud. Existen otras, las cuales no
son difíciles de calcular sino más bien de interpretar y que por tanto son menos aplicadas en
Recuperación de Información.
De esta forma, la similaridad de un documento y una consulta, es igual a la suma de

los productos de sus pesos. (Y no se debe olvidar que cada peso representa a un término).
Este método puede aplicarse tanto a pesos binarios como a pesos TF-IDF.
Figura 3: Formula de la similaridad. (García, 2006
1.10 Definición de términos básicos

1.10.1 Proceso de identificación
Pérez (2014) Es la acción y el efecto de identificar. O sea es el acto de dar a conocer
o probar que un ente en específico es la misma que se buscar. En otras palabras, puede
referirse a comprobar la similitud o igualdad que existe entre dos cosas. O el hecho de
13
compartir con otro individuo la forma de pensar, creer o bien sea tener los mismos ideales
principios.
1.10.2 Plagio ofuscado
Sánchez (2011) Utilizamos “ofuscado” como la traducción directa de del termino

ingles obfuscation, muy utilizado en la literatura de detección automática de plagio. Por
“plagio ofuscado” nos referimos al plagio que ha sido modificado para ocultarlo y de esta
manera oscurecer o turbar el caso de plagio. No todo texto reutilizado es un plagio, pues si
se da la referencia y el crédito correspondiente, el texto es reutilizado legalmente, pero para
fines de la DAP se considera que todo texto reutilizado es parte de un plagio.
1.10.3 Modelo de espacio vectorial

Ochando (2006) El modelo de espacio vectorial se basa en el grado de similaridad
de una consulta dada por el usuario con respecto a los documentos de la colección cuyos
términos fueron ponderados mediante TF-IDF. El modelo vectorial fue presentado por
Salton en 1975 y posteriormente asentado en 1983 junto con Mc Gill y se basa en tres
principios esenciales.
• La equiparación parcial, esto es, la capacidad del sistema para ordenar los resultados
de una búsqueda, basado en el grado de similaridad entre cada documento de la colección y
la consulta.
• La ponderación de los términos en los documentos, no limitándose a señalar la
presencia o ausencia de los mismos, sino adscribiendo a cada término en cada documento
un número real que refleje su importancia en el documento.
• La ponderación de los términos en la consulta, de manera que el usuario puede
asignar pesos a los términos de la consulta que reflejen la importancia de los mismos en
relación a su necesidad informativa.
1.10.4 Información científica
EcuRed (2017) Conjunto de datos científicos que caracterizan una situación o
materia, no conocidas por el sujeto, transmitidas a él por algún medio, que aumentan su
conocimiento en algo y que pueden facilitar su actuación.
1.10.5 Tesis
EcuRed (2017) Tesis proviene del latín thesis que, a su vez, deriva de un vocablo
griego. Se trata de una proposición o conclusión que se mantiene con razonamientos. La
14
tesis es una afirmación de veracidad argumentada o justificada cuya legitimación depende

de cada ámbito.
1.10.6 Investigación
EcuRed (2017) Es la actividad de búsqueda que se caracteriza por ser reflexiva,
sistemática y metódica; tiene por finalidad obtener conocimientos y solucionar problemas
científicos, filosóficos o empírico-técnicos, y se desarrolla mediante un proceso.
15
CAPÍTULO II
MATERIAL Y MÉTODOS
2.1 Sistema de hipótesis

Hipótesis alterna (Ha): Con el uso de un sistema informático basado en el modelo de
espacio vectorial se mejorará la identificación del grado de similaridad de proyectos de tesis
de la Facultad de Ingeniería de Sistemas e Informática de la UNSM-T.
Hipótesis nula (Ho): Con el uso de un sistema informático basado en el modelo de espacio
vectorial no se mejorará la identificación del grado de similaridad de proyectos de tesis de
la Facultad de Ingeniería de Sistemas e Informática de la UNSM-T.
Sistema de variables
Se consideró las siguientes variables de estudio:
Variable dependiente
Y: Grado de similaridad.
Indicadores:
Y1: Valoración de la identificación del grado de similaridad
Y2: Número de tesis evaluadas en una consulta
Variable independiente
X: Sistema informático basado en el modelo de espacio vectorial.
Indicadores:
X1: Valoración del sistema por el usuario.
Tabla 1
Escala de medición de las variables
Variable Indicador Escala de medición
Y1: Valoración de la
identificación del grado de Cualitativa
Dependiente:
similaridad.
Grado de similaridad
Y2: Número de tesis evaluadas en
Cuantitativa
una consulta.
Independiente:
Sistema informático X1: Valoración del sistema
Cualitativa
basado en el modelo Informático.
de espacio vectorial.
Fuente: Elaboración propia
16
2.2 Tipo de investigación
La investigación es de tipo aplicada, cabe mencionar que sus aportes están dirigidos
a la solución, se caracteriza porque los resultados obtenidos se aplicaron y utilizaron de
forma inmediata para resolver alguna situación problemática. La investigación aplicada se
encuentra íntimamente ligada a la investigación teórica, ya que depende de sus
descubrimientos y aportes teóricos.
2.3 Nivel de investigación
El nivel de investigación es experimental, puesto que se hizo un estudio de

investigación en el que se manipuló y controló deliberadamente la variable independiente
para observar y analizar las consecuencias que la manipulación tiene sobre la variable
dependiente, para determinar si hay variación relacionada a la manipulación de la variable
independiente.
2.4 Diseño de investigación

El diseño de esta investigación fue pre-experimental, la cual se centra en la
realización de trabajo de medición pre y post; antes y después de la aplicación del Sistema
de informático basado en el modelo de espacio vectorial.
Cuyo diagrama es el siguiente:
G---------------------------O1--------------------X-------------------O2
Dónde:
G: Grupo Experimental. Evaluación pre test al grupo de estudio (Grupo experimental).

O1: Evaluación pre test: Aplicación o tratamiento (al grupo experimental).
X: Sistema Informático basado en el modelo de recuperación Vectorial: Aplicación del
Sistema Informático basado en el modelo vectorial.
O2: Evaluación pos test: Comparación de los resultados de la evaluación pre test y
evaluación pos test.
2.5 Población y muestra
2.5.1. Población
La población se conformó por 26 docentes nombrados en la Facultad de Ingeniería de
Sistemas e Informática de la Universidad Nacional de San Martín.
17
2.5.2. Muestra
Para el cálculo de la muestra se aplicó la fórmula de muestro de poblaciones finitas con un
nivel de probabilidad de éxito del 95%.
𝐍 ∗ 𝐙𝐚𝟐 ∗ 𝐩 ∗ 𝐪
𝒏=
𝐝𝟐 ∗ (𝑵 − 𝟏) + 𝒁𝒂𝟐 ∗ 𝒑 ∗ 𝒒
Donde:
N = 26
Za = 1.962 (seguridad del 95%)
p = proporción esperada (en este caso 90% = 0.9)
q = 1-p (en este caso 1 - 0.9 = 0.1)
d = precisión (se usó el 5%)
Al reemplazar los datos, en la fórmula tenemos:
𝟐𝟔 ∗ 𝟏. 𝟗𝟔𝟐𝟐 ∗ 𝟎. 𝟗 ∗ 𝟎. 𝟏
𝒏=
𝟎. 𝟎𝟓𝟐 ∗ (𝟐𝟔 − 𝟏) + 𝟏. 𝟗𝟔𝟐𝟐 ∗ 𝟎. 𝟗 ∗ 𝟎. 𝟏
𝒏 = 21.03
La cual nos dio una muestra de valor de 22 docentes.
2.6 Técnicas e instrumentos de recolección de datos
Tabla 2
Técnicas e instrumentos a utilizar en el estudio
Técnica Justificación Instrumentos Aplicado en…
1. Encuesta 1. Permite conocer la 1. Cuestionario. 1. Pre y Post test
valoración del sistema
por el usuario
2. Registros 2. Proporciona la 2. Sistema 2. Procesos que se
información del sistema Informático desarrollan dentro del
informático. Sistema informático.
3. Análisis de 3. Para obtener la 3. Fichas 3. La bibliografía
documentos información de las bibliográficas. necesaria para
fuentes secundarias desarrollar el marco
referentes a temas de la teórico y la información
investigación. complementaria.
18
2.7 Técnicas de procedimiento y análisis de datos

El presente proyecto se dio inicio con la recopilación de información del repositorio
de tesis de la Universidad Nacional de San Martín, llevando a cabo la recopilación de las
tesis alojadas en dicho repositorio. Se aplicó el instrumento basado en una encuesta que hace
referencia al pre test (Ver anexo 1) de tal manera poder conocer la realidad de la
problemática, dicha encuesta se realizó a 22 docentes nombrados en la Facultad de
Ingeniería de Sistemas e Informática de la UNSM-T, llegando a la conclusión que el proceso
de identificación de similaridad de una determinada propuesta de tesis con una que ya fue
desarrollada y sustentada no se está llevando de la mejor manera, cabe mencionar que los
docentes de dicha facultad manifestaron su sentir y afirmaron que al momento de ser
asignado como jurado calificador de un proyecto de tesis, se les dificulta el proceso de
identificación de similaridad, para realizar dicho proceso se tiene que hacerlo de forma
manual, lo cual demanda de mucho tiempo porque que no cuentan con una herramienta
tecnológica que permite automatizar y sistematizar dicho proceso.
Posterior a los resultados obtenidos mediante la aplicación del instrumento, se inició

el diseño del sistema informático basado en el modelo de espacio vectorial como propuesta
para la identificación del grado de similaridad de proyectos de tesis, estableciendo
parámetros que el usuario tendrá que proporcionar al sistema para la identificación de
similaridad, entre ellos se determinó el título, variables o hipótesis de la propuesta de tesis.
Después de tener definido el proceso que se deberá hacer para la identificación de

similaridad haciendo uso del sistema informático se procedió a realizar el flujo de desarrollo
utilizando la metodología denominada RUP (Proceso Unificado Racional) y el Lenguaje
Unificado para el Modelado (UML), con el fin de tener un marco de desarrollo establecido
a lo largo de la duración del proyecto, esta aplicación estuvo soportada por el software
propietario de IBM, Rational Rose en su versión Enterprise 7.0.0. Para el modelado de la
base de datos se usó el software MySQL Workbench, que se presenta como herramienta de
modelamiento de base datos, cabe mencionar que el sistema informático está basado en los
lenguajes de programación PHP, HMTL y JavaScript.
Descripción de propuesta
1. Fase Inicial – Modelado del Negocio
1.1 Reglas del Negocio

- Registrar Tesis
19
- Registrar Usuario
- Generar Lista Invertida
- Buscar Tesis
- Comentar Tesis
1.2 Modelo de Negocio
a) Identificación de Actores
- Usuario
- Administrador
b) Identificación de casos de uso

- Consulta de Tesis
- Mantenimiento
- Seguridad
c) Modelo de caso de uso del negocio
Figura 4: Diagrama de caso de uso de negocio. (Fuente: Elaboración propia – Generado por RSA)
20
d) Especificaciones de caso de uso de negocio
Tabla 3
ECUN Consulta de Registros de Tesis
Caso de Uso de Negocio Consulta de Registros de Tesis
Actor Cliente: usuario del sistema
Este caso de uso de negocio “Consulta de
Registros de Tesis”, permite al actor tener
un listado de las tesis que corresponden a
la relevancia de los términos de su
búsqueda basado en los campos Hipótesis
y Título de cada registro.
El actor tendrá la necesidad de buscar
Resumen
registros de tesis y verificar su similaridad,
por ello ingresará al sistema una cadena de
caracteres que corresponden a su
búsqueda, de modo que el sistema
devuelve un listado en donde se muestran
los registros de tesis y la similaridad
expresada en porcentaje.
Propósito Buscar registros de tesis
Obtener un listado de registros de tesis y

Objetivo su similaridad basado en los términos de
búsqueda
21
Tabla 4
ECUN – Mantenimiento
Caso de Uso de Negocio Mantenimiento
Actor Administrador
Este caso de uso de Negocio “Mantenimiento”, permite el
total control sobre los datos de los registros de tesis,
teniendo en cuenta el inventario que la Facultad de
Ingeniería de Sistemas e Informática de la UNSM-T posee
Resumen
sobre estos registros.
Estos datos permiten que el usuario pueda generar una
Lista invertida válida que sirva de índice para llevar a cabo
la consulta de registros de tesis.
Registrar tesis
Propósito
Generar lista invertida
Objetivo Tener control sobre los registros de tesis del sistema.
Tabla 5
ECUN - Seguridad
Caso de Uso de Negocio Seguridad
Actor Administrador
Este caso de uso de Negocio “Seguridad”
permite tener el control de los
administradores del sistema, de modo que
Resumen
sólo los usuarios registrados tengan el
derecho de Mantenimiento y de registrar,
editar y eliminar los registros de tesis.
Propósito Registrar usuario
Objetivo Realizar el control de los accesos de Usuarios.

22
e) Modelo de objeto de negocio
- MON búsqueda de registros de tesis
Figura 5: Diagrama MON – búsqueda de registro de tesis. (Fuente: Elaboración propia – Generado por RSA)
23
- MON Mantenimiento
Figura 6: Diagrama MON – Mantenimiento (Fuente: Elaboración propia – Generado por RSA)
- MON Seguridad
Figura 7: Diagrama MON – Seguridad. (Fuente: Elaboración propia – Generado por RSA)
24
Modelo de Dominio
- Modelos de casos de uso de requerimiento
Figura 8: MCUR – Seguridad. (Fuente: Elaboración propia – Generado por RSA)

25
Figura 9: MCUR – Mantenimiento. (Fuente: Elaboración propia – Generado por RSA)
Figura 10: MCUR – Búsqueda de registro de tesis. (Fuente: Elaboración propia – Generado por RSA)
26
f) Especificaciones de casos de uso

- ECUR Seguridad
Tabla 6
ECUR Seguridad: Registrar Usuario
Caso de Uso Registrar Usuario
Actores Administrador del Sistema
Propósito Mantener una lista de usuarios registrados
Permite mantener una lista de usuarios registrados, que
Resumen discrimine el acceso al mantenimiento del sistema sólo a
aquellos que se encuentran registrados
El Administrador ha presionado el botón “Nuevo” de su
Pre-Condición
interfaz
1. Registrar Nuevo usuario

2. Buscar usuario
Flujo Básico 3. Modificar un registro, previamente debe haberse
seleccionado el que se desee modificar.
4. Eliminar un usuario
Inclusión:
Flujo Alternativo A1: Buscar un usuario por su nombre o email de login, y
seleccionarlo, de no haber seleccionado uno, mostrar E1.
Paso – Acción
Excepción
E1: “Seleccione un registro”.
Post-Condición El sistema actualiza la lista de Usuarios
27
- ECUR Mantenimiento
Tabla 7
ECUR Mantenimiento: Registrar Tesis
Caso de Uso Registrar Tesis
Propósito Mantener una lista de las Tesis registradas
Permite mantener una lista de registros de tesis, que sirvan
Resumen como resultado de las búsquedas que los usuarios deseen
realizar, desde la respectiva interfaz.
El Administrador ha presionado el botón “Nuevo” de su
Pre-Condición
interfaz.
1. Registrar una nueva tesis

2. Buscar tesis
3. Modificar un registro, previamente debe haberse
Flujo Básico
seleccionado el que se desee modificar.
4. Eliminar un registro de tesis
5. Referenciar un registro de tesis
Inclusión:
Flujo Alternativo A1: Buscar un registro de tesis por su título y seleccionarlo,
de no haber seleccionado un registro, mostrar E1.
Paso – Acción
Excepción
E1: “Seleccione un registro”.
Post-Condición El sistema actualiza la lista de Tesis
28
Tabla 8
ECUR Mantenimiento: Generar lista invertida
Caso de Uso Generar Lista Invertida
Propósito Procesar los registros con el algoritmo de índice invertido
Resumen Permite mantener la lista invertida de registros de tesis, que
sirven como base en el resultado de las búsquedas que los
usuarios deseen realizar, desde la respectiva interfaz.
Pre-Condición El Administrador ha presionado el botón “Generar” de su
interfaz
Flujo Básico
Generar la Lista Invertida
Flujo Alternativo Inclusión:
Ninguna inclusión.
Excepción Ninguna excepción que el actor tenga que atender.
Post-Condición El sistema actualiza la lista invertida.
1.3 Diagrama de secuencias
Figura 11: Diagrama de secuencias búsqueda de registros de tesis. (Fuente: Elaboración propia – Generado
por RSA)
29
Figura 12: Diagrama de secuencia editar registro de tesis. (Fuente: Elaboración propia – Generado por RSA)
Figura 13: Diagrama de secuencia crear registro de tesis. (Fuente: Elaboración propia – Generado por RSA)
30
Figura 14: Diagrama de secuencia generar lista invertida. (Fuente: Elaboración propia – Generado por RSA)
Figura 15: Diagrama de secuencia editar usuario sistema. (Fuente: Elaboración propia – Generado por RSA)
31
Figura 16: Diagrama de secuencia crear usuario sistema. (Fuente: Elaboración propia – Generado por RSA)
1.4 Diagrama de despliegue
Figura 17: Diagrama de despliegue. (Fuente: Elaboración propia – Generado por RSA)
32
1.5 Maquetado del software web
Figura 18: Maquetado de software web – Página principal de búsqueda. (Fuente: Elaboración propia)
Figura 19: Maquetado de software web – Página de resultados. (Fuente: Elaboración propia)
Figura 20: Maquetado de software web – Página de resultados. (Fuente: Elaboración propia)
33
Figura 21: Maquetado de software web – Página de detalle de resultado. (Fuente: Elaboración Propia)
Figura 22: Maquetado de software web – Página de administración. (Fuente: Elaboración Propia)
1.6 Mapa de navegación
Login de Adm.Invertida
Lista de Tesis
administración
Seguridad Usuarios
Principal
Búsqueda
Index Resultados de
búsqueda Detalle de Resultados
Figura 23: Mapa de navegación. (Fuente: Elaboración propia)

34
1.7 Modelo de base de datos
Figura 24: Modelo de base de datos. (Fuente: Elaboración Propia – Generado por MySQL Workbench)
1.8 Aplicación del modelo de espacio vectorial
Para la identificación del grado de similaridad de utilizó el modelo de espacio

vectorial, es decir que dicho modelo forma parte del funcionamiento interno del sistema
informático lo cual va estructurado de la siguiente manera:
Para convertir un determinando documento y/o consulta en una coordenada de

vector, se utilizó la siguiente estructura:
Componentes cartesianas
𝑎⃗ = (𝑎𝑥 , 𝑎𝑦 )
En tres dimensiones
𝑎⃗ = (𝑎𝑥 , 𝑎𝑦 , 𝑎𝑧 )
Figura 25: Gráfico de la estructura del modelo de espacio vectorial. (Fuente: Elaboración Propia)
35
Para la consulta que posteriormente hará el usuario, se creó la estructura lo cual quedó
definido de la siguiente de la manera:
Figura 26: Estructura de palabras para su aplicación mediante el modelo de espacio vectorial. (Fuente:
Elaboración propia)
Después de haber creado la estructura, se comparó la consulta echa por el usuario

con los documentos alojados en la base de datos, teniendo como consulta “Palabra 1 Palabra
2 Palabra 3 …”, es decir el sistema identifica las palabras con la información almacenada en
la base de datos
Figura 27: Información recolectada. (Fuente: Elaboración propia)
De tal manera que se obtiene la consulta y la lista invertida, es decir la palabra, el

documento y el número de veces que se repite en cada una de ellas.
Figura 28: Lista invertida. (Fuente: Elaboración propia)
Para la implementación del vector se utilizó la siguiente formula:
𝑤(𝑑, 𝑡) = 𝑡𝑓 (𝑑, 𝑡) ∗ 𝑖𝑑𝑓(𝑡)
Donde:
36
𝑤(𝑑, 𝑡) Determina la coordenada de palabra que se muestra en el documento.
𝑡𝑓 (𝑑, 𝑡) Es el número de veces que aparece un término en el documento.
𝑖𝑑𝑓(𝑡) Indica la importancia de la palabra en la colección del documento
Para la determinación del 𝑖𝑑𝑓(𝑡) se utilizó la siguiente formula
𝑁
𝑖𝑑𝑓 (𝑡) = log 2
𝑛𝑡
Donde:
N= Número de documentos
𝑁𝑡 = Número de veces que aparece la palabra en la colección
1.8.1 Identificación de similitud de información
De tal manera que para mostrar el resultado esperado, es decir la similitud de

información que existe entre la consulta echa por el usuario con la información almacenada.
Se utilizó la siguiente fórmula.
∑𝑡𝑖=1 𝑤(𝑖, 𝑑 ) ∗ 𝑤(𝑖, 𝑞)

𝑠𝑖𝑚(𝑑, 𝑞 ) = 𝑐𝑜𝑠𝜃 =
√∑(𝑤 (𝑖, 𝑑 ))2 ∗ √∑(𝑤(𝑖, 𝑞 ))2
Donde:
∑𝑡𝑖=1 𝑤(𝑖, 𝑑 ) ∗ 𝑤(𝑖, 𝑞) Es la sumatoria de los valores de las coordenadas
√∑(𝑤(𝑖, 𝑑 ))2 Es la norma del documento
√∑(𝑤(𝑖, 𝑞 ))2 Es la norma de la consulta
1.8.2 Implementación de los algoritmos del modelo de espacio vectorial para el cálculo de
similitud.
1.8.2.1 Pseudocódigo del algoritmo para generar la lista invertida.
Para el cálculo de similitud primero se procedió a implementar la lista invertida de

la consulta echa por el usuario, para ello se utilizó el siguiente algoritmo:
Input: let D be the set of rows from database

Output: FILE lista_invertida
N <- size of D
dictionary <- {}
invert_list <- matrix[]
37
idf <- matrix[]
FOR EACH document in D

id <- document[id]
D <- D - document[id]
document_txt <- ""
FOR EACH attribute in document

document_txt <- document_txt + " " + attribute
END FOR
terms <- {}
DO
terms <- terms UNION {[first term from document_txt]}
document_txt <- document_txt - [first term from document_txt]
WHILE document_txt is not empty
unique_terms <- matrix[]
FOR EACH term in terms

count <- 0
FOR EACH term1 in terms
IF term equals term 1 THEN count <- count + 1
END FOR
unique_terms[term] = count
END FOR
dictionary <- dictionary UNION {term}
invert_list[term][id] <- unique_terms[term]
END FOR
END FOR
FOR EACH term in dictionary
count_terms <- SIZE OF invert_list[term]
idf[term] <- log ( N / count_terms )
END FOR
dictionary <- SORT dictionary
content <- {}
FOR EACH term IN dictionary

data <- matrix[]
data[term] <- term
data[id_content] <- {}
FOR EACH id IN [ KEYS OF invert_list[term] ]
data[id_content][id] <- invert_list[term][id]
END FOR
data[idf] <- idf[term]
content <- content UNION {data}
END FOR
RETURN FILE lista_invertida WITH CONTENT content

38
1.8.2.2 Diagrama de flujo del algoritmo para generar la lista invertida

2
1 3
39
Figura 29: Diagrama de flujo del algoritmo para generar la lista invertida. (Fuente: elaboración propia)
40
1.8.2.3 Pseudocódigo del algoritmo de búsqueda de información para el cálculo de

similaridad de la misma.
Después de generar la lista invertida, se procedió hacer la búsqueda de información

para el cálculo de similitud de la misma, para ello se utilizó el siguiente algoritmo:
INPUT: Let invert_list_content be the content of the inverted list file

Let terms_query be the set of terms from the query typed in the searchbox
OUTPUT: Set of scored/ranked results
invert_list <- {}
idf <- matrix[]
FOR EACH row IN invert_list_content

term <- row[term]
idf[term] <- row[idf]
i <- 0
WHILE i LESS OR EQUAL THAN SIZE OF row[id_content]
invert_list[term][row[id_content][i]] = row[id_content][i+1]
i <- i + 2
END WHILE
END FOR
terms <- {}
FOR EACH term IN terms_query

IF term EXISTS IN KEYS OF invert_list THEN
terms <- terms UNION {term}
END IF
END FOR
relevant_document_ids <- {}

ids_documentos <- KEYS OF invert_list[term]
relevant_document_ids <- relevant_document_ids UNION ids_documentos
END FOR
relevant_document_ids <- relevant_document_ids WITHOUT DUPLICATES
IF SIZE OF relevant_document_ids > 0 THEN

frecuencia_term_query <- matrix[]
FOR EACH term in KEYS OF invert_list

count <- 0
FOR EACH term1 in terms
IF term equals term 1 THEN count <- count + 1
END FOR
frecuencia_term_query[term] = count
END FOR
weight_query <- matrix[]
k <- 0
41
FOREACH term IN KEYS OF invert_list

IF term EXISIS IN SET OF KEYS FROM frecuencia_term_query THEN
weight_query[term] <- frecuencia_term_query[term]
ELSE
weight_query[term] <- 0
END IF
k <- k + (weight_query[term] ^ 2)
END FOR
query_norm <- SQUARE ROOT OF k
weight <- matrix[]
FOR EACH term in SET OF KEYS FROM invert_list
FOR EACH id IN relevant_document_ids
IF id EXISTS IN SET OF KEYS FROM invert_list[term] THEN
weight[id][term] <- invert_list[term][id] * idf[term]
ELSE
weight[id][term] <- 0
END IF
END FOR
END FOR
scores <- matrix[]
FOR EACH id IN relevant_document_ids
document_norm <- 0
FOREACH term IN SET OF KEYS FROM invert_list
document_norm <- document_norm + weight[id][term] ^ 2
END FOR
div <- ( SQUARE ROOT OF document_norm ) * query_norm
IF div NOT EQUALS 0 THEN

sum_value_coordenada <- 0
FOR EACH term IN SET OF KEYS FROM invert_list
sum_value_coordenada <- sum_value_coordenada +
weight[id][term] * weight_query[term]
END FOR
document_norm <- 0
FOREACH term IN SET OF KEYS FROM invert_list
document_norm <- document_norm + weight[id][term] ^ 2
END FOR
document_norm <- SQUARE ROOT OF document_norm
scores[id] <- sum_value_coordenada / ( document_norm * query_norm )

ELSE
scores[id] <- 1
END IF
END FOR
scores <- scores INVERSE SORTED
END IF
RETURN scores
42
1.8.2.4 Diagrama de flujo del algoritmo de búsqueda de información para el cálculo de

similaridad de la misma.
2
1
43
4 6
5
44
9
45
10
12
Figura 30: Diagrama de flujo del algoritmo de búsqueda de información para el cálculo de similaridad de la
misma. (Fuente: Elaboración propia)
46
1.9 Prototipos del sistema

A continuación se presenta el prototipo de implementación del sistema desarrollado
como solución al problema.
Figura 31: Pantalla del inicio de búsqueda del sistema informático. (Fuente: Elaboración Propia)
Figura 32: Pantalla que muestra resultados de la búsqueda. (Fuente: Elaboración Propia)
47
Figura 33: Pantalla que muestra información precisa de un registro de tesis. (Fuente: Elaboración Propia)
Figura 34: Pantalla para el administrador del sistema informático. (Fuente: Elaboración Propia)
48
Figura 35: Pantalla de administración con registros de tesis. (Fuente: Elaboración Propia)
2.7.1 Técnicas de procedimiento
Para poder comprobar estadísticamente la diferencia entre el pre y post test se utilizó
lo siguiente:
La media aritmética o promedio (M): Es el estadístico de tendencia central más

significativo y corresponde variables de cualquier nivel de medición pero particularmente a
las mediciones de intervalo y de razón.
𝑿𝟏 + 𝑿𝟐 + 𝑿 …
𝐌=
𝑵
Dónde:
M: Media aritmética
X: Frecuencia de un valor cualquiera de la variable
N: Número total de los valores considerados.
Desviación Estándar.- Es una medida de dispersión de las variables cuantitativas.
Tratamiento Estadístico.- Los análisis estadísticos que se empleó son descriptivos e

inferenciales, en la parte descriptiva se usó tabla de frecuencia, gráficos y medidas. En la
parte inferencial, para comparar los diferentes datos que se obtienen a través del instrumento
elaborado para los fines de la investigación, se usó la estadística T-student.
Varianza.- Es una medida de dispersión que se representa la variabilidad de una serie de
datos respecto a su media o promedio.
49
Excel 2013.- Software que se utilizó para la creación de gráficos y calcular el promedio y
desviación estándar ya que cuenta con una serie de funciones matemáticas que permite
sistematizar y automatizar cálculos manuales.
Presentación de datos
• Tablas: Para un mejor entendimiento de los datos se presentó en tablas

distribuyéndolos en columnas y filas, agrupando los datos evitando duplicidades y
superando el desorden. Esto sirvió de gran ayuda visual ya que permitieron organizar los
resultados de la investigación.
• Figuras: Importantes para expresar la tendencia de un hecho o fenómeno. Se usó
figuras estadísticas como barras, líneas, áreas, etc.
2.7.2. Método de fiabilidad del instrumento de investigación
Para determinar la fiabilidad del instrumento se realizó mediante el método conocido

como el “Alpha de Cronbach”, método que se utiliza para la determinación de fiabilidad de
una escala de medición, cuya denominación fue presentada por Lee J. Cronbach (1951).
Cabe mencionar que la escala de medición en el instrumento utilizado fue la escala

de Linkert. Además, Oviedo & Arias (2005) en su artículo “Aproximación al uso del
coeficiente alfa de Cronbach” sostiene que el valor mínimo aceptable para el coeficiente de
alfa de Cronbach es de 0.70; por debajo de ese valor la consistencia interna de la escala
utilizada es baja.
El análisis de Alpha de Cronbach se aplicó al cuestionario de la variable dependiente
(Y: Grado de similaridad) de tal manera como se puede observar en la tabla 9 el valor del
Pre test es superior a 0.70 lo cual representa un nivel de fiabilidad “Buena”.
Tabla 9
Estadística de fiabilidad del cuestionario de la variable dependiente (y) en el pre
test
Alpha de N° de elementos
Cronbach
Pre Test 0.815 7
Fuente: elaboración propia con spss
En la tabla 10 se observa los datos estadísticos calculados por ítem, cabe mencionar
que la correlación total de elementos corregidos son superiores a 0.3 lo cual es aceptable.
50
Tabla 10
Estadísticas de total de elemento de la variabla dependiente (y) en el pre test
Media de Varianza de Correlación Correlación Alfa de
escala si el escala si el total de múltiple al Cronbach si
elemento se ha elemento se ha elementos cuadrado el elemento se
suprimido suprimido corregida ha suprimido
Item 1 10,7273 10,208 0,376 0,825 10,7273
Item 2 11,0909 10,468 0,493 0,801 11,0909
Item 3 10,8636 10,028 0,566 0,789 10,8636
Item 4 11,0909 9,801 0,587 0,786 11,0909
Item 5 11,0000 9,619 0,592 0,784 11,0000
Item 6 11,0000 9,619 0,592 0,784 11,0000
Item 7 10,8636 8,885 0,704 0,762 10,8636
El análisis de Alpha de Cronbach se aplicó al cuestionario de la variable dependiente
en el post test (Y: grado de similaridad) de tal manera como se puede observar en la tabla
11 el valor del post test es superior a 0.70 lo cual representa un nivel de fiabilidad “Buena”.
Tabla 11
Estadística de fiabilidad del cuestionario de la variable dependiente (y) en el post
test
Cronbach
Post Test 0.794 7
que la correlación total de elementos corregidos son superiores a 0.3 lo cual es aceptable, no
se muestra ningún ítem con un resultado inferior a 0.3
Tabla 12
Estadísticas de total de elemento de la variabla dependiente (y) en el post test
Item 1 26,8636 4,600 0,319 0,804 26,8636
Item 2 26,7273 4,494 0,365 0,797 26,7273
Item 3 26,9091 3,801 0,780 0,718 26,9091
Item 4 26,6364 4,052 0,629 0,747 26,6364
Item 5 26,8182 4,537 0,343 0,800 26,8182
Item 6 26,8636 4,123 0,570 0,758 26,8636
Item 7 26,8182 3,870 0,704 0,732 26,8182
51
El análisis de Alpha de Cronbach se aplicó al cuestionario de la variable

independiente (X: Sistema informático basado en el modelo de espacio vectorial) en el post
test de tal manera como se puede observar en tabla 13 el valor equivalente a la fiabilidad del
instrumento es 0.773 cabe recalcar que dicho valor es superior a 0.70, lo cual representa un
nivel de fiabilidad buena.
Tabla 13
Estadística de fiabilidad del cuestionario de la variable independiente (x) en el post
test
Cronbach
Post Test 0.773 4
que la correlación total de elementos corregidos son superiores a 0.3 lo cual es aceptable
Tabla 14
Estadísticas de total de elemento de la variabla dependiente (y) en el post test
Item 1 13,5909 1,301 0,358 0,669 13,5909
Item 2 13,4545 1,212 0,543 0,552 13,4545
Item 3 13,7273 1,160 0,497 0,576 13,7273
Item 4 13,7727 1,232 0,430 0,622 13,7727
Después de haber comprobado que hay existe fiabilidad en el instrumento utilizado,

se procedió a utilizar los resultados obtenidos para la prueba de hipótesis.
2.7.3. Prueba de hipótesis
Una prueba de hipótesis es una metodología o procedimiento que permite cuantificar

la probabilidad del error que se podría haber cometido cuando se hace una afirmación sobre
la población objeto de estudio.
La prueba de hipótesis consiste en confrontar la hipótesis nula (Hₒ) y la hipótesis

alternativa (Hₐ), de tal manera se acepta o rechaza alguna o viceversa.
52
Formulación de la hipótesis estadística:
Ho : Upre ≥ Upos significó que la valoración al grado de similaridad en el pre test es mayor
o igual a la valoración al grado de similaridad en el post test.
Ha : Upre < Upos significó que la valoración al grado de similaridad en el pre test es menor
a la valoración al grado de similaridad en el post test.
Nivel de significancia: tomaremos ∝= 0.05
Estadístico de prueba: Se utilizó n = 22 porque el número de docentes evaluados en el Pre

Test como en el Pos Test son los mismos docentes, por tanto, son muestras relacionadas y
por ello el grado de libertad tomado en esta tesis es de n – 1 = 21.
Donde:
Ypre: Media del Pre Test
𝑌𝑝𝑟𝑒 − 𝑌𝑝𝑜𝑠 Ypos: Media del Pos Test
𝑈=
√𝑆𝑝2 ∗ (1) 𝑆𝑝2 : Varianza
𝑛
n: número de docentes encuestados
Para calcular la varianza se utilizó la siguiente fórmula:

𝑆𝑝𝑟𝑒 2 ∗ 𝑛𝑝𝑟𝑒 + 𝑆𝑝𝑜𝑠 2 ∗ 𝑛𝑝𝑜𝑠
Sp2 =
𝑛−1
Para calcular el “t” en la Tabla T-student uso:
𝑡(𝑛−1 ; ∝) = − 1.812
Determinación de la región crítica:
𝑡 = −1.812
Figura 36: Determinación de la región crítica. (Fuente: Elaboración propia)
Regla de decisión:
ACEPTAR Ho si U ϵ Zona de Aceptación
RECHAZAR Ho si U ϵ Zona de Rechazo

53
Obtención del Valor Experimental:

Tabla 15
Datos obtenidos en el pre test
VALORACIÓN DEL GRADO DE SIMILARIDAD DE PROYECTOS DE TESIS NUMERO DE TESIS EVALUADAS POR CONSULTA
¿Cómo califica
¿Cómo califica el La aprobación de un proyecto de tesis está
En calidad de jurado calificador a las
proceso de basada en el informe de observaciones que ¿Cómo usted califica a La posibilidad El tiempo que usted
de un proyecto de tesis, cómo herramientas
evaluación de los presenta el jurado calificador. Si existiera un la disponibilidad de de obtener podría tardarse en
usted califica a la información que usted
proyectos de tesis en tema de duplicidad o de un alto grado de acceso a todas las tesis acceso al evaluar duplicidad o
Nº DOCENTES
TOTAL
TOTAL
que le brindan para determinar si dispone para
la FISI para similitud entre tesis que ya fueron que han sido número total grado de similitud de un
un proyecto de tesis, entregado determinar
determinar sustentadas, la principal responsabilidad sustentadas en la FISI de tesis proyecto de tesis con el
para su evaluación, es una duplicidad o
duplicidad o recae en el jurado calificador. Entonces para determinar sustentadas en número total de tesis
propuesta de un trabajo bastante alto grado de
similitud con los siguiendo esta premisa, ¿cómo usted califica duplicidad o alto grado la FISI, lo sustentadas en la FISI.
similar a uno que ya fue similitud en los
trabajos aprobados o al proceso de aprobación de proyectos de de similitud? considera Lo considera
aprobado o sustentado en la FISI proyectos de
sustentados? tesis en la FISI
tesis?
OPCION OPCION OPCION OPCION OPCION OPCION
1 4 2 1 7 1 3 2 2 8
2 3 2 3 8 2 2 2 3 9
3 3 2 2 7 2 3 2 2 9
4 3 3 3 9 3 3 4 3 13
5 1 1 2 4 2 1 1 2 6
6 3 1 2 6 3 2 2 2 9
7 2 3 3 8 2 2 2 3 9
8 3 1 2 6 1 1 2 1 5
9 2 1 1 4 1 1 1 1 4
10 2 2 2 6 1 2 2 2 7
54
11 2 1 2 5 2 1 2 2 7
12 2 1 1 5 2 1 3 1 7
13 2 2 3 7 3 3 2 4 12
14 2 2 2 6 1 1 1 1 4
15 1 2 1 4 2 1 1 2 6
16 1 1 2 4 1 2 2 2 7
17 2 1 2 5 1 2 1 1 5
18 1 2 2 5 2 2 1 2 7
19 1 1 2 4 1 2 1 1 5
20 2 2 1 5 1 1 2 1 5
21 2 1 2 5 1 1 2 1 5
22 1 2 1 4 1 2 1 2 6
Fuente: Elaboración del investigador

55
Tabla 16
Datos obtenidos en el post test
VALORACIÓN DEL GRADO DE SIMILARIDAD
NUMERO DE TESIS EVALUADAS POR CONSULTA VALORACIÓN DEL SISTEMA INFORMÁTICO
DE PROYECTOS DE TESIS
En calidad de La aprobación de un
jurado proyecto de tesis está
calificador de basada en el informe
un proyecto de de observaciones que ¿Cómo usted Cuando Con respecto
tesis, cómo presenta el jurado califica al usted usa el a la calidad de
El tiempo que
usted califica a ¿Cómo calificador. Si Sistema Sistema los resultados
usted podría
la información califica el existiera un tema de ¿Cómo usted ¿Cómo califica Informático, Informático de la
tardarse en
que le brindan proceso de duplicidad o de un califica a la a las como ¿Qué búsqueda
La posibilidad evaluar ¿Qué
para evaluación de alto grado de disponibilidad de herramientas herramienta calificación (tesis
de obtener duplicidad o calificación
Nº DOCENTES
determinar si los proyectos similitud entre tesis acceso a todas que usted de apoyo, en le daría al recuperadas)
TOTAL
TOTAL
TOTAL
acceso al grado de le daría a la
un proyecto de de tesis en la que ya fueron las tesis que han dispone para el proceso de tiempo de que realiza el
número total similitud de un facilidad de
tesis, FISI para sustentadas, la sido sustentadas determinar evaluación evaluación Sistema
de tesis proyecto de interacción
entregado para determinar principal en la FISI para duplicidad o del grado de del grado de Informático,
sustentadas en tesis con el con el
su evaluación, duplicidad o responsabilidad recae determinar alto grado de similitud o similitud de para ser
la FISI, lo número total Sistema
es una similitud con en el jurado duplicidad o alto similitud en los duplicidad un proyecto usadas en el
considera: de tesis Informático?
propuesta de los trabajos calificador. Entonces grado de proyectos de de un de tesis con proceso de
sustentadas en
un trabajo aprobados o siguiendo esta similitud? tesis? proyecto de los todos las evaluación de
la FISI. Lo
bastante sustentados? premisa, ¿cómo tesis a ser tesis un proyecto
considera:
similar a uno usted califica al aprobado en sustentadas de tesis. Lo
que ya fue proceso de la FISI? en la FISI? considera
aprobado o aprobación de
sustentado en proyectos de tesis en
la FISI la FISI
OPCION OPCION OPCION OPCION OPCION OPCION OPCION OPCION OPCION OPCION OPCION
56
1 4 4 4 12 4 4 4 5 17 4 5 4 4 17
2 5 5 5 15 5 4 5 5 19 5 5 5 5 20
3 4 5 5 14 5 5 4 5 19 5 5 5 5 20
4 5 4 4 13 4 5 5 5 19 5 5 5 4 19
5 4 4 4 12 4 4 5 5 18 4 5 4 4 17
6 4 4 4 12 4 4 5 5 18 5 5 5 5 20
7 4 4 4 12 4 4 5 5 18 5 5 5 4 19
8 4 4 5 13 4 5 5 5 19 5 5 4 4 18
9 4 4 4 12 5 5 5 5 20 5 5 5 4 19
10 5 4 4 13 4 5 4 5 18 5 5 4 4 18
11 4 4 5 13 5 5 5 5 20 4 5 5 5 19
12 4 5 4 13 4 4 5 5 18 5 5 4 5 19
13 4 4 4 12 4 4 5 5 18 5 5 5 5 20
14 4 4 4 12 4 4 4 5 17 5 4 4 4 17
15 4 5 5 14 5 4 5 4 18 5 5 5 5 20
16 4 4 4 12 5 4 4 5 18 4 5 4 5 18
17 5 5 5 15 5 5 5 5 20 4 4 4 4 16
18 4 5 4 13 4 4 4 4 16 4 4 5 4 17
19 5 5 4 14 4 4 4 4 16 5 4 4 4 17
20 5 5 5 15 5 5 4 4 18 4 4 4 4 16
21 5 5 4 14 4 4 4 4 16 4 5 4 5 18
22 5 5 4 14 4 4 4 4 16 4 4 4 4 16
57
Fórmula del cálculo del Estadístico de Prueba (U):
𝑌𝑝𝑟𝑒 − 𝑌𝑝𝑜𝑠 𝑌𝑝𝑟𝑒 ∗ 𝑛 + 𝑌𝑝𝑜𝑠 ∗ 𝑛

𝑈= = −18.290381 𝑆𝑝2 = = 8.29
𝑛−1
√𝑆𝑝2 ∗ (1)
𝑛
Resumen de Datos Calculados:
varianza pre test 12.9458874

varianza pos test 2.88528139
Ypre (media pre test) 12.7727273
Ypos (media pos test) 31.1363636
n = npre = npos 22
Sp2 8.29
U (valor calculado) -29.9107181
α (nivel de significancia) 0.05
t(63,0.05) (valor de tabla) -1.812
Decisión:
U < t numéricamente -18.290381< -1.812
Por tanto se Rechaza la H o y se ACEPTA la Ha
𝑈 = −29.910718 𝑡 = −1.812
Figura 37: Ubicación del estadístico de prueba en el gráfico de la distribución normal. (Fuente: Elaboración
propia)
58
CAPÍTULO III
RESULTADOS Y DISCUSIÓN
Para la identificación del grado de similaridad se realizó las respectivas pruebas del
sistema, de tal manera que proporcionando a dicho sistema los parámetros establecidos
(título, variables o hipótesis) se consultó con las tesis alojadas en la base de datos del sistema
informático, cabe mencionar que dicha información que extraída del repositorio de tesis de
la Universidad Nacional de San Martín, haciendo posible la obtención del grado de
similaridad de la consulta echa por el usuario.
Se accedió al sitio web donde se encuentra alojado el sistema informático

(http://jauregui.infinitumperu.com)
Figura 38: Interfáz del sistema para la consulta del grado de similaridad. (Fuente: elaboración propia)
Posteriormente se hizo la siguiente consulta: “historiales médicos en clínica”
Por ende en sistema informático basado en el modelo de espacio vectorial hizo el

respectivo cálculo de similitud de la propuesta hecha por el usuario, obteniendo el siguiente
resultado:
El sistema informático mostró que la consulta echa por el usuario “historiales

médicos en clínica” se consultó con 65 tesis, obteniendo las similitudes más relevantes
mostrando el más alto grado de similaridad del 77.66% con la tesis “Implementación de un
sistema de información web para la gestión de historiales médicos en la clínica san martín”,
seguido del 74.17% con la tesis “Implementación de un sistema de información para la
gestión de historiales médicos en la clínica san camilo salud, Tarapoto” (Ver figura 39)
59
Figura 39: Cálculo del grado de similaridad de la consulta historiales médicos en clínica. (Fuente: elaboración
propia)
La siguiente prueba que se hizo fue con la siguiente consulta: “congestionamiento vehicular”
El sistema informático mostró que la consulta echa por el usuario

“congestionamiento vehicular” se consultó con 2 tesis, obteniendo el grado de similaridad
del 45.09% con la tesis “Sistema de visión artificial para determinar el flujo de
congestionamiento vehicular en una vía transitable de la ciudad de tarapoto” seguido por el
33.57% con la tesis “Sistema web para mejorar el proceso de registro de la información
vehicular en la unidad de tránsito de la municipalidad provincial de San Martín” ( Ver figura
40)
Figura 40: Cálculo del grado de similaridad de la consulta congestionamiento vehicular. (Fuente:
elaboración propia)
60
La siguiente prueba que se hizo fue con la siguiente consulta: “Seguridad cuidadana”
El sistema informático mostró que la consulta echa por el usuario

“congestionamiento vehicular” se consultó con 4 tesis, obteniendo el grado de similaridad
del 28.02% con la tesis “Implementación de un sistema de gestión de seguridad de la
información, aplicado a los riesgos asociados a los activos de información en la empresa net
– consultores s.a.c”, 26.62% con la tesis denominada “Sistema de cámaras de video
vigilancia para la seguridad ciudadana en la residencial los sauces del distrito de la banda de
shilcayo de la provincia de san Martín”, 26.5% con la tesis “Segmentación de la red y
priorización del ancho de banda para mejorar el rendimiento y seguridad la universidad
nacional de San Martín – Tarapoto” y el 23.34% “Seguridad y control del acceso a las redes
inalámbricas en la UNSM-T mediante servidores de autentificación radius con el uso de
certificados digitales” (ver figura 41)
Figura 41: Cálculo del grado de similaridad de la consulta Seguridad cuidadana
La siguiente prueba que se hizo fue con la siguiente consulta: “Simulación del
transporte urbano”
El sistema informático mostró que la consulta echa por el usuario “Simulación del
transporte urbano” se consultó con 51 tesis, obteniendo la similaridad más relevante del
60.79% con la tesis “Simulación del sistema de transporte urbano de la cuidad de tarapoto
para planificar escenarios futuros”, (Ver figura 42)
61
Figura 42: Cálculo del grado de similaridad de la consulta Simulación del transporte urbano. (Fuente:
elaboración propia)
La siguiente prueba que se hizo fue con la siguiente consulta: “Sistema de sensores”
El sistema informático mostró que la consulta echa por el usuario “Sistema de

sensores” se consultó con 78 tesis, obteniendo las similitudes más relevantes mostrando el
más alto grado de similaridad del 30.36% con la tesis “Solución web con tecnología de red
de sensores para el monitoreo de los parámetros básicos de la realidad del agua en el río
shilcayo ”, seguido del 29.55% con la tesis “Uso de sensores digitales de movimiento para
menguar el desperdicio de agua potable en urinarios y lavatorios del colegio mons. Atanacio
Jáuregui Goiri de la cuidad de Yurimaguas” (Ver figura 43)
Figura 43: Cálculo del grado de similaridad de la consulta Sistema de sensores. (Fuente elaboración propia)
62
Cabe mencionar que el presente trabajo de investigación se utilizó como instrumento

una encuesta teniendo como alternativas la escala de likert, dicha encuesta se utilizó en el
pre y pos test, es decir se llegó a conocer la realidad de la problemática de una antes y
después de la implementación del sistema informático basado en el modelo de espacio
vectorial para la identificación del grado de similaridad de propuestas de tesis en la Facultad
de Ingeniería de Sistema e Informática de la UNSM-T
Cabe mencionar que se llegó a encuestar a 22 docentes de la Facultad de Ingeniería

de Sistemas e Informática de la Universidad Nacional de San Martín, llegándose a encontrar
lo siguiente:
1. Sobre la variable dependiente (Y), Grado de similaridad.
Antes de la implementación de la propuesta como solución a la problemática.
En cuanto al indicador concerniente valoración de la identificación del grado de

similaridad, antes de sistema informático para la identificación de la misma, el 6% de
docentes lo considera como “Malo” como también el 45% lo considera “Regular”, cabe
mencionar que el 23% de los mismo lo consideran como “Bueno” y solo el 5% lo califica
como “Muy bueno”, es decir que para la mayoría de los encuestados la información para la
identificación de similaridad de una propuesta de tesis con una ya aprobada suele ser muchas
veces escasa. (Ver tabla N° 17)
Concerniente al indicador de número de tesis evaluadas en una consulta antes de la

implementación del sistema informático, el 9% de los encuestados lo califican como pésimo,
el 64% lo califican como malo, el 23% como regular y el 5% lo califican como bueno, la
revisión manual de proyectos de tesis para determinar la similaridad con una propuesta
demanda de mucho tiempo ya que no se cuenta con una herramienta que permita sistematizar
y automatizar dicho proceso (Ver tabla N° 17)
Por lo tanto en la identificación del grado de similaridad de proyectos de tesis, se

encontró que el 5% de los docentes lo calificaron como pésimo, el 77% lo calificaron como
malo y solo el 18% como regular, esto es antes de la implementación del sistema
informático. (Ver Figura N° 44)
63
Tabla 17
Resumen de los indicadores de la identificación del grado de similaridad de proyectos de
tesis en la FISI, antes de la implementación del sistema informático
Variable Indicador N° Porcentaje
Pésimo 0 0%
Valoración de la
Malo 6 27%
identificación del
Regular 10 45%
grado de
Bueno 5 23%
similaridad.
Muy bueno 1 5%
Pésimo 2 9%
Número de tesis Malo 14 64%
evaluadas en una Regular 5 23%
consulta Bueno 1 5%
Muy bueno 0 0%
MUY BUENO BUENO PÉSIMO

REGULAR 0% 0% 5%
18%
MALO
77%
Figura 44: valoración a la identificación del grado de similaridad de proyectos de tesis (Pre Test). (Fuente:
64
Después de la implementación de la propuesta como solución a la problemática.
Después de la implementación del sistema informático, se obtuvo que el 36% de los

docentes encuestados calificaron a la identificación del grado de similaridad de proyectos
de tesis como bueno, dado que el 64% de los mismos lo calificaron como muy bueno, esto
se debe a que se tiene una base de datos centralizada con los proyectos de tesis de la Facultad
de Ingeniería de Sistemas e Informática de la UNSM-T, de tal manera que mediante dicho
sistema informático hace posible la identificación del grado de similaridad de una propuesta
de tesis con una desarrollada. (Ver tabla N° 18)
En cuanto al número de tesis evaluadas en una consulta, después de la

implementación del sistema informático, se encontró que el 18% lo calificaron como regular
y el 82% como bueno, esto gracias a la implementación de dicha herramienta tecnológica
que permite el rápido acceso a los proyectos desarrollados, sistematizando y automatizando
dicho proceso. (Ver tabla N° 18)
Por lo tanto, después de la implementación del sistema informático para

identificación del grado de similaridad de proyectos de tesis, se encontró que el 77% de los
docentes lo calificaron como “Bueno” y el 23% lo calificaron como “Muy bueno”. (Ver
Figura N° 45)
Tabla 18
Resumen de los indicadores de la identificación del grado de similaridad de proyectos de
tesis en la FISI, después de la implementación del sistema informático.
Variable Indicador N° Porcentaje
Pésimo 0 0%
Valoración de la
Malo 0 0%
identificación del
Regular 0 0%
grado de
Bueno 8 36%
similaridad.
Muy bueno 14 64%
Pésimo 0 0%
Número de tesis Malo 0 0%
evaluadas en una Regular 4 18%
consulta Bueno 18 82%
Muy bueno 0 0%
65
PÉSIMO
MALO 0% REGULAR
MUY BUENO 0% 0%
23%
PÉSIMO
MALO
REGULAR
BUENO
MUY BUENO
BUENO
77%
Figura 45: Resultado de la identificación del grado de similaridad de proyectos de tesis (Post Test). (Fuente:
En cuanto a la identificación del grado de similaridad de proyectos de tesis, se pudo
constatar que mejoró en un 59% al incrementar su puntuación de 12.77272727 a 31.1363636
gracias a la implementación del sistema informático. (Ver Tabla 19 y Figura 46)
Tabla 19
Comparación proporcional del grado de similaridad de proyectos de tesis en relación con
la implementación del buscador informático
Variable Medición
Media 12.7727273
Pre Test
N° 22
Grado de similaridd
Media 31.1363636
Post Test
N° 22
66
Identificación del grado de similaridad de proyectos de

tesis Pre y Post test implementación del sistema
informático
35
30
25 31.13636364
20
15
10 12.77272727
5
0
Pre Test Pos Test
Figura 46: Identificación del grado de similaridad de proyectos de tesis Pre y Post test implementación del
sistema informático. (Fuente: Elaboración propia)
Los datos son contundentes, sobre la mejora que se obtuvo en la identificación del
grado de similaridad de proyectos de tesis en la Facultad de Ingeniería de Sistemas e
Informática de la UNSM-T es un claro reflejo de la implementación del sistema informático.
2. Sobre la variable independiente (X), Sistema informático basado en el modelo de

espacio vectorial.
Después de la implementación de la herramienta tecnológica, se procedió a la

valoración de la misma, cabe mencionar que dicha valoración se hizo mediante la encuesta
realizada a los docentes de la FISI, llegando a conocer lo siguiente:
En cuanto a la valoración del sistema informático como una herramienta de apoyo

para el proceso de identificación, los usuarios encuestados mostraron un alto nivel de
satisfacción, ya que la herramienta implementada automatiza y sistematiza dicho proceso,
facilitando de una manera rápida la identificación del grado de similaridad de una
determinada propuesta de tesis con una que ya fue desarrollada y sustentada, como se puede
observar en la Tabla N° 20, el 41% de los encuestados los calificaron como “Bueno” y el
59% lo calificaron como “Muy Bueno”.
67
Tabla 20
Del sistema informático como herramienta de apoyo, en el proceso de evaluación del
grado de similaridad de proyectos de tesis
Escala de medición N° Porcentaje
Pésimo 0 0%
Malo 0 0%
Regular 0 0%
Bueno 9 41%
Muy bueno 13 59%
Fuente: Ficha de recolección de datos
Calificación del sistema informático como herramienta

de apoyo, en el proceso de evaluación del grado de
similaridad o duplicidad de un proyecto de tesis
PESIMO MALO
REGULAR 0% 0%
0% BUENO
41%
MUY BUENO
59%
Figura 47: Calificación del sistema informático como herramienta de apoyo, en el proceso de evaluación del
grado de similaridad o duplicidad de un proyecto de tesis. (Fuente: Elaboración propia)
Respecto a la calidad de los resultados de búsqueda (tesis recuperadas en una

consulta), los usuarios encuestados mostraron un grado de satisfacción considerable, el 59%
lo calificó como “Bueno” y el 41% lo calificó como “Muy bueno” (Ver tabla N° 21), cabe
mencionar que al momento de hacer uso de la herramienta proporcionando al sistema los
parámetros establecidos para la identificación del grado de similaridad, el sistema
informático hace una búsqueda con todas las tesis desarrolladas y sustentadas en la FISI,
mostrando la similaridad de la propuesta de tesis con una ya desarrollada y sustentada
(información con la cuenta el sistema), a su vez el sistema informático muestra el número
de tesis evaluadas en dicha consulta realizada por el usuario.
68
Tabla 21
Respecto a la calidad de los resultados de la búsqueda (tesis recuperadas) que realiza el
Sistema Informático
Escala de medición N° Porcentaje
Pésimo 0 0%
Malo 0 0%
Regular 0 0%
Bueno 13 59%
Muy bueno 9 41%
Fuente: Ficha de recolección de datos
Respecto a la calidad de los resultados de la

búsqueda (tesis recuperadas) que realiza el sistema
informático
MALO
PESIMO 0% REGULAR
0% 0%
MUY
BUENO
41%
BUENO
59%
Figura 48: Respecto a la calidad de los resultados de búsqueda (tesis recuperadas) que sea realiza el sistema
informático. (Fuente: Ficha de Recolección de Datos)
Teniendo en cuenta los resultados antes mostrados, podemos afirmar que la hipótesis
alterna se confirma y por lo tanto se acepta, de modo que: “La implementación de un sistema
informático basado en el Modelo de Recuperación Vectorial, se logró mejorar la
identificación del grado de similaridad de proyectos de tesis de la Facultad de Ingeniería de
Sistemas e Informática de la UNSM-T.
69
Sobre la influencia de la variable X sobre la variable Y.

Usamos el 𝑅2 que es el Coeficiente de Determinación, que se encuentra entre los
valor de 0 a 1, el cual indica:
• Si el valor de 𝑅2 está más cercano a 0 (cero) entonces la influencia de la variable X
sobre Y es débil.
• Si el valor de 𝑅2 está más cercano a 1 (uno) entonces la influencia de la variable X
sobre Y es fuerte.
Podemos mencionar que el valor de 𝑅2 = 1 es el coeficiente de determinación y se
define como la proporción de la varianza total de la variable explicada por la regresión. En
este trabajo se ha obtenido el valor “1” (ver figura 49) que indica que existe una relación
perfecta entre las variables, por tanto existe una fuerte relación entre ellas. Cuando se aplica
el modelo de espacio vectorial se logra mejorar la identificación del grado de similaridad de
proyectos de tesis de la Facultad de Ingeniería de Sistemas e Informática de la UNSM-T
Y
4.65
4.60
4.55
4.50
4.45
4.40
4.35
y = 3.0933x3 - 43.76x2 + 206.39x - 319.98
4.30
R² = 1
4.25
4.20
4.15
4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5 5.1
Figura 49: Relación de la variable X sobre la variable Y. (Fuente: Ficha de Recolección de datos)
.
70
CONCLUSIONES
Sobre el objetivo general se concluye que:
1. Con la implementación del sistema informático basado en el modelo de espacio

vectorial, se logró identificar de manera rápida y eficaz el grado de similaridad de una
determinada propuesta de tesis con las que ya fueron desarrollados y sustentados, el
77% de los docentes encuestados lo calificaron como una herramienta “Bueno” y el
23% de los mismos lo calificaron como “Muy bueno” esto porque dicha herramienta
automatiza y sistematiza los procesos manuales para la identificación del grado de
similaridad, así mismo en cuanto a la calidad de los resultados el 59% de los encuestados
lo calificaron como “Bueno” y el 41% “Muy bueno”.
Sobre los objetivos específicos se concluye que:
1. Se cuenta con una base de datos de las tesis desarrolladas y sustentadas, de tal manera
que permite el rápido acceso a la información cuando el usuario lo requiera.
2. Se desarrolló un aplicativo web (desarrollado aplicando metodología RUP) que
permitió automatizar y sistematizar los procesos manuales para identificar el grado de
similaridad de proyectos de tesis brindando datos relevantes de las tesis evaluadas en la
consulta echa por el usuario, logrando ser calificado por el 82% de los encuestados
como una herramienta “Muy bueno” y útil en el proceso de identificación del grado de
similaridad de proyectos de tesis y el 18% de los mismos lo calificaron como “Bueno”.
3. Se obtuvo un incremente de la identificación del grado de similaridad de proyectos de
tesis, en cuanto al uso del sistema informático, paso de ser calificado por los usuarios
de “Regular” (18%), “Malo” (77%) y “Pésimo” (5%), a “Bueno” (77%) y “Muy
Bueno” (23%), cabe mencionar que en cuanto a la calificación de la calidad de los
resultados de búsqueda (tesis recuperadas en una consulta) el 59% de los encuestados
lo calificaron como “Bueno” y el 41% como “Muy Bueno”.
Teniendo en cuenta las conclusiones antes mencionadas y después de haber sido verificada
la hipótesis de trabajo se afirma que: Con el uso de un sistema informático basado en el
modelo de espacio vectorial se mejoró la identificación del grado de similaridad de
proyectos de tesis de la Facultad de Ingeniería de Sistemas e Informática de la UNSM-T
71
RECOMENDACIONES
1. A la Unidad de investigación de la Facultad de Ingeniería de Sistemas e Informática de

la UNSM-T se recomienda realizar la actualización al sistema informático, con el fin de
mantenerlo siempre a la par con las tesis desarrolladas y sustentadas.
2. Usar el sistema informático basado en el modelo de espacio vectorial para la
identificación del grado de similaridad de proyectos de tesis en la Facultad de Ingeniería
de Sistemas e Informática de la UNSM-T dada su importante contribución que tiene
para obtener el grado de similaridad de una determinada propuesta de tesis con una ya
desarrollada y sustentada, de tal manera evitar duplicidad o el desarrollo de un proyecto
con alto grado de similaridad.
3. Investigar nuevos modelos computacionales de aprendizaje de máquina que permitan
implementar herramientas tecnológicas que automaticen y sistematicen procesos
manuales.
72
REFERENCIAS BIBLIOGRÁFICAS
Al-Anzi, F. & Abuzeina, D. (2017). Toward an enhanced Arabic text classification using
cosine similarity and Latent Semantic Indexing. Journal of King Saud University -
Computer and Information Sciences, 29(2), 189–195.
https://doi.org/10.1016/J.JKSUCI.2016.04.001
Alzahrani, S. & Palade, V. (2015). Uncovering highly obfuscated plagiarism cases using
fuzzy semantic-based similarity model. Journal of King Saud University - Computer
and Information Sciences, 27(3), 248–268. https://doi.org/10.1016/j.jksuci.2014.12.001
Baba, K. & Minami, T. (2017). Plagiarism detection using document similarity based on
distributed representation. Procedia Computer Science, 111, 382–387.
https://doi.org/10.1016/J.PROCS.2017.06.038
Castillo, L. (2005). Difusión de información. Recuperado de

https://www.uv.es/macas/T6.pdf
Castro, M. & Viale, J. (2005). Sistema de búsqueda y comparación de documentos, 230,

pp.10-58. Recuperado de
http://tesislatinoamericanas.info/index.php/record/view/32702
Oviedo, H. & Campo, A. (2005). Aproximación al uso del coeficiente alfa de Cronbach.
Revista Colombiana de Psiquiatría, XXXIV (4), 572-580
García, R. (2006). Recuperacion y Organizacion de la informacion. España. Recuperado de

http://modelosrecuperacion.tripod.com/
EcuRed. (2017). Definición de Información científica. Recuperado de

https://www.ecured.cu/Informaci%C3%B3n_Cient%C3%ADfica
Ecured (2017) Definición de tesis. Recuperado de

https://www.ecured.cu/Anexo:Tesis_(Elaboraci%C3%B3n)
Ecured (2017) Definición de Investigación. Recuperado de

https://www.ecured.cu/Investigaci%C3%B3n
Hadzic, D. & Sarajlic, N. (2018). Methodology for fuzzy duplicate record identification
73
based on the semantic-syntactic information of similarity. Journal of King Saud

University - Computer and Information Sciences.
https://doi.org/10.1016/J.JKSUCI.2018.05.001
López, M. (2013). Recuperación De Información Para Respuesta a Preguntas En

Documentos Legales, 123. Recuperado de http://pics.gelbukh.com/thesis/Alfredo
Lopez Monroy - PhD.pdf
Lupita. (2010). Buscador web. Recuperado de http://www-informatica-

01a1.blogspot.pe/2010/04/que-es-un-buscador.html
Martínez, F. (2002). Propuesta y desarrollo de un modelo para la evaluación de la

recuperación de información en internet. Tesis Doctoral, Universidad de Murcia.
España. Recuperado de: https://digitum.um.es/xmlui/bitstream/10201/83/1/tesis-
javiermartinez.pdf?sequence=1
McInnes, B. & Pedersen, T. (2013). Evaluating measures of semantic similarity and

relatedness to disambiguate terms in biomedical text. Journal of Biomedical Informatics,
46(6), 1116–1124. https://doi.org/10.1016/J.JBI.2013.08.008
LAURA, D. (2014). “recuperación de la información empleando el modelo de espacio

vectorial en la gestión documentaria para la unidad de resoluciones de la universidad
nacional del altiplano - puno” Universidad nacional del altiplano, 8–76. Recuperado de
http://www.sciencedirect.com/science/article/pii/S113205591500006X
Lizcano B. (2013). Sistema de recuperación de información basado en el modelo vectorial.

22-29 pp.
Ochando, M. (2012) Técnicas avanzadas de recuperación de información. Recuperado de

http://ccdoc-tecnicasrecuperacioninformacion.blogspot.com/2012/12/modelo-
vectorial.html
Pamplona, C. (2015). Concepto de Buscador. Recuperado de

http://www.aula21.net/tallerwq/buscadores/buscador1.htm
Paradis, R. D., Guo, J. K., Moulton, J., Cameron, D., & Kanerva, P. (2013). Finding
Semantic Equivalence of Text Using Random Index Vectors. Procedia Computer
74
Science, 20, 454–459. https://doi.org/10.1016/J.PROCS.2013.09.302
Pérez, J. (2014) Definición de identificación. Recuperado de

https://definicion.de/identificacion/
Robertson, S. (2004). Understanding Inverse Document Frequency: On theoretical

arguments for IDF. Journal of Documentation. Vol.60: (5), 503-520 pp.
Sánchez, J. (2011) Detección automático de plagio basada en la distinción y fragmentación

de texto reutilizado (tesis de maestría). Instituto Nacional de Astrofísica, Óptica y
Electrónica, Coordinación de Ciencias Computacionales. Puebla. México
Saralegi Urizar, X., & Alegria Loinaz, I. (2007). Similitud entre documentos multilingües
de carácter científico-técnico en un entorno Web. Universidad del País Vasco, 71-78.
Recuperado de http://www.redalyc.org/html/5157/515751739009/
Segovia, J. (2005) Publicación duplicada o redundante: ¿podemos permitírnoslo? Rev Esp

Cardiol. 58(05), 601-604
Soguero, C. (2015). Concepto de Buscador. Recuperado de

http://www.aula21.net/tallerwq/buscadores/buscador1.htm
Souza, R. (2006). Sistemas de recuperação de informações e mecanismos de busca na web:

panorama atual e tendências. Perspectivas em Ciência da Informação (Impresso), Belo
Horizonte, 11(2), 161-173.
Tong, S., & Chang, E. (2001). Support vector machine active learning for image retrieval.
In Proceedings of the ninth ACM international conference on Multimedia (pp. 107-118).
ACM.
75
ANEXOS
Anexo 1: Entrevista para la recolección de información
TESIS:
“SISTEMA INFORMÁTICO BASADO EN EL MODELO DE ESPACIO VECTORIAL

PARA LA IDENTIFICACIÓN DEL GRADO DE SIMILARIDAD DE PROYECTO DE
TESIS EN LA FACULTAD DE INGENIERÍA DE SISTEMAS E INFORMÁTICA DE
LA UNSM-T”
ENCUESTA PRE TEST
APELLIDOS Y NOMBRES: …………………………………………………………………..
FECHA:….…/………/…..…
Instrucciones:
Estimado docente de la FISI - UNSM, solicitamos su colaboración para el desarrollo del

presente cuestionario. Cada pregunta tiene 5 alternativas de respuesta.
Marca con una equis (X) una de las alternativas, que desde su criterio, corresponda a la
opción que mejor represente su opinión:
SOBRE: GRADO DE SIMILARIDAD
VALORACIÓN DEL GRADO DE SIMILARIDAD DE PROYECTOS DE TESIS
1. En calidad de jurado calificador de un proyecto de tesis, cómo usted califica a la

información que le brindan para determinar si un proyecto de tesis, entregado para su
evaluación, es una propuesta de un trabajo bastante similar a uno que ya fue aprobado o
sustentado en la FISI.
A). Pésimo B). Malo C). Regular D). Bueno E). Muy bueno
76
2. ¿Cómo califica el proceso de evaluación de los proyectos de tesis en la FISI para

determinar duplicidad o similitud con los trabajos aprobados o sustentados?
3. La aprobación de un proyecto de tesis está basada en el informe de observaciones

que presenta el jurado calificador. Si existiera un tema de duplicidad o de un alto grado de
similitud entre tesis que ya fueron sustentadas, la principal responsabilidad recae en el jurado
calificador. Entonces siguiendo esta premisa, ¿cómo usted califica al proceso de aprobación
de proyectos de tesis en la FISI?:
NÚMERO DE TESIS EVALUADAS POR CONSULTA
4. ¿Cómo usted califica a la disponibilidad de acceso a todas las tesis que han sido
sustentadas en la FISI para determinar duplicidad o alto grado de similitud?
5. ¿Cómo califica a las herramientas que usted dispone para determinar duplicidad o
alto grado de similitud en los proyectos de tesis?:
6. La posibilidad de obtener acceso al número total de tesis sustentadas en la FISI, lo

considera:
7. El tiempo que usted podría tardarse en evaluar duplicidad o grado de similitud de un
proyecto de tesis con el número total de tesis sustentadas en la FISI. Lo considera:
MUCHAS GRACIAS.
77
TESIS:
“SISTEMA INFORMÁTICO BASADO EN EL MODELO DE ESPACIO VECTORIAL

PARA LA IDENTIFICACIÓN DEL GRADO DE SIMILARIDAD DE PROYECTO DE
TESIS EN LA FACULTAD DE INGENIERÍA DE SISTEMAS E INFORMÁTICA DE
LA UNSM-T”
ENCUESTA POS TEST
APELLIDOS Y NOMBRES: ………………………………………………………..
FECHA:….…/………/…..…
Instrucciones:
Estimado docente de la FISI - UNSM, solicitamos su colaboración para el desarrollo del

presente cuestionario. Cada pregunta tiene 5 alternativas de respuesta.
Marca con una equis (X) una de las alternativas, que desde su criterio, corresponda a la
opción que mejor represente su opinión:
SOBRE: GRADO DE SIMILARIDAD
VALORACIÓN DEL GRADO DE SIMILARIDAD DE PROYECTOS DE TESIS
1. En calidad de jurado calificador de un proyecto de tesis, cómo usted califica a la

información que le brindan para determinar si un proyecto de tesis, entregado para su
evaluación, es una propuesta de un trabajo bastante similar a uno que ya fue aprobado o
sustentado en la FISI.
2. ¿Cómo califica el proceso de evaluación de los proyectos de tesis en la FISI para

determinar duplicidad o similitud con los trabajos aprobados o sustentados?
78
3. La aprobación de un proyecto de tesis está basada en el informe de observaciones

que presenta el jurado calificador. Si existiera un tema de duplicidad o de un alto grado de
similitud entre tesis que ya fueron sustentadas, la principal responsabilidad recae en el jurado
calificador. Entonces siguiendo esta premisa, ¿cómo usted califica al proceso de aprobación
de proyectos de tesis en la FISI?:
NÚMERO DE TESIS EVALUADAS POR CONSULTA
1. ¿Cómo usted califica a la disponibilidad de acceso a todas las tesis que han sido
sustentadas en la FISI para determinar duplicidad o alto grado de similitud?
2. ¿Cómo califica a las herramientas que usted dispone para determinar duplicidad o
alto grado de similitud en los proyectos de tesis?:
3. La posibilidad de obtener acceso al número total de tesis sustentadas en la FISI, lo

considera:
4. El tiempo que usted podría tardarse en evaluar duplicidad o grado de similitud de un
proyecto de tesis con el número total de tesis sustentadas en la FISI. Lo considera:
79
SOBRE: SISTEMA INFORMÁTICO BASADO EN EL MODELO DE ESPACIO

VECTORIAL
VALORACIÓN DEL SISTEMA INFORMÁTICO
1. ¿Cómo usted califica al Sistema Informático, como herramienta de apoyo, en el

proceso de evaluación del grado de similitud o duplicidad de un proyecto de tesis a ser
aprobado en la FISI?
2. Cuando usted usa el Sistema Informático ¿Qué calificación le daría al tiempo de

evaluación del grado de similitud de un proyecto de tesis con los todos las tesis sustentadas
en la FISI?
3. ¿Qué calificación le daría a la facilidad de interacción con el Sistema Informático?
4. Con respecto a la calidad de los resultados de la búsqueda (tesis recuperadas) que

realiza el Sistema Informático, para ser usadas en el proceso de evaluación de un proyecto
de tesis. Lo considera:
MUCHAS GRACIAS.
80
Anexo 2: Características técnicas de la plataforma tecnológica para la implementación del sistema

informático
a) Recursos de software
- Tipo de Sistema: Sistema Web
- Lenguaje de Programación: PHP versión 7.1.9
JavaScript
HTML5
SQL
CSS
- Sistema Gestor de Base de Datos: PostgreSQL
b) Recursos de hardware
Para las pruebas del funcionamiento del sistema se utilizó un servidor, el cual cumple los
requerimientos necesarios para la implementación del Sistema informático basado en el
modelo de espacio vectorial para la identificación del grado de similaridad de proyectos de
tesis de la Facultad de Ingeniería de Sistemas e Informática de la UNSM-T
A continuación se describe las características técnicas del Servidor utilizado:
- Sistema Operativo: Microsoft Windows 10 Pro
- Memoria RAM: 4 GB
- Procesador: Intel® Core m5
- Motor de Base de datos PostgreSQL versión 9.5
- PHP orchestrator: XAMPP version 7.1.9 with PHP 7.1.9
Posteriormente, para el despliegue final del sistema informático y publicación en internet,

se tuvo en cuenta las siguientes características para el alojamiento web.
- Tipo de Alojamiento: De Suscripción anual
- Espacio en Disco: 250 Mb
- Tráfico mensual: Ilimitado

81
- Plataforma de Administración: CPanel versión 11
- Versión de PostgreSQL: 9.5
- Versión de PHP: 7.1.9

82
Anexo 3: Carta dirigida al director de la unidad de investigación de la FISI para solicitar

información para ejecución de proyectos de tesis

FISI - Ridger Remberto Jáuregui Guerra

Cargado por

Copyright:

Formatos disponibles

FISI - Ridger Remberto Jáuregui Guerra

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

FISI - Ridger Remberto Jáuregui Guerra

Cargado por

Copyright:

Formatos disponibles

vi

UNIVERSIDAD NACIONAL DE SAN MARTÍN – TARAPOTO

FACULTAD DE INGENIERÍA DE SISTEMAS E INFORMÁTICA

Sistema informático basado en el modelo de espacio vectorial para la

Tesis para optar el título profesional de Ingeniero de Sistemas e Informática

El presente trabajo está dedicado:

A la Universidad Nacional de San Martín – Tarapoto a través del Instituto de

Dedicatoria .................................................................................................................... viii

CAPITULO III ............................................................................................................... 58

RESULTADOS Y DISCUSIÓN ..................................................................................... 58

REFERENCIAS BIBLIOGRÁFICAS ............................................................................. 72

Tabla 1: Escala de medición de las variables ................................................................... 15

Figura 1: Cálculo del TF de un término. ............................................................................ 5

Lista de siglas y abreviaturas

CIERM: Comité Internacional de Editores de Revistas Médicas

DAP : Detección Automática de Plagio

DSI : Difusión Selectiva de Información

FISI : Facultad de Ingeniería de Sistemas e Informática

IDF : Frecuencia Inversa de Documento

MAP : Medida de la precisión media

RSA : Rational Software Architect

UNSM-T: Universidad Nacional de San Martín - Tarapoto.

URL : Localizador Uniforme de Recursos

La Facultad de Ingeniería de Sistemas e Informática de la Universidad Nacional de San

Palabras clave: Automatización, Calidad, Modelo vectorial, Similitud, Sistematización.

Keywords: Automation, Quality, Vector model, Similarity, systematization.

El Proyecto de Investigación titulado “Sistema informático basado en el modelo de

Actualmente en la Facultad de Sistemas e Informática de la Universidad Nacional de

tesis de la UNSM-T, se realizó una encuesta a 22 docentes de la Facultad de Ingeniería de

Con los resultados obtenidos después de la implementación de la herramienta antes

1.1 Buscador informático

• Índices de búsqueda: En los índices de búsqueda, la base de datos con direcciones

• Motores de búsqueda: En este caso, el rastreo de la web lo hace un programa,

1.2 Modelos para la recuperación de información

1.2.1 Modelo Booleano

1.3 Modelo de recuperación vectorial

• La ponderación de los términos en los documentos, no limitándose a señalar la

• La ponderación de los términos en la consulta, de manera que el usuario puede

Factor TF: Term Frequency : Frecuencia de Aparición de un Término. Es la suma de

Figura 1: Cálculo del TF de un término.(Fuente Robertson, 2004)

El factor IDF de un término es inversamente proporcional al número de documentos

Figura 2: Cálculo del IDF de un término. (Fuente: Robertson, 2004)

1.4 Medida de la precisión media

1.5 Difusión de información

1.5.1 Formas de difusión

1.5.1.1 La difusión bajo demanda

Se considera también difusión bajo demanda la consulta en línea a una base de

1.5.1.2 La difusión documental

1.5.1.2.1. Difusión de documentos primarios

a) Consulta directa en el centro

1.5.1.2.3. Difusión selectiva de la información

Es un sistema de difusión “a la carta”, por el cual se ofrece a cada usuario las

La difusión selectiva de información (DSI) ha sido tradicionalmente un problema no

Para realizar un DSI automatizado se requiere algún programa informático que

1.5.1.2.4. Difusión de recursos Web

1.6 Sistema informático basado en el modelo de espacio vectorial y su influencia en

Lizcano (2013) En la actualidad se cuenta con grandes avances tecnológicos

Un sistema informático basado en el modelo de espacio vectorial, brinda resultados

1.7 Duplicidad de información

publicado previamente. El término información duplicada o redundante ha sido definido por