Опциональный параметр диагностики Typo (caseInsensitive) #2945

ovcharenko-di · 2022-11-27T16:49:36Z

Параметр позволяет не учитывать регистр в словаре исключений.

Описание

Добавил необязательный параметр в диагностику Typo, который позволяет не учитывать регистр в словаре исключений.
Реализовано путем приведения элементов коллекции слов-исключений и токенов к нижнему регистру.

Связанные задачи

Closes #2889

Чеклист

Общие

Ветка PR обновлена из develop
Отладочные, закомментированные и прочие, не имеющие смысла участки кода удалены
Изменения покрыты тестами
Обязательные действия перед коммитом выполнены (запускал команду gradlew precommit)

Для диагностик

Описание диагностики заполнено для обоих языков (присутствуют файлы для обоих языков, для русского заполнено все подробно, перевод на английский можно опустить)

Дополнительно

nixel2007 · 2022-11-27T18:22:24Z

Не могу не задать вопрос. Что по перфомансу на большой конфигурации типа ерп?

nixel2007 · 2022-11-27T18:23:44Z

src/main/java/com/github/_1c_syntax/bsl/languageserver/diagnostics/TypoDiagnostic.java


-          Arrays.stream(camelCaseSplitedWords)
+          Arrays.stream(camelCaseSplitWords)
+            .distinct()


Обоснуй?

в пользовательских конфигах могут использоваться варианты слов с заглавной\строчной, да и случайно могут дубли оказаться.

этот distinct() призван сократить количество элементов коллекции, а даже если дублей нет, то производительность не должна сильно пострадать

nixel2007 · 2022-11-27T18:25:17Z

src/main/java/com/github/_1c_syntax/bsl/languageserver/diagnostics/TypoDiagnostic.java

+          if (caseInsensitive) {
+            camelCaseSplitWords = Arrays.stream(camelCaseSplitWords)
+              .map(String::toLowerCase)
+              .toArray(String[]::new);


Если на этом шаге уже есть перегонка в стрим, но нет смысла гонять их стрима в массив и обратно. Можно сразу начать обрабатывать стрим. Предлагаю засунуть в Stream до условия, в условии сделать toLowerCase и distinct() (если он действительно нужен), а вне условия уже оставить оставшийся код стрима.

стало не актуально

вместо приведения к нижнему регистру я изменил тип коллекции, чтобы можно было их сравнивать либо с учетом, либо без учета регистра в зависимости от параметра диагностики

Только ты сложность алгоритма увеличил. contains в set работает за O(1), а в List - за O(n)

nixel2007 · 2022-11-27T18:25:43Z

Спасибо! Пара мелких замечаний.

ovcharenko-di · 2022-11-27T20:27:34Z

Не могу не задать вопрос. Что по перфомансу на большой конфигурации типа ерп?

проверю) нужна будет консультация по тому, как грамотно сделать замер

nixel2007 · 2022-11-27T21:32:54Z

@ovcharenko-di
https://1c-syntax.github.io/bsl-language-server/contributing/Measures/

Только не забыть выключить защитник винды и прогонять два-три раза подряд (без больших пауз), чтобы на прогретых дисках

ovcharenko-di · 2022-11-30T16:50:40Z

@ovcharenko-di https://1c-syntax.github.io/bsl-language-server/contributing/Measures/

Только не забыть выключить защитник винды и прогонять два-три раза подряд (без больших пауз), чтобы на прогретых дисках

Исправил замечания по Stream->Array->Stream. Проверка ERP без регл. отчетов на одной этой диагностике выполняется с разницей +/- 2 секунды относительно develop.
НО появились FP на всяких аббревиатурах и это проблема. Буду смотреть, в чем дело.

ovcharenko-di · 2022-11-30T17:18:48Z

@nixel2007 разобрался. Далее в дело вступает JLanguageTool, который, видимо, пропускает аббревиатуры.

А раз я сейчас все токены лихо привожу к нижнему регистру, то он считает, что это обычное слово. Буду думать, как это исправить.

@EightM , может быть, у тебя есть идеи?

параметр позволяет не учитывать регистр в словаре исключений

ovcharenko-di · 2022-12-11T12:23:10Z

@ovcharenko-di https://1c-syntax.github.io/bsl-language-server/contributing/Measures/

Только не забыть выключить защитник винды и прогонять два-три раза подряд (без больших пауз), чтобы на прогретых дисках

проверил, разницы особой нет

sonarqubecloud · 2022-12-11T12:27:11Z

Kudos, SonarCloud Quality Gate passed!

0 Bugs
0 Vulnerabilities
0 Security Hotspots
2 Code Smells

100.0% Coverage
0.0% Duplication

nixel2007 · 2023-03-31T08:21:19Z

@EightM plz review

EightM · 2023-03-31T08:26:33Z

src/main/java/com/github/_1c_syntax/bsl/languageserver/diagnostics/TypoDiagnostic.java

    var delimiter = ",";
    String exceptions = SPACES_PATTERN.matcher(info.getResourceString("diagnosticExceptions")).replaceAll("");
    if (!userWordsToIgnore.isEmpty()) {
      exceptions = exceptions + delimiter + SPACES_PATTERN.matcher(userWordsToIgnore).replaceAll("");
    }

+    if (caseInsensitive) {
+      exceptions = exceptions.toLowerCase();


В параметрах lowerCase должна быть явно указана локаль (в проекте вроде используется English)
https://rules.sonarsource.com/java/RSPEC-1449

EightM · 2023-03-31T08:27:06Z

src/main/java/com/github/_1c_syntax/bsl/languageserver/diagnostics/TypoDiagnostic.java


  @Override
  public void configure(Map<String, Object> configuration) {
    super.configure(configuration);
    minWordLength = Math.max(minWordLength, DEFAULT_MIN_WORD_LENGTH);
  }

-  private Set<String> getWordsToIgnore() {
+  private List<String> getWordsToIgnore() {


В чем логика замены Set на List?

EightM · 2023-03-31T08:40:18Z

src/main/java/com/github/_1c_syntax/bsl/languageserver/diagnostics/TypoDiagnostic.java

            .filter(Predicate.not(String::isBlank))
            .filter(element -> element.length() >= minWordLength)
-            .filter(Predicate.not(wordsToIgnore::contains))
+            .filter(element -> wordsToIgnore.stream().noneMatch(word


Здесь замена Set на List сделала поиск слова медленнее. contains в сете работает за О(1), здесь же теперь линейный поиск за O(N), в результате сложность всего стрима стала из линейной квадратичной

theshadowco · 2024-06-04T06:31:18Z

@ovcharenko-di
Добьем?

ovcharenko-di · 2024-06-04T09:43:00Z

@theshadowco на своих проектах я как-то уже смирился с тем, что словарь чувствителен к регистру

сейчас я бы вообще закрыл этот issue, но если сообщество считает, что надо реализовать - могу добить, в принципе)
может, устроим голосование в чате?

nixel2007 requested changes Nov 27, 2022

View reviewed changes

ovcharenko-di changed the title ~~Опциональный параметр диагностики Typo (caseInsensitive)~~ WIP: Опциональный параметр диагностики Typo (caseInsensitive) Nov 30, 2022

ovcharenko-di added 3 commits December 11, 2022 12:14

добавил опциональный параметр диагностики

d51ddd4

параметр позволяет не учитывать регистр в словаре исключений

оптимизировал работу с коллекцией слов-исключений

4fb751d

исправил код диагностики (устранил FP)

d55c07a

ovcharenko-di force-pushed the issue/2889 branch from 7f163b9 to d55c07a Compare December 11, 2022 12:19

ovcharenko-di changed the title ~~WIP: Опциональный параметр диагностики Typo (caseInsensitive)~~ Опциональный параметр диагностики Typo (caseInsensitive) Dec 11, 2022

nixel2007 requested a review from EightM March 31, 2023 08:21

EightM reviewed Mar 31, 2023

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Опциональный параметр диагностики Typo (caseInsensitive) #2945

Опциональный параметр диагностики Typo (caseInsensitive) #2945

ovcharenko-di commented Nov 27, 2022

nixel2007 commented Nov 27, 2022

nixel2007 Nov 27, 2022

ovcharenko-di Nov 27, 2022 •

edited

Loading

nixel2007 Nov 27, 2022

ovcharenko-di Dec 11, 2022

nixel2007 Dec 11, 2022

nixel2007 commented Nov 27, 2022

ovcharenko-di commented Nov 27, 2022

nixel2007 commented Nov 27, 2022

ovcharenko-di commented Nov 30, 2022

ovcharenko-di commented Nov 30, 2022

ovcharenko-di commented Dec 11, 2022

sonarqubecloud bot commented Dec 11, 2022

nixel2007 commented Mar 31, 2023

EightM Mar 31, 2023

EightM Mar 31, 2023

EightM Mar 31, 2023

theshadowco commented Jun 4, 2024

ovcharenko-di commented Jun 4, 2024

Опциональный параметр диагностики Typo (caseInsensitive) #2945

Are you sure you want to change the base?

Опциональный параметр диагностики Typo (caseInsensitive) #2945

Conversation

ovcharenko-di commented Nov 27, 2022

Описание

Связанные задачи

Чеклист

Общие

Для диагностик

Дополнительно

nixel2007 commented Nov 27, 2022

nixel2007 Nov 27, 2022

Choose a reason for hiding this comment

ovcharenko-di Nov 27, 2022 • edited Loading

Choose a reason for hiding this comment

nixel2007 Nov 27, 2022

Choose a reason for hiding this comment

ovcharenko-di Dec 11, 2022

Choose a reason for hiding this comment

nixel2007 Dec 11, 2022

Choose a reason for hiding this comment

nixel2007 commented Nov 27, 2022

ovcharenko-di commented Nov 27, 2022

nixel2007 commented Nov 27, 2022

ovcharenko-di commented Nov 30, 2022

ovcharenko-di commented Nov 30, 2022

ovcharenko-di commented Dec 11, 2022

sonarqubecloud bot commented Dec 11, 2022

nixel2007 commented Mar 31, 2023

EightM Mar 31, 2023

Choose a reason for hiding this comment

EightM Mar 31, 2023

Choose a reason for hiding this comment

EightM Mar 31, 2023

Choose a reason for hiding this comment

theshadowco commented Jun 4, 2024

ovcharenko-di commented Jun 4, 2024

ovcharenko-di Nov 27, 2022 •

edited

Loading